Positional Encoding

Categoria

Modelos é Arquiteturas

Positional Encoding é a técnica que injeta informação sobre a posicao dos tokens em Transformers, ja que self-attention não possui nocao inerente de ordem. Usa funções senoidais ou embeddings aprendidos.

Categoria

Modelos é Arquiteturas

O que é Positional Encoding?

Positional Encoding é uma técnica essêncial em Transformers que adiciona informação de posicao aos embeddings dos tokens. Como o self-attention processa todos os tokens em paralelo sem nocao inerente de ordem, é necessário injetar a posicao de cada token explicitamente.

Abordagens

Senoidais: funções seno é cosseno com frequências diferentes (Transformer original)
Aprendidos: embeddings de posicao treinados junto com o modelo
Rotativos (RoPE): codificação rotacional usada em modelos recentes como Llama
ALiBi: viés de aténção baseado em distancia linear

Importancia

Sem positional encoding, o Transformer trataria a mesma frase com palavras em ordens diferentes de forma identica. A posicao é crucial para compreensao de linguagem.

Evolucao

Tecnicas mais recentes como RoPE permitem extrapolacao para sequências mais longas que as vistas no treinamento. Na Trilion, a evolução das técnicas de positional encoding é acompanhada para entender as capacidades dos LLMs mais modernos.

Positional Encoding

O que é Positional Encoding?

Abordagens

Importancia

Evolucao

Termos relacionados

Glossário...