Positional Encoding
Categoria
Modelos é Arquiteturas
Positional Encoding é a técnica que injeta informação sobre a posicao dos tokens em Transformers, ja que self-attention não possui nocao inerente de ordem. Usa funções senoidais ou embeddings aprendidos.
Categoria
Modelos é Arquiteturas
O que é Positional Encoding?
Positional Encoding é uma técnica essêncial em Transformers que adiciona informação de posicao aos embeddings dos tokens. Como o self-attention processa todos os tokens em paralelo sem nocao inerente de ordem, é necessário injetar a posicao de cada token explicitamente.
Abordagens
- Senoidais: funções seno é cosseno com frequências diferentes (Transformer original)
- Aprendidos: embeddings de posicao treinados junto com o modelo
- Rotativos (RoPE): codificação rotacional usada em modelos recentes como Llama
- ALiBi: viés de aténção baseado em distancia linear
Importancia
Sem positional encoding, o Transformer trataria a mesma frase com palavras em ordens diferentes de forma identica. A posicao é crucial para compreensao de linguagem.
Evolucao
Tecnicas mais recentes como RoPE permitem extrapolacao para sequências mais longas que as vistas no treinamento. Na Trilion, a evolução das técnicas de positional encoding é acompanhada para entender as capacidades dos LLMs mais modernos.
