Positional Encoding

Categoria
Modelos e Arquiteturas
Positional Encoding e a tecnica que injeta informacao sobre a posicao dos tokens em Transformers, ja que self-attention nao possui nocao inerente de ordem. Usa funcoes senoidais ou embeddings aprendidos.
Categoria
Modelos e Arquiteturas
Compartilhar
LinkedInWhatsApp

O que e Positional Encoding?

Positional Encoding e uma tecnica essencial em Transformers que adiciona informacao de posicao aos embeddings dos tokens. Como o self-attention processa todos os tokens em paralelo sem nocao inerente de ordem, e necessario injetar a posicao de cada token explicitamente.

Abordagens

  • Senoidais: funcoes seno e cosseno com frequencias diferentes (Transformer original)
  • Aprendidos: embeddings de posicao treinados junto com o modelo
  • Rotativos (RoPE): codificacao rotacional usada em modelos recentes como Llama
  • ALiBi: viés de atencao baseado em distancia linear

Importancia

Sem positional encoding, o Transformer trataria a mesma frase com palavras em ordens diferentes de forma identica. A posicao e crucial para compreensao de linguagem.

Evolucao

Tecnicas mais recentes como RoPE permitem extrapolacao para sequencias mais longas que as vistas no treinamento. Na Trilion, a evolucao das tecnicas de positional encoding e acompanhada para entender as capacidades dos LLMs mais modernos.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.