Positional Encoding

Categoria
Modelos é Arquiteturas
Positional Encoding é a técnica que injeta informação sobre a posicao dos tokens em Transformers, ja que self-attention não possui nocao inerente de ordem. Usa funções senoidais ou embeddings aprendidos.
Categoria
Modelos é Arquiteturas
Compartilhar
LinkedInWhatsApp

O que é Positional Encoding?

Positional Encoding é uma técnica essêncial em Transformers que adiciona informação de posicao aos embeddings dos tokens. Como o self-attention processa todos os tokens em paralelo sem nocao inerente de ordem, é necessário injetar a posicao de cada token explicitamente.

Abordagens

  • Senoidais: funções seno é cosseno com frequências diferentes (Transformer original)
  • Aprendidos: embeddings de posicao treinados junto com o modelo
  • Rotativos (RoPE): codificação rotacional usada em modelos recentes como Llama
  • ALiBi: viés de aténção baseado em distancia linear

Importancia

Sem positional encoding, o Transformer trataria a mesma frase com palavras em ordens diferentes de forma identica. A posicao é crucial para compreensao de linguagem.

Evolucao

Tecnicas mais recentes como RoPE permitem extrapolacao para sequências mais longas que as vistas no treinamento. Na Trilion, a evolução das técnicas de positional encoding é acompanhada para entender as capacidades dos LLMs mais modernos.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.