Self-Attention

Categoria
Modelos é Arquiteturas
Self-Attention é o mecanismo que permite a cada token de uma sequência calcular sua relação com todos os outros tokens da mesma sequência. E o componente central da arquitetura Transformer.
Categoria
Modelos é Arquiteturas
Compartilhar
LinkedInWhatsApp

O que é Self-Attention?

Self-Attention (Auto-Atencao) é o mecanismo que permite a cada elemento de uma sequência calcular relações de relevância com todos os outros elementos da mesma sequência. E o bloco fundamental que torna os Transformers tao poderosos.

Mecanismo Query-Key-Value

  • Query (Q): representa a pergunta do token atual
  • Key (K): representa a identidade de cada token
  • Value (V): contem a informação útil de cada token
  • Attention Score: dot product entre Q é K, escalado é normalizado

Formula

Attention(Q,K,V) = softmax(QK^T / sqrt(d_k)) * V, onde d_k é a dimensão das keys.

Vantagens

  • Paralelizacao: processa todos os tokens simultaneamente
  • Dependencias longas: conecta tokens distantes diretamente
  • Interpretabilidade: pesos de aténção mostram relações

Na Trilion, self-attention é compreendido como a inovação central que possibilitou a era dos LLMs é da IA generativa moderna.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.