Self-Attention

Categoria
Modelos e Arquiteturas
Self-Attention e o mecanismo que permite a cada token de uma sequencia calcular sua relacao com todos os outros tokens da mesma sequencia. E o componente central da arquitetura Transformer.
Categoria
Modelos e Arquiteturas
Compartilhar
LinkedInWhatsApp

O que e Self-Attention?

Self-Attention (Auto-Atencao) e o mecanismo que permite a cada elemento de uma sequencia calcular relacoes de relevancia com todos os outros elementos da mesma sequencia. E o bloco fundamental que torna os Transformers tao poderosos.

Mecanismo Query-Key-Value

  • Query (Q): representa a pergunta do token atual
  • Key (K): representa a identidade de cada token
  • Value (V): contem a informacao util de cada token
  • Attention Score: dot product entre Q e K, escalado e normalizado

Formula

Attention(Q,K,V) = softmax(QK^T / sqrt(d_k)) * V, onde d_k e a dimensao das keys.

Vantagens

  • Paralelizacao: processa todos os tokens simultaneamente
  • Dependencias longas: conecta tokens distantes diretamente
  • Interpretabilidade: pesos de atencao mostram relacoes

Na Trilion, self-attention e compreendido como a inovacao central que possibilitou a era dos LLMs e da IA generativa moderna.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.