Self-Attention
Categoria
Modelos e Arquiteturas
Self-Attention e o mecanismo que permite a cada token de uma sequencia calcular sua relacao com todos os outros tokens da mesma sequencia. E o componente central da arquitetura Transformer.
Categoria
Modelos e Arquiteturas
O que e Self-Attention?
Self-Attention (Auto-Atencao) e o mecanismo que permite a cada elemento de uma sequencia calcular relacoes de relevancia com todos os outros elementos da mesma sequencia. E o bloco fundamental que torna os Transformers tao poderosos.
Mecanismo Query-Key-Value
- Query (Q): representa a pergunta do token atual
- Key (K): representa a identidade de cada token
- Value (V): contem a informacao util de cada token
- Attention Score: dot product entre Q e K, escalado e normalizado
Formula
Attention(Q,K,V) = softmax(QK^T / sqrt(d_k)) * V, onde d_k e a dimensao das keys.
Vantagens
- Paralelizacao: processa todos os tokens simultaneamente
- Dependencias longas: conecta tokens distantes diretamente
- Interpretabilidade: pesos de atencao mostram relacoes
Na Trilion, self-attention e compreendido como a inovacao central que possibilitou a era dos LLMs e da IA generativa moderna.
