Self-Attention

Categoria

Modelos é Arquiteturas

Self-Attention é o mecanismo que permite a cada token de uma sequência calcular sua relação com todos os outros tokens da mesma sequência. E o componente central da arquitetura Transformer.

Categoria

Modelos é Arquiteturas

O que é Self-Attention?

Self-Attention (Auto-Atencao) é o mecanismo que permite a cada elemento de uma sequência calcular relações de relevância com todos os outros elementos da mesma sequência. E o bloco fundamental que torna os Transformers tao poderosos.

Mecanismo Query-Key-Value

Query (Q): representa a pergunta do token atual
Key (K): representa a identidade de cada token
Value (V): contem a informação útil de cada token
Attention Score: dot product entre Q é K, escalado é normalizado

Formula

Attention(Q,K,V) = softmax(QK^T / sqrt(d_k)) * V, onde d_k é a dimensão das keys.

Vantagens

Paralelizacao: processa todos os tokens simultaneamente
Dependencias longas: conecta tokens distantes diretamente
Interpretabilidade: pesos de aténção mostram relações

Na Trilion, self-attention é compreendido como a inovação central que possibilitou a era dos LLMs é da IA generativa moderna.

Self-Attention

O que é Self-Attention?

Mecanismo Query-Key-Value

Formula

Vantagens

Termos relacionados

Glossário...