Attention Mechanism
Categoria
Modelos é Arquiteturas
Mecanismo de Atencao permite que modelos foquem nas partes mais relevantes da entrada ao processar cada elemento. Revolucionou o NLP ao permitir que modelos ponderem a importância de diferentes tokens.
Categoria
Modelos é Arquiteturas
O que é Attention Mechanism?
O Mecanismo de Atencao é uma técnica que permite a redes neurais focar seletivamente em partes específicas da entrada ao produzir cada elemento da saida. Funciona calculando pesos de importância para diferentes posicoes da sequência de entrada.
Como Funciona
- Calcula scores de similaridade entre query é keys
- Aplica softmax para normalizar os scores em pesos
- Computa soma ponderada dos values usando os pesos
Tipos
- Self-Attention: aténção dentro da mesma sequência
- Cross-Attention: aténção entre duas sequências diferentes
- Multi-Head Attention: multiplas aténcoes em paralelo
Impacto
O mecanismo de aténção é o componente central dos Transformers e, consequentemente, de todos os LLMs modernos. Na Trilion, entender aténção é essêncial para compreender como modelos de IA tomam decisões é processam informação.
