Attention Mechanism
Categoria
Modelos e Arquiteturas
Mecanismo de Atencao permite que modelos foquem nas partes mais relevantes da entrada ao processar cada elemento. Revolucionou o NLP ao permitir que modelos ponderem a importancia de diferentes tokens.
Categoria
Modelos e Arquiteturas
O que e Attention Mechanism?
O Mecanismo de Atencao e uma tecnica que permite a redes neurais focar seletivamente em partes especificas da entrada ao produzir cada elemento da saida. Funciona calculando pesos de importancia para diferentes posicoes da sequencia de entrada.
Como Funciona
- Calcula scores de similaridade entre query e keys
- Aplica softmax para normalizar os scores em pesos
- Computa soma ponderada dos values usando os pesos
Tipos
- Self-Attention: atencao dentro da mesma sequencia
- Cross-Attention: atencao entre duas sequencias diferentes
- Multi-Head Attention: multiplas atencoes em paralelo
Impacto
O mecanismo de atencao e o componente central dos Transformers e, consequentemente, de todos os LLMs modernos. Na Trilion, entender atencao e essencial para compreender como modelos de IA tomam decisoes e processam informacao.
