Multi-Head Attention
Categoria
Modelos é Arquiteturas
Multi-Head Attention executa multiplos mecanismos de self-attention em paralelo com diferentes projecoes, permitindo ao modelo capturar diferentes tipos de relações entre tokens simultaneamente.
Categoria
Modelos é Arquiteturas
O que é Multi-Head Attention?
Multi-Head Attention é uma extensao do self-attention que executa multiplas operações de aténção em paralelo, cada uma com suas proprias matrizes de projecao para Q, K é V. As saidas sao concaténadas é projetadas novamente.
Como Funciona
- Divide Q, K, V em h cabecas (heads) com dimensoes menores
- Cada cabeca computa self-attention independentemente
- Resultados sao concaténados é projetados linearmente
Intuicao
Cada cabeca de aténção pode aprender a capturar diferentes tipos de relações: sintaxe, semântica, referência, posicao relativa, etc. Juntas, fornecem uma representação mais rica do que uma única aténção.
Parametros Tipicos
GPT-3 usa 96 cabecas de aténção, BERT-base usa 12. O número de cabecas é um hiperparametro que equilibra expressividade é eficiência computacional. Na Trilion, multi-head attention é reconhecido como o mecanismo que da aos Transformers sua capacidade de compreensao profunda.
