Multi-Head Attention
Categoria
Modelos e Arquiteturas
Multi-Head Attention executa multiplos mecanismos de self-attention em paralelo com diferentes projecoes, permitindo ao modelo capturar diferentes tipos de relacoes entre tokens simultaneamente.
Categoria
Modelos e Arquiteturas
O que e Multi-Head Attention?
Multi-Head Attention e uma extensao do self-attention que executa multiplas operacoes de atencao em paralelo, cada uma com suas proprias matrizes de projecao para Q, K e V. As saidas sao concatenadas e projetadas novamente.
Como Funciona
- Divide Q, K, V em h cabecas (heads) com dimensoes menores
- Cada cabeca computa self-attention independentemente
- Resultados sao concatenados e projetados linearmente
Intuicao
Cada cabeca de atencao pode aprender a capturar diferentes tipos de relacoes: sintaxe, semantica, referencia, posicao relativa, etc. Juntas, fornecem uma representacao mais rica do que uma unica atencao.
Parametros Tipicos
GPT-3 usa 96 cabecas de atencao, BERT-base usa 12. O numero de cabecas e um hiperparametro que equilibra expressividade e eficiencia computacional. Na Trilion, multi-head attention e reconhecido como o mecanismo que da aos Transformers sua capacidade de compreensao profunda.
