Multi-Head Attention

Categoria
Modelos e Arquiteturas
Multi-Head Attention executa multiplos mecanismos de self-attention em paralelo com diferentes projecoes, permitindo ao modelo capturar diferentes tipos de relacoes entre tokens simultaneamente.
Categoria
Modelos e Arquiteturas
Compartilhar
LinkedInWhatsApp

O que e Multi-Head Attention?

Multi-Head Attention e uma extensao do self-attention que executa multiplas operacoes de atencao em paralelo, cada uma com suas proprias matrizes de projecao para Q, K e V. As saidas sao concatenadas e projetadas novamente.

Como Funciona

  • Divide Q, K, V em h cabecas (heads) com dimensoes menores
  • Cada cabeca computa self-attention independentemente
  • Resultados sao concatenados e projetados linearmente

Intuicao

Cada cabeca de atencao pode aprender a capturar diferentes tipos de relacoes: sintaxe, semantica, referencia, posicao relativa, etc. Juntas, fornecem uma representacao mais rica do que uma unica atencao.

Parametros Tipicos

GPT-3 usa 96 cabecas de atencao, BERT-base usa 12. O numero de cabecas e um hiperparametro que equilibra expressividade e eficiencia computacional. Na Trilion, multi-head attention e reconhecido como o mecanismo que da aos Transformers sua capacidade de compreensao profunda.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.