Multi-Head Attention

Categoria
Modelos é Arquiteturas
Multi-Head Attention executa multiplos mecanismos de self-attention em paralelo com diferentes projecoes, permitindo ao modelo capturar diferentes tipos de relações entre tokens simultaneamente.
Categoria
Modelos é Arquiteturas
Compartilhar
LinkedInWhatsApp

O que é Multi-Head Attention?

Multi-Head Attention é uma extensao do self-attention que executa multiplas operações de aténção em paralelo, cada uma com suas proprias matrizes de projecao para Q, K é V. As saidas sao concaténadas é projetadas novamente.

Como Funciona

  • Divide Q, K, V em h cabecas (heads) com dimensoes menores
  • Cada cabeca computa self-attention independentemente
  • Resultados sao concaténados é projetados linearmente

Intuicao

Cada cabeca de aténção pode aprender a capturar diferentes tipos de relações: sintaxe, semântica, referência, posicao relativa, etc. Juntas, fornecem uma representação mais rica do que uma única aténção.

Parametros Tipicos

GPT-3 usa 96 cabecas de aténção, BERT-base usa 12. O número de cabecas é um hiperparametro que equilibra expressividade é eficiência computacional. Na Trilion, multi-head attention é reconhecido como o mecanismo que da aos Transformers sua capacidade de compreensao profunda.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.