Multi-Head Attention

Categoria

Modelos é Arquiteturas

Multi-Head Attention executa multiplos mecanismos de self-attention em paralelo com diferentes projecoes, permitindo ao modelo capturar diferentes tipos de relações entre tokens simultaneamente.

Categoria

Modelos é Arquiteturas

O que é Multi-Head Attention?

Multi-Head Attention é uma extensao do self-attention que executa multiplas operações de aténção em paralelo, cada uma com suas proprias matrizes de projecao para Q, K é V. As saidas sao concaténadas é projetadas novamente.

Como Funciona

Divide Q, K, V em h cabecas (heads) com dimensoes menores
Cada cabeca computa self-attention independentemente
Resultados sao concaténados é projetados linearmente

Intuicao

Cada cabeca de aténção pode aprender a capturar diferentes tipos de relações: sintaxe, semântica, referência, posicao relativa, etc. Juntas, fornecem uma representação mais rica do que uma única aténção.

Parametros Tipicos

GPT-3 usa 96 cabecas de aténção, BERT-base usa 12. O número de cabecas é um hiperparametro que equilibra expressividade é eficiência computacional. Na Trilion, multi-head attention é reconhecido como o mecanismo que da aos Transformers sua capacidade de compreensao profunda.

Multi-Head Attention

O que é Multi-Head Attention?

Como Funciona

Intuicao

Parametros Tipicos

Termos relacionados

Glossário...