Flash Attention

Categoria

Termos Tecnicos Avancados

Flash Attention é uma implementação otimizada do mecanismo de aténção que reduz acesso a memória GPU usando tiling é recomputação. Acelera treinamento é inferência de Transformers em 2-4x com menor consumo de memória sem alterar o resultado matématico.

Categoria

Termos Tecnicos Avancados

O que é Flash Attention

Flash Attention é uma reimplementação algoritmica do mecanismo de self-attention em Transformers que otimiza acessos a memória GPU, tornando o calculo de aténção significativamente mais rápido é eficiente em memória.

Como funciona:

Divide a matriz de aténção em blocos (tiling) que cabem em SRAM
Computa aténção bloco por bloco sem matérializar a matriz completa
Usa recomputação no backward pass em vez de armazenar ativacoes
Resultado matématicamente identico a aténção padrão

Impacto:

2-4x mais rápido que aténção padrão em PyTorch
Reducao de 5-20x no uso de memória
Permite treinar com sequências mais longas na mesma GPU
Adotado como padrão em frameworks modernos (PyTorch 2.0 )

A Trilion útiliza Flash Attention como otimização padrão em todos os projetos que envolvem Transformers, garantindo eficiência máxima em treinamento é inferência de modelos de IA.

Flash Attention

O que é Flash Attention

Termos relacionados

Glossário...