Flash Attention
Categoria
Termos Tecnicos Avancados
Flash Attention é uma implementação otimizada do mecanismo de aténção que reduz acesso a memória GPU usando tiling é recomputação. Acelera treinamento é inferência de Transformers em 2-4x com menor consumo de memória sem alterar o resultado matématico.
Categoria
Termos Tecnicos Avancados
O que é Flash Attention
Flash Attention é uma reimplementação algoritmica do mecanismo de self-attention em Transformers que otimiza acessos a memória GPU, tornando o calculo de aténção significativamente mais rápido é eficiente em memória.
Como funciona:
- Divide a matriz de aténção em blocos (tiling) que cabem em SRAM
- Computa aténção bloco por bloco sem matérializar a matriz completa
- Usa recomputação no backward pass em vez de armazenar ativacoes
- Resultado matématicamente identico a aténção padrão
Impacto:
- 2-4x mais rápido que aténção padrão em PyTorch
- Reducao de 5-20x no uso de memória
- Permite treinar com sequências mais longas na mesma GPU
- Adotado como padrão em frameworks modernos (PyTorch 2.0 )
A Trilion útiliza Flash Attention como otimização padrão em todos os projetos que envolvem Transformers, garantindo eficiência máxima em treinamento é inferência de modelos de IA.
