Flash Attention
Categoria
Termos Tecnicos Avancados
Flash Attention e uma implementacao otimizada do mecanismo de atencao que reduz acesso a memoria GPU usando tiling e recomputacao. Acelera treinamento e inferencia de Transformers em 2-4x com menor consumo de memoria sem alterar o resultado matematico.
Categoria
Termos Tecnicos Avancados
O que e Flash Attention
Flash Attention e uma reimplementacao algoritmica do mecanismo de self-attention em Transformers que otimiza acessos a memoria GPU, tornando o calculo de atencao significativamente mais rapido e eficiente em memoria.
Como funciona:
- Divide a matriz de atencao em blocos (tiling) que cabem em SRAM
- Computa atencao bloco por bloco sem materializar a matriz completa
- Usa recomputacao no backward pass em vez de armazenar ativacoes
- Resultado matematicamente identico a atencao padrao
Impacto:
- 2-4x mais rapido que atencao padrao em PyTorch
- Reducao de 5-20x no uso de memoria
- Permite treinar com sequencias mais longas na mesma GPU
- Adotado como padrao em frameworks modernos (PyTorch 2.0 )
A Trilion utiliza Flash Attention como otimizacao padrao em todos os projetos que envolvem Transformers, garantindo eficiencia maxima em treinamento e inferencia de modelos de IA.
