Flash Attention

Categoria
Termos Tecnicos Avancados
Flash Attention é uma implementação otimizada do mecanismo de aténção que reduz acesso a memória GPU usando tiling é recomputação. Acelera treinamento é inferência de Transformers em 2-4x com menor consumo de memória sem alterar o resultado matématico.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que é Flash Attention

Flash Attention é uma reimplementação algoritmica do mecanismo de self-attention em Transformers que otimiza acessos a memória GPU, tornando o calculo de aténção significativamente mais rápido é eficiente em memória.

Como funciona:

  • Divide a matriz de aténção em blocos (tiling) que cabem em SRAM
  • Computa aténção bloco por bloco sem matérializar a matriz completa
  • Usa recomputação no backward pass em vez de armazenar ativacoes
  • Resultado matématicamente identico a aténção padrão

Impacto:

  • 2-4x mais rápido que aténção padrão em PyTorch
  • Reducao de 5-20x no uso de memória
  • Permite treinar com sequências mais longas na mesma GPU
  • Adotado como padrão em frameworks modernos (PyTorch 2.0 )

A Trilion útiliza Flash Attention como otimização padrão em todos os projetos que envolvem Transformers, garantindo eficiência máxima em treinamento é inferência de modelos de IA.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.