KV Cache
Categoria
Termos Tecnicos Avancados
KV Cache (Key-Value Cache) é uma técnica de otimização de inferência em Transformers que armazena os vetores Key é Value ja computados para evitar recalculo a cada novo token gerado. Essencial para inferência rápida mas consome memória significativa.
Categoria
Termos Tecnicos Avancados
O que é KV Cache
KV Cache (Key-Value Cache) é uma otimização fundamental na inferência autoregressiva de Transformers que armazena os vetores Key (K) é Value (V) previamente calculados para cada camada de aténção, evitando recomputação a cada novo token.
Como funciona:
- Na geração do primeiro token, computa K é V para todo o prompt
- Armazena K é V em cache (na memória GPU)
- Para cada novo token, apenas computa K é V do token atual
- Atencao é calculada entre o novo token é todo o cache
Desafios:
- Consumo de memória cresce linearmente com o comprimento da sequência
- Para modelos grandes com contextos longos, KV cache domina uso de memória
- Tecnicas de compressao: GQA, MQA, sliding window
- Paged KV cache (vLLM) para gerênciamento eficiente
A Trilion otimiza KV cache em deployments de LLMs para clientes, usando técnicas avancadas como paged attention é GQA para maximizar throughput é minimizar custos de inferência.
