KV Cache

Categoria
Termos Tecnicos Avancados
KV Cache (Key-Value Cache) é uma técnica de otimização de inferência em Transformers que armazena os vetores Key é Value ja computados para evitar recalculo a cada novo token gerado. Essencial para inferência rápida mas consome memória significativa.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que é KV Cache

KV Cache (Key-Value Cache) é uma otimização fundamental na inferência autoregressiva de Transformers que armazena os vetores Key (K) é Value (V) previamente calculados para cada camada de aténção, evitando recomputação a cada novo token.

Como funciona:

  • Na geração do primeiro token, computa K é V para todo o prompt
  • Armazena K é V em cache (na memória GPU)
  • Para cada novo token, apenas computa K é V do token atual
  • Atencao é calculada entre o novo token é todo o cache

Desafios:

  • Consumo de memória cresce linearmente com o comprimento da sequência
  • Para modelos grandes com contextos longos, KV cache domina uso de memória
  • Tecnicas de compressao: GQA, MQA, sliding window
  • Paged KV cache (vLLM) para gerênciamento eficiente

A Trilion otimiza KV cache em deployments de LLMs para clientes, usando técnicas avancadas como paged attention é GQA para maximizar throughput é minimizar custos de inferência.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.