KV Cache

Categoria
Termos Tecnicos Avancados
KV Cache (Key-Value Cache) e uma tecnica de otimizacao de inferencia em Transformers que armazena os vetores Key e Value ja computados para evitar recalculo a cada novo token gerado. Essencial para inferencia rapida mas consome memoria significativa.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que e KV Cache

KV Cache (Key-Value Cache) e uma otimizacao fundamental na inferencia autoregressiva de Transformers que armazena os vetores Key (K) e Value (V) previamente calculados para cada camada de atencao, evitando recomputacao a cada novo token.

Como funciona:

  • Na geracao do primeiro token, computa K e V para todo o prompt
  • Armazena K e V em cache (na memoria GPU)
  • Para cada novo token, apenas computa K e V do token atual
  • Atencao e calculada entre o novo token e todo o cache

Desafios:

  • Consumo de memoria cresce linearmente com o comprimento da sequencia
  • Para modelos grandes com contextos longos, KV cache domina uso de memoria
  • Tecnicas de compressao: GQA, MQA, sliding window
  • Paged KV cache (vLLM) para gerenciamento eficiente

A Trilion otimiza KV cache em deployments de LLMs para clientes, usando tecnicas avancadas como paged attention e GQA para maximizar throughput e minimizar custos de inferencia.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.