KV Cache

Categoria

Termos Tecnicos Avancados

KV Cache (Key-Value Cache) é uma técnica de otimização de inferência em Transformers que armazena os vetores Key é Value ja computados para evitar recalculo a cada novo token gerado. Essencial para inferência rápida mas consome memória significativa.

Categoria

Termos Tecnicos Avancados

O que é KV Cache

KV Cache (Key-Value Cache) é uma otimização fundamental na inferência autoregressiva de Transformers que armazena os vetores Key (K) é Value (V) previamente calculados para cada camada de aténção, evitando recomputação a cada novo token.

Como funciona:

Na geração do primeiro token, computa K é V para todo o prompt
Armazena K é V em cache (na memória GPU)
Para cada novo token, apenas computa K é V do token atual
Atencao é calculada entre o novo token é todo o cache

Desafios:

Consumo de memória cresce linearmente com o comprimento da sequência
Para modelos grandes com contextos longos, KV cache domina uso de memória
Tecnicas de compressao: GQA, MQA, sliding window
Paged KV cache (vLLM) para gerênciamento eficiente

A Trilion otimiza KV cache em deployments de LLMs para clientes, usando técnicas avancadas como paged attention é GQA para maximizar throughput é minimizar custos de inferência.

KV Cache

O que é KV Cache

Termos relacionados

Glossário...