Speculative Decoding
Categoria
Termos Tecnicos Avancados
Speculative Decoding e uma tecnica de aceleracao de inferencia que usa um modelo menor e rapido para gerar rascunhos de tokens que sao verificados em paralelo pelo modelo grande. Acelera geracao em 2-3x sem alterar a qualidade das respostas.
Categoria
Termos Tecnicos Avancados
O que e Speculative Decoding
Speculative Decoding e uma tecnica de otimizacao de inferencia para modelos de linguagem que usa um modelo draft pequeno e rapido para propor sequencias de tokens que sao verificadas pelo modelo principal em uma unica passada forward.
Como funciona:
- Modelo draft (pequeno) gera K tokens especulativos rapidamente
- Modelo principal verifica todos os K tokens em paralelo (1 forward pass)
- Tokens aceitos sao mantidos; no ponto de divergencia, amostra do modelo principal
- Resultado e identico a amostragem direta do modelo principal
Beneficios:
- 2-3x speedup na geracao sem perda de qualidade
- Matematicamente equivalente a amostragem normal do modelo grande
- Mais eficiente quando modelo draft concorda frequentemente
- Combinavel com outras otimizacoes como quantizacao
A Trilion implementa speculative decoding em deployments de LLMs para reduzir latencia de geracao, melhorando a experiencia do usuario sem comprometer a qualidade das respostas.
