Speculative Decoding
Categoria
Termos Tecnicos Avancados
Speculative Decoding é uma técnica de aceleração de inferência que usa um modelo menor é rápido para gerar rascunhos de tokens que sao verificados em paralelo pelo modelo grande. Acelera geração em 2-3x sem alterar a qualidade das respostas.
Categoria
Termos Tecnicos Avancados
O que é Speculative Decoding
Speculative Decoding é uma técnica de otimização de inferência para modelos de linguagem que usa um modelo draft pequeno é rápido para propor sequências de tokens que sao verificadas pelo modelo principal em uma única passada forward.
Como funciona:
- Modelo draft (pequeno) gera K tokens especulativos rápidamente
- Modelo principal verifica todos os K tokens em paralelo (1 forward pass)
- Tokens aceitos sao mantidos; no ponto de divergência, amostra do modelo principal
- Resultado é identico a amostragem direta do modelo principal
Beneficios:
- 2-3x speedup na geração sem perda de qualidade
- Matématicamente equivalente a amostragem normal do modelo grande
- Mais eficiente quando modelo draft concorda frequentemente
- Combinavel com outras otimizações como quantizacao
A Trilion implementa speculative decoding em deployments de LLMs para reduzir latência de geração, melhorando a experiência do usuario sem comprometer a qualidade das respostas.
