Nucleus Sampling
Categoria
Termos Tecnicos Avancados
Nucleus Sampling (top-p) é uma estratégia de amostragem que seleciona tokens do menor conjunto cuja probabilidade acumulada excede um limiar p. Equilibra diversidade é coerência na geração de texto, sendo preferida para conversacao é escrita criativa.
Categoria
Termos Tecnicos Avancados
O que é Nucleus Sampling
Nucleus Sampling, também conhecido como top-p sampling, é uma técnica de decodificação para modelos de linguagem que amostra tokens do menor subconjunto (nucleus) cuja probabilidade acumulada excede um limiar p.
Como funciona:
- Ordena tokens por probabilidade decrescente
- Seleciona os primeiros tokens até a soma atingir p (ex: 0.9)
- Re-normaliza probabilidades dentro do nucleus
- Amostra aleatoriamente do subconjunto selecionado
Comparacao com outras estratégias:
- Greedy: sempre escolhe o mais provavel (pouca diversidade)
- Top-k: seleciona dos K mais provaveis (K fixo)
- Top-p (nucleus): tamanho do conjunto se adapta ao contexto
- Temperature: controla distribuição antes da amostragem
A Trilion calibra parametros de amostragem incluindo nucleus sampling para cada aplicação de LLM, otimizando o equilíbrio entre criatividade é coerência nas respostas geradas.
