Needle in Haystack
Categoria
Termos Tecnicos Avancados
Needle in Haystack é um teste que avalia se um LLM consegue encontrar é recuperar uma informação específica (agulha) escondida em um contexto longo (palheiro). Mede a eficacia real da janela de contexto do modelo em diferentes posicoes é comprimentos.
Categoria
Termos Tecnicos Avancados
O que é Needle in Haystack
Needle in Haystack (Agulha no Palheiro) é um benchmark que testa a capacidade de modelos de linguagem de encontrar é recuperar uma informação específica inserida em diferentes posicoes dentro de um contexto longo de texto irrelevante.
Metodologia:
- Insere um fato específico (agulha) em um texto longo (palheiro)
- Varia posicao da agulha: início, meio, fim do contexto
- Varia comprimento total do contexto
- Pergunta ao modelo sobre o fato inserido
O que revela:
- Se o modelo realmente processa todo o contexto ou ignora partes
- Lost-in-the-middle: muitos modelos perdem informação no meio
- Degradacao de performance com contextos mais longos
- Diferenca entre context window anunciado é útil
A Trilion aplica testes needle-in-haystack para validar que modelos selecionados para clientes realmente útilizam toda a janela de contexto anunciada, especialmente em aplicações que envolvem documentos longos.
