Needle in Haystack
Categoria
Termos Tecnicos Avancados
Needle in Haystack e um teste que avalia se um LLM consegue encontrar e recuperar uma informacao especifica (agulha) escondida em um contexto longo (palheiro). Mede a eficacia real da janela de contexto do modelo em diferentes posicoes e comprimentos.
Categoria
Termos Tecnicos Avancados
O que e Needle in Haystack
Needle in Haystack (Agulha no Palheiro) e um benchmark que testa a capacidade de modelos de linguagem de encontrar e recuperar uma informacao especifica inserida em diferentes posicoes dentro de um contexto longo de texto irrelevante.
Metodologia:
- Insere um fato especifico (agulha) em um texto longo (palheiro)
- Varia posicao da agulha: inicio, meio, fim do contexto
- Varia comprimento total do contexto
- Pergunta ao modelo sobre o fato inserido
O que revela:
- Se o modelo realmente processa todo o contexto ou ignora partes
- Lost-in-the-middle: muitos modelos perdem informacao no meio
- Degradacao de performance com contextos mais longos
- Diferenca entre context window anunciado e util
A Trilion aplica testes needle-in-haystack para validar que modelos selecionados para clientes realmente utilizam toda a janela de contexto anunciada, especialmente em aplicacoes que envolvem documentos longos.
