Needle in Haystack

Categoria
Termos Tecnicos Avancados
Needle in Haystack é um teste que avalia se um LLM consegue encontrar é recuperar uma informação específica (agulha) escondida em um contexto longo (palheiro). Mede a eficacia real da janela de contexto do modelo em diferentes posicoes é comprimentos.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que é Needle in Haystack

Needle in Haystack (Agulha no Palheiro) é um benchmark que testa a capacidade de modelos de linguagem de encontrar é recuperar uma informação específica inserida em diferentes posicoes dentro de um contexto longo de texto irrelevante.

Metodologia:

  • Insere um fato específico (agulha) em um texto longo (palheiro)
  • Varia posicao da agulha: início, meio, fim do contexto
  • Varia comprimento total do contexto
  • Pergunta ao modelo sobre o fato inserido

O que revela:

  • Se o modelo realmente processa todo o contexto ou ignora partes
  • Lost-in-the-middle: muitos modelos perdem informação no meio
  • Degradacao de performance com contextos mais longos
  • Diferenca entre context window anunciado é útil

A Trilion aplica testes needle-in-haystack para validar que modelos selecionados para clientes realmente útilizam toda a janela de contexto anunciada, especialmente em aplicações que envolvem documentos longos.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.