Needle in Haystack

Categoria
Termos Tecnicos Avancados
Needle in Haystack e um teste que avalia se um LLM consegue encontrar e recuperar uma informacao especifica (agulha) escondida em um contexto longo (palheiro). Mede a eficacia real da janela de contexto do modelo em diferentes posicoes e comprimentos.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que e Needle in Haystack

Needle in Haystack (Agulha no Palheiro) e um benchmark que testa a capacidade de modelos de linguagem de encontrar e recuperar uma informacao especifica inserida em diferentes posicoes dentro de um contexto longo de texto irrelevante.

Metodologia:

  • Insere um fato especifico (agulha) em um texto longo (palheiro)
  • Varia posicao da agulha: inicio, meio, fim do contexto
  • Varia comprimento total do contexto
  • Pergunta ao modelo sobre o fato inserido

O que revela:

  • Se o modelo realmente processa todo o contexto ou ignora partes
  • Lost-in-the-middle: muitos modelos perdem informacao no meio
  • Degradacao de performance com contextos mais longos
  • Diferenca entre context window anunciado e util

A Trilion aplica testes needle-in-haystack para validar que modelos selecionados para clientes realmente utilizam toda a janela de contexto anunciada, especialmente em aplicacoes que envolvem documentos longos.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.