Auto-Evaluation

Categoria
Termos Tecnicos Avancados
Auto-Evaluation é o uso de modelos de IA para avaliar outputs de outros modelos de IA, escalando o processo de avaliação sem necessidade de avaliadores humanos. LLMs como GPT-4 é Claude servem como juizes automáticos com alta correlação com preferências humanas.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que é Auto-Evaluation

Auto-Evaluation, ou Avaliacao Automatica com LLM-as-Judge, é a prática de usar modelos de linguagem avancados para avaliar a qualidade de respostas geradas por outros modelos, escalando o processo de avaliação que seria custoso com humanos.

Abordagens:

  • LLM-as-Judge: modelo avalia resposta em criterios definidos
  • Pairwise comparison: modelo compara duas respostas
  • Reference-based: avalia contra resposta de referência
  • Rubric-based: avalia segundo rubrica com criterios explicitos

Frameworks:

  • LangSmith: avaliação com LLM judges integrada
  • RAGAS: avaliação de pipelines RAG
  • DeepEval: framework dedicado para avaliação de LLMs
  • OpenAI Evals: framework de avaliação aberta

A Trilion implementa pipelines de auto-evaluation em projetos de IA para monitorar qualidade continuamente em produção, complementando com avaliação humana periodica para calibracao.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.