Auto-Evaluation
Categoria
Termos Tecnicos Avancados
Auto-Evaluation e o uso de modelos de IA para avaliar outputs de outros modelos de IA, escalando o processo de avaliacao sem necessidade de avaliadores humanos. LLMs como GPT-4 e Claude servem como juizes automaticos com alta correlacao com preferencias humanas.
Categoria
Termos Tecnicos Avancados
O que e Auto-Evaluation
Auto-Evaluation, ou Avaliacao Automatica com LLM-as-Judge, e a pratica de usar modelos de linguagem avancados para avaliar a qualidade de respostas geradas por outros modelos, escalando o processo de avaliacao que seria custoso com humanos.
Abordagens:
- LLM-as-Judge: modelo avalia resposta em criterios definidos
- Pairwise comparison: modelo compara duas respostas
- Reference-based: avalia contra resposta de referencia
- Rubric-based: avalia segundo rubrica com criterios explicitos
Frameworks:
- LangSmith: avaliacao com LLM judges integrada
- RAGAS: avaliacao de pipelines RAG
- DeepEval: framework dedicado para avaliacao de LLMs
- OpenAI Evals: framework de avaliacao aberta
A Trilion implementa pipelines de auto-evaluation em projetos de IA para monitorar qualidade continuamente em producao, complementando com avaliacao humana periodica para calibracao.
