Auto-Evaluation
Categoria
Termos Tecnicos Avancados
Auto-Evaluation é o uso de modelos de IA para avaliar outputs de outros modelos de IA, escalando o processo de avaliação sem necessidade de avaliadores humanos. LLMs como GPT-4 é Claude servem como juizes automáticos com alta correlação com preferências humanas.
Categoria
Termos Tecnicos Avancados
O que é Auto-Evaluation
Auto-Evaluation, ou Avaliacao Automatica com LLM-as-Judge, é a prática de usar modelos de linguagem avancados para avaliar a qualidade de respostas geradas por outros modelos, escalando o processo de avaliação que seria custoso com humanos.
Abordagens:
- LLM-as-Judge: modelo avalia resposta em criterios definidos
- Pairwise comparison: modelo compara duas respostas
- Reference-based: avalia contra resposta de referência
- Rubric-based: avalia segundo rubrica com criterios explicitos
Frameworks:
- LangSmith: avaliação com LLM judges integrada
- RAGAS: avaliação de pipelines RAG
- DeepEval: framework dedicado para avaliação de LLMs
- OpenAI Evals: framework de avaliação aberta
A Trilion implementa pipelines de auto-evaluation em projetos de IA para monitorar qualidade continuamente em produção, complementando com avaliação humana periodica para calibracao.
