Human Evaluation
Categoria
Termos Tecnicos Avancados
Human Evaluation é a avaliação de sistemas de IA por pessoas reais, considerada padrão-ouro de qualidade. Avaliadores humanos julgam respostas de LLMs em criterios como útilidade, veracidade, coerência é segurança, complementando métricas automáticas.
Categoria
Termos Tecnicos Avancados
O que é Human Evaluation
Human Evaluation é o processo de útilizar avaliadores humanos para julgar a qualidade de outputs de sistemas de IA, sendo considerado o padrão-ouro de avaliação por capturar nuances que métricas automáticas não conseguem.
Metodologias:
- Side-by-side: comparar respostas de dois modelos diretamente
- Likert scale: pontuar qualidade em escala numerica
- Ranking: ordenar multiplas respostas por qualidade
- Task-based: avaliar se a tarefa foi completada com sucesso
Desafios:
- Custo alto é tempo longo para coleta de avaliações
- Subjetividade é variabilidade entre avaliadores
- Dificuldade de escalar para muitas avaliações
- Necessidade de guidelines claras é treinamento
A Trilion conduz avaliações humanas rigorosas de sistemas de IA como parte do ciclo de qualidade, garantindo que métricas automáticas sejam validadas pela percepcao real de usuarios.
