HumanEval
Categoria
Termos Tecnicos Avancados
HumanEval e um benchmark que avalia a capacidade de modelos de IA em gerar codigo funcional a partir de descricoes em linguagem natural. Contem 164 problemas de programacao Python com testes unitarios para verificacao automatica de corretude.
Categoria
Termos Tecnicos Avancados
O que e HumanEval
HumanEval e um benchmark criado pela OpenAI para avaliar a capacidade de modelos de linguagem em gerar codigo de programacao correto a partir de docstrings e descricoes em linguagem natural.
Estrutura:
- 164 problemas de programacao em Python
- Cada problema tem: descricao, assinatura da funcao, testes
- Metrica principal: pass@k (taxa de acerto com k tentativas)
- Testes unitarios verificam corretude automaticamente
Resultados de referencia:
- GPT-4: ~67% pass@1
- Claude 3.5 Sonnet: ~92% pass@1
- DeepSeek Coder V2: ~90% pass@1
- Codex original: ~28.8% pass@1 (2021)
A Trilion avalia capacidades de geracao de codigo de modelos usando HumanEval e benchmarks similares antes de implementar solucoes de AI coding assistants para clientes.
