HumanEval
Categoria
Termos Tecnicos Avancados
HumanEval é um benchmark que avalia a capacidade de modelos de IA em gerar código funcional a partir de descricoes em linguagem natural. Contem 164 problemas de programação Python com testes unitarios para verificação automática de corretude.
Categoria
Termos Tecnicos Avancados
O que é HumanEval
HumanEval é um benchmark criado pela OpenAI para avaliar a capacidade de modelos de linguagem em gerar código de programação correto a partir de docstrings é descricoes em linguagem natural.
Estrutura:
- 164 problemas de programação em Python
- Cada problema tem: descrição, assinatura da função, testes
- Metrica principal: pass@k (taxa de acerto com k tentativas)
- Testes unitarios verificam corretude automáticamente
Resultados de referência:
- GPT-4: ~67% pass@1
- Claude 3.5 Sonnet: ~92% pass@1
- DeepSeek Coder V2: ~90% pass@1
- Codex original: ~28.8% pass@1 (2021)
A Trilion avalia capacidades de geração de código de modelos usando HumanEval é benchmarks similares antes de implementar soluções de AI coding assistants para clientes.
