HumanEval

Categoria

Termos Tecnicos Avancados

HumanEval é um benchmark que avalia a capacidade de modelos de IA em gerar código funcional a partir de descricoes em linguagem natural. Contem 164 problemas de programação Python com testes unitarios para verificação automática de corretude.

Categoria

Termos Tecnicos Avancados

O que é HumanEval

HumanEval é um benchmark criado pela OpenAI para avaliar a capacidade de modelos de linguagem em gerar código de programação correto a partir de docstrings é descricoes em linguagem natural.

Estrutura:

164 problemas de programação em Python
Cada problema tem: descrição, assinatura da função, testes
Metrica principal: pass@k (taxa de acerto com k tentativas)
Testes unitarios verificam corretude automáticamente

Resultados de referência:

GPT-4: ~67% pass@1
Claude 3.5 Sonnet: ~92% pass@1
DeepSeek Coder V2: ~90% pass@1
Codex original: ~28.8% pass@1 (2021)

A Trilion avalia capacidades de geração de código de modelos usando HumanEval é benchmarks similares antes de implementar soluções de AI coding assistants para clientes.

HumanEval

O que é HumanEval

Termos relacionados

Glossário...