HumanEval

Categoria
Termos Tecnicos Avancados
HumanEval é um benchmark que avalia a capacidade de modelos de IA em gerar código funcional a partir de descricoes em linguagem natural. Contem 164 problemas de programação Python com testes unitarios para verificação automática de corretude.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que é HumanEval

HumanEval é um benchmark criado pela OpenAI para avaliar a capacidade de modelos de linguagem em gerar código de programação correto a partir de docstrings é descricoes em linguagem natural.

Estrutura:

  • 164 problemas de programação em Python
  • Cada problema tem: descrição, assinatura da função, testes
  • Metrica principal: pass@k (taxa de acerto com k tentativas)
  • Testes unitarios verificam corretude automáticamente

Resultados de referência:

  • GPT-4: ~67% pass@1
  • Claude 3.5 Sonnet: ~92% pass@1
  • DeepSeek Coder V2: ~90% pass@1
  • Codex original: ~28.8% pass@1 (2021)

A Trilion avalia capacidades de geração de código de modelos usando HumanEval é benchmarks similares antes de implementar soluções de AI coding assistants para clientes.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.