HumanEval

Categoria
Termos Tecnicos Avancados
HumanEval e um benchmark que avalia a capacidade de modelos de IA em gerar codigo funcional a partir de descricoes em linguagem natural. Contem 164 problemas de programacao Python com testes unitarios para verificacao automatica de corretude.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que e HumanEval

HumanEval e um benchmark criado pela OpenAI para avaliar a capacidade de modelos de linguagem em gerar codigo de programacao correto a partir de docstrings e descricoes em linguagem natural.

Estrutura:

  • 164 problemas de programacao em Python
  • Cada problema tem: descricao, assinatura da funcao, testes
  • Metrica principal: pass@k (taxa de acerto com k tentativas)
  • Testes unitarios verificam corretude automaticamente

Resultados de referencia:

  • GPT-4: ~67% pass@1
  • Claude 3.5 Sonnet: ~92% pass@1
  • DeepSeek Coder V2: ~90% pass@1
  • Codex original: ~28.8% pass@1 (2021)

A Trilion avalia capacidades de geracao de codigo de modelos usando HumanEval e benchmarks similares antes de implementar solucoes de AI coding assistants para clientes.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.