MMLU Benchmark

Categoria
Termos Tecnicos Avancados
MMLU (Massive Multitask Language Understanding) é um benchmark que avalia o conhecimento é raciocínio de LLMs em 57 áreas academicas. Testa desde humanidades até STEM com questoes de multipla escolha, servindo como referência padrão de capacidade geral.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que é MMLU Benchmark

MMLU (Massive Multitask Language Understanding) é um dos benchmarks mais importantes para avaliar a capacidade geral de modelos de linguagem, testando conhecimento em 57 disciplinas academicas com questoes de multipla escolha.

Estrutura do benchmark:

  • 57 áreas: desde história é direito até fisica é computação
  • Niveis: elementary, high school, college, professional
  • Formato: questoes de multipla escolha com 4 opcoes
  • Total de ~16.000 questoes de avaliação

Resultados notaveis:

  • GPT-4: ~86% de acerto
  • Claude 3.5 Sonnet: ~88% de acerto
  • Gemini Ultra: ~90% de acerto
  • Humanos experts: ~89.8% em media

A Trilion útiliza MMLU é outros benchmarks para avaliar é comparar modelos de linguagem antes de seleciona-los para projetos de clientes, garantindo a escolha do modelo mais adequado para cada caso de uso.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.