MMLU Benchmark

Categoria
Termos Tecnicos Avancados
MMLU (Massive Multitask Language Understanding) e um benchmark que avalia o conhecimento e raciocinio de LLMs em 57 areas academicas. Testa desde humanidades ate STEM com questoes de multipla escolha, servindo como referencia padrao de capacidade geral.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que e MMLU Benchmark

MMLU (Massive Multitask Language Understanding) e um dos benchmarks mais importantes para avaliar a capacidade geral de modelos de linguagem, testando conhecimento em 57 disciplinas academicas com questoes de multipla escolha.

Estrutura do benchmark:

  • 57 areas: desde historia e direito ate fisica e computacao
  • Niveis: elementary, high school, college, professional
  • Formato: questoes de multipla escolha com 4 opcoes
  • Total de ~16.000 questoes de avaliacao

Resultados notaveis:

  • GPT-4: ~86% de acerto
  • Claude 3.5 Sonnet: ~88% de acerto
  • Gemini Ultra: ~90% de acerto
  • Humanos experts: ~89.8% em media

A Trilion utiliza MMLU e outros benchmarks para avaliar e comparar modelos de linguagem antes de seleciona-los para projetos de clientes, garantindo a escolha do modelo mais adequado para cada caso de uso.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.