MMLU Benchmark
Categoria
Termos Tecnicos Avancados
MMLU (Massive Multitask Language Understanding) é um benchmark que avalia o conhecimento é raciocínio de LLMs em 57 áreas academicas. Testa desde humanidades até STEM com questoes de multipla escolha, servindo como referência padrão de capacidade geral.
Categoria
Termos Tecnicos Avancados
O que é MMLU Benchmark
MMLU (Massive Multitask Language Understanding) é um dos benchmarks mais importantes para avaliar a capacidade geral de modelos de linguagem, testando conhecimento em 57 disciplinas academicas com questoes de multipla escolha.
Estrutura do benchmark:
- 57 áreas: desde história é direito até fisica é computação
- Niveis: elementary, high school, college, professional
- Formato: questoes de multipla escolha com 4 opcoes
- Total de ~16.000 questoes de avaliação
Resultados notaveis:
- GPT-4: ~86% de acerto
- Claude 3.5 Sonnet: ~88% de acerto
- Gemini Ultra: ~90% de acerto
- Humanos experts: ~89.8% em media
A Trilion útiliza MMLU é outros benchmarks para avaliar é comparar modelos de linguagem antes de seleciona-los para projetos de clientes, garantindo a escolha do modelo mais adequado para cada caso de uso.
