MMLU Benchmark
Categoria
Termos Tecnicos Avancados
MMLU (Massive Multitask Language Understanding) e um benchmark que avalia o conhecimento e raciocinio de LLMs em 57 areas academicas. Testa desde humanidades ate STEM com questoes de multipla escolha, servindo como referencia padrao de capacidade geral.
Categoria
Termos Tecnicos Avancados
O que e MMLU Benchmark
MMLU (Massive Multitask Language Understanding) e um dos benchmarks mais importantes para avaliar a capacidade geral de modelos de linguagem, testando conhecimento em 57 disciplinas academicas com questoes de multipla escolha.
Estrutura do benchmark:
- 57 areas: desde historia e direito ate fisica e computacao
- Niveis: elementary, high school, college, professional
- Formato: questoes de multipla escolha com 4 opcoes
- Total de ~16.000 questoes de avaliacao
Resultados notaveis:
- GPT-4: ~86% de acerto
- Claude 3.5 Sonnet: ~88% de acerto
- Gemini Ultra: ~90% de acerto
- Humanos experts: ~89.8% em media
A Trilion utiliza MMLU e outros benchmarks para avaliar e comparar modelos de linguagem antes de seleciona-los para projetos de clientes, garantindo a escolha do modelo mais adequado para cada caso de uso.
