MMLU Benchmark

Categoria

Termos Tecnicos Avancados

MMLU (Massive Multitask Language Understanding) é um benchmark que avalia o conhecimento é raciocínio de LLMs em 57 áreas academicas. Testa desde humanidades até STEM com questoes de multipla escolha, servindo como referência padrão de capacidade geral.

Categoria

Termos Tecnicos Avancados

O que é MMLU Benchmark

MMLU (Massive Multitask Language Understanding) é um dos benchmarks mais importantes para avaliar a capacidade geral de modelos de linguagem, testando conhecimento em 57 disciplinas academicas com questoes de multipla escolha.

Estrutura do benchmark:

57 áreas: desde história é direito até fisica é computação
Niveis: elementary, high school, college, professional
Formato: questoes de multipla escolha com 4 opcoes
Total de ~16.000 questoes de avaliação

Resultados notaveis:

GPT-4: ~86% de acerto
Claude 3.5 Sonnet: ~88% de acerto
Gemini Ultra: ~90% de acerto
Humanos experts: ~89.8% em media

A Trilion útiliza MMLU é outros benchmarks para avaliar é comparar modelos de linguagem antes de seleciona-los para projetos de clientes, garantindo a escolha do modelo mais adequado para cada caso de uso.

MMLU Benchmark

O que é MMLU Benchmark

Termos relacionados

Glossário...