HellaSwag
Categoria
Termos Tecnicos Avancados
HellaSwag e um benchmark de compreensao de linguagem natural que testa a habilidade de modelos em completar cenarios de forma plausivel. Usa exemplos gerados adversarialmente que sao faceis para humanos mas desafiadores para modelos de IA.
Categoria
Termos Tecnicos Avancados
O que e HellaSwag
HellaSwag e um benchmark de NLP que avalia a capacidade de modelos de linguagem em selecionar a continuacao mais plausivel para um cenario dado, usando distratores gerados de forma adversarial para desafiar os modelos.
Formato:
- Apresenta o inicio de um cenario cotidiano
- Oferece 4 opcoes de continuacao (1 correta, 3 distratores)
- Distratores sao gerados por modelos e filtrados adversarialmente
- Humanos acertam ~95.6%, mostrando que e intuitivo para nos
Importancia:
- Testa raciocinio de senso comum, nao apenas conhecimento factual
- Complementa MMLU com avaliacao de compreensao contextual
- Modelos modernos atingem >95%, mas era desafiador em 2019
- Indica capacidade do modelo de entender situacoes do mundo real
A Trilion inclui HellaSwag em sua bateria de avaliacao de modelos para verificar capacidade de raciocinio de senso comum, essencial para aplicacoes conversacionais e assistentes virtuais.
