HellaSwag
Categoria
Termos Tecnicos Avancados
HellaSwag é um benchmark de compreensao de linguagem natural que testa a habilidade de modelos em completar cenários de forma plausivel. Usa exemplos gerados adversarialmente que sao faceis para humanos mas desafiadores para modelos de IA.
Categoria
Termos Tecnicos Avancados
O que é HellaSwag
HellaSwag é um benchmark de NLP que avalia a capacidade de modelos de linguagem em selecionar a continuacao mais plausivel para um cenário dado, usando distratores gerados de forma adversarial para desafiar os modelos.
Formato:
- Apresenta o início de um cenário cotidiano
- Oferece 4 opcoes de continuacao (1 correta, 3 distratores)
- Distratores sao gerados por modelos é filtrados adversarialmente
- Humanos acertam ~95.6%, mostrando que é intuitivo para nos
Importancia:
- Testa raciocínio de senso comum, não apenas conhecimento factual
- Complementa MMLU com avaliação de compreensao contextual
- Modelos modernos atingem >95%, mas era desafiador em 2019
- Indica capacidade do modelo de entender situacoes do mundo real
A Trilion inclui HellaSwag em sua batéria de avaliação de modelos para verificar capacidade de raciocínio de senso comum, essêncial para aplicações conversacionais é assistentes virtuais.
