HellaSwag

Categoria

Termos Tecnicos Avancados

HellaSwag é um benchmark de compreensao de linguagem natural que testa a habilidade de modelos em completar cenários de forma plausivel. Usa exemplos gerados adversarialmente que sao faceis para humanos mas desafiadores para modelos de IA.

Categoria

Termos Tecnicos Avancados

O que é HellaSwag

HellaSwag é um benchmark de NLP que avalia a capacidade de modelos de linguagem em selecionar a continuacao mais plausivel para um cenário dado, usando distratores gerados de forma adversarial para desafiar os modelos.

Formato:

Apresenta o início de um cenário cotidiano
Oferece 4 opcoes de continuacao (1 correta, 3 distratores)
Distratores sao gerados por modelos é filtrados adversarialmente
Humanos acertam ~95.6%, mostrando que é intuitivo para nos

Importancia:

Testa raciocínio de senso comum, não apenas conhecimento factual
Complementa MMLU com avaliação de compreensao contextual
Modelos modernos atingem >95%, mas era desafiador em 2019
Indica capacidade do modelo de entender situacoes do mundo real

A Trilion inclui HellaSwag em sua batéria de avaliação de modelos para verificar capacidade de raciocínio de senso comum, essêncial para aplicações conversacionais é assistentes virtuais.

HellaSwag

O que é HellaSwag

Termos relacionados

Glossário...