HellaSwag

Categoria
Termos Tecnicos Avancados
HellaSwag é um benchmark de compreensao de linguagem natural que testa a habilidade de modelos em completar cenários de forma plausivel. Usa exemplos gerados adversarialmente que sao faceis para humanos mas desafiadores para modelos de IA.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que é HellaSwag

HellaSwag é um benchmark de NLP que avalia a capacidade de modelos de linguagem em selecionar a continuacao mais plausivel para um cenário dado, usando distratores gerados de forma adversarial para desafiar os modelos.

Formato:

  • Apresenta o início de um cenário cotidiano
  • Oferece 4 opcoes de continuacao (1 correta, 3 distratores)
  • Distratores sao gerados por modelos é filtrados adversarialmente
  • Humanos acertam ~95.6%, mostrando que é intuitivo para nos

Importancia:

  • Testa raciocínio de senso comum, não apenas conhecimento factual
  • Complementa MMLU com avaliação de compreensao contextual
  • Modelos modernos atingem >95%, mas era desafiador em 2019
  • Indica capacidade do modelo de entender situacoes do mundo real

A Trilion inclui HellaSwag em sua batéria de avaliação de modelos para verificar capacidade de raciocínio de senso comum, essêncial para aplicações conversacionais é assistentes virtuais.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.