HellaSwag

Categoria
Termos Tecnicos Avancados
HellaSwag e um benchmark de compreensao de linguagem natural que testa a habilidade de modelos em completar cenarios de forma plausivel. Usa exemplos gerados adversarialmente que sao faceis para humanos mas desafiadores para modelos de IA.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que e HellaSwag

HellaSwag e um benchmark de NLP que avalia a capacidade de modelos de linguagem em selecionar a continuacao mais plausivel para um cenario dado, usando distratores gerados de forma adversarial para desafiar os modelos.

Formato:

  • Apresenta o inicio de um cenario cotidiano
  • Oferece 4 opcoes de continuacao (1 correta, 3 distratores)
  • Distratores sao gerados por modelos e filtrados adversarialmente
  • Humanos acertam ~95.6%, mostrando que e intuitivo para nos

Importancia:

  • Testa raciocinio de senso comum, nao apenas conhecimento factual
  • Complementa MMLU com avaliacao de compreensao contextual
  • Modelos modernos atingem >95%, mas era desafiador em 2019
  • Indica capacidade do modelo de entender situacoes do mundo real

A Trilion inclui HellaSwag em sua bateria de avaliacao de modelos para verificar capacidade de raciocinio de senso comum, essencial para aplicacoes conversacionais e assistentes virtuais.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.