BLEU Score
Categoria
Termos Tecnicos Avancados
BLEU Score e uma metrica automatica para avaliar qualidade de traducao automatica e geracao de texto, comparando n-grams do texto gerado com referencias humanas. Amplamente usada apesar de limitacoes conhecidas em capturar semantica e fluencia.
Categoria
Termos Tecnicos Avancados
O que e BLEU Score
BLEU (Bilingual Evaluation Understudy) Score e uma metrica automatica para avaliar a qualidade de texto gerado por maquina, calculando a sobreposicao de n-grams entre o texto gerado e uma ou mais referencias humanas.
Como calcula:
- Conta n-grams compartilhados entre geracao e referencia
- Calcula precisao para unigrams, bigrams, trigrams e 4-grams
- Combina precisoes com media geometrica ponderada
- Aplica brevity penalty para penalizar textos muito curtos
Limitacoes:
- Nao captura significado semantico, apenas sobreposicao lexical
- Penaliza parafrase valida que usa palavras diferentes
- Baixa correlacao com julgamento humano em alguns cenarios
- Depende fortemente da qualidade das referencias
A Trilion usa BLEU como uma entre diversas metricas de avaliacao, complementando com metricas semanticas como BERTScore para avaliacao mais completa de geracao de texto.
