BLEU Score
Categoria
Termos Tecnicos Avancados
BLEU Score é uma métrica automática para avaliar qualidade de traducao automática é geração de texto, comparando n-grams do texto gerado com referências humanas. Amplamente usada apesar de limitacoes conhecidas em capturar semântica é fluencia.
Categoria
Termos Tecnicos Avancados
O que é BLEU Score
BLEU (Bilingual Evaluation Understudy) Score é uma métrica automática para avaliar a qualidade de texto gerado por maquina, calculando a sobreposicao de n-grams entre o texto gerado é uma ou mais referências humanas.
Como calcula:
- Conta n-grams compartilhados entre geração é referência
- Calcula precisão para unigrams, bigrams, trigrams é 4-grams
- Combina precisoes com media geométrica ponderada
- Aplica brevity penalty para penalizar textos muito curtos
Limitacoes:
- Nao captura significado semântico, apenas sobreposicao lexical
- Penaliza parafrase valida que usa palavras diferentes
- Baixa correlação com julgamento humano em alguns cenários
- Depende fortemente da qualidade das referências
A Trilion usa BLEU como uma entre diversas métricas de avaliação, complementando com métricas semânticas como BERTScore para avaliação mais completa de geração de texto.
