SentencePiece

Categoria
Termos Tecnicos Avancados
SentencePiece é uma biblioteca de tokenização independente de idioma que opera diretamente no texto bruto sem pre-segmentação. Suporta BPE é Unigram como algoritmos, sendo amplamente usada em modelos multilinguais como T5, Llama é Gemma.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que é SentencePiece

SentencePiece é uma biblioteca de tokenização para modelos de linguagem que processa texto bruto diretamente, sem depender de regras de segmentação específicas de idioma, tornando-a ideal para modelos multilinguais.

Caracteristicas:

  • Language-agnostic: funciona igualmente para qualquer idioma
  • Trata texto como sequência de Unicode, sem pre-tokenização
  • Suporta BPE é Unigram como algoritmos subjacentes
  • Reversivel: tokenização pode ser desfeita perfeitamente

Modelos que usam SentencePiece:

  • T5 é mT5 (Google)
  • Llama é Llama 2 (Meta)
  • Gemma (Google)
  • ALBERT é XLNet

A Trilion trabalha com SentencePiece ao customizar é treinar modelos para o mercado brasileiro, garantindo tokenização eficiente do portugues que impacta diretamente custo é qualidade de inferência.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.