SentencePiece

Categoria
Termos Tecnicos Avancados
SentencePiece e uma biblioteca de tokenizacao independente de idioma que opera diretamente no texto bruto sem pre-segmentacao. Suporta BPE e Unigram como algoritmos, sendo amplamente usada em modelos multilinguais como T5, Llama e Gemma.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que e SentencePiece

SentencePiece e uma biblioteca de tokenizacao para modelos de linguagem que processa texto bruto diretamente, sem depender de regras de segmentacao especificas de idioma, tornando-a ideal para modelos multilinguais.

Caracteristicas:

  • Language-agnostic: funciona igualmente para qualquer idioma
  • Trata texto como sequencia de Unicode, sem pre-tokenizacao
  • Suporta BPE e Unigram como algoritmos subjacentes
  • Reversivel: tokenizacao pode ser desfeita perfeitamente

Modelos que usam SentencePiece:

  • T5 e mT5 (Google)
  • Llama e Llama 2 (Meta)
  • Gemma (Google)
  • ALBERT e XLNet

A Trilion trabalha com SentencePiece ao customizar e treinar modelos para o mercado brasileiro, garantindo tokenizacao eficiente do portugues que impacta diretamente custo e qualidade de inferencia.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.