SentencePiece
Categoria
Termos Tecnicos Avancados
SentencePiece e uma biblioteca de tokenizacao independente de idioma que opera diretamente no texto bruto sem pre-segmentacao. Suporta BPE e Unigram como algoritmos, sendo amplamente usada em modelos multilinguais como T5, Llama e Gemma.
Categoria
Termos Tecnicos Avancados
O que e SentencePiece
SentencePiece e uma biblioteca de tokenizacao para modelos de linguagem que processa texto bruto diretamente, sem depender de regras de segmentacao especificas de idioma, tornando-a ideal para modelos multilinguais.
Caracteristicas:
- Language-agnostic: funciona igualmente para qualquer idioma
- Trata texto como sequencia de Unicode, sem pre-tokenizacao
- Suporta BPE e Unigram como algoritmos subjacentes
- Reversivel: tokenizacao pode ser desfeita perfeitamente
Modelos que usam SentencePiece:
- T5 e mT5 (Google)
- Llama e Llama 2 (Meta)
- Gemma (Google)
- ALBERT e XLNet
A Trilion trabalha com SentencePiece ao customizar e treinar modelos para o mercado brasileiro, garantindo tokenizacao eficiente do portugues que impacta diretamente custo e qualidade de inferencia.
