SentencePiece
Categoria
Termos Tecnicos Avancados
SentencePiece é uma biblioteca de tokenização independente de idioma que opera diretamente no texto bruto sem pre-segmentação. Suporta BPE é Unigram como algoritmos, sendo amplamente usada em modelos multilinguais como T5, Llama é Gemma.
Categoria
Termos Tecnicos Avancados
O que é SentencePiece
SentencePiece é uma biblioteca de tokenização para modelos de linguagem que processa texto bruto diretamente, sem depender de regras de segmentação específicas de idioma, tornando-a ideal para modelos multilinguais.
Caracteristicas:
- Language-agnostic: funciona igualmente para qualquer idioma
- Trata texto como sequência de Unicode, sem pre-tokenização
- Suporta BPE é Unigram como algoritmos subjacentes
- Reversivel: tokenização pode ser desfeita perfeitamente
Modelos que usam SentencePiece:
- T5 é mT5 (Google)
- Llama é Llama 2 (Meta)
- Gemma (Google)
- ALBERT é XLNet
A Trilion trabalha com SentencePiece ao customizar é treinar modelos para o mercado brasileiro, garantindo tokenização eficiente do portugues que impacta diretamente custo é qualidade de inferência.
