Tokenizacao
Categoria
Modelos é Arquiteturas
Tokenizacao é o processo de dividir texto em unidades menores (tokens) que servem como entrada para modelos de linguagem. Pode operar em nível de palavra, subpalavra (BPE, SentencePiece) ou caractere.
Categoria
Modelos é Arquiteturas
O que é Tokenizacao?
Tokenizacao é o processo de converter texto bruto em uma sequência de tokens — as unidades básicas que modelos de linguagem processam. E o primeiro passo no pipeline de qualquer sistema de NLP é impacta diretamente a qualidade é eficiência do modelo.
Niveis de Tokenizacao
- Palavra: cada palavra é um token (vocabulário grande)
- Subpalavra (BPE): divide palavras raras em subunidades
- SentencePiece: tokenização independente de idioma
- Caractere: cada caractere é um token (vocabulário pequeno)
BPE (Byte Pair Encoding)
E o método mais usado em LLMs modernos. Comeca com caracteres individuais é iterativamente mescla os pares mais frequentes, criando um vocabulário que equilibra granularidade é cobertura.
Impacto
A tokenização afeta o custo (tokens = custo), a capacidade de processar diferentes idiomas é a qualidade das representacoes. Na Trilion, a compreensao da tokenização é essêncial para otimizar o uso é custo de LLMs em aplicações reais.
