Tokenizacao
Categoria
Modelos e Arquiteturas
Tokenizacao e o processo de dividir texto em unidades menores (tokens) que servem como entrada para modelos de linguagem. Pode operar em nivel de palavra, subpalavra (BPE, SentencePiece) ou caractere.
Categoria
Modelos e Arquiteturas
O que e Tokenizacao?
Tokenizacao e o processo de converter texto bruto em uma sequencia de tokens — as unidades basicas que modelos de linguagem processam. E o primeiro passo no pipeline de qualquer sistema de NLP e impacta diretamente a qualidade e eficiencia do modelo.
Niveis de Tokenizacao
- Palavra: cada palavra e um token (vocabulario grande)
- Subpalavra (BPE): divide palavras raras em subunidades
- SentencePiece: tokenizacao independente de idioma
- Caractere: cada caractere e um token (vocabulario pequeno)
BPE (Byte Pair Encoding)
E o metodo mais usado em LLMs modernos. Comeca com caracteres individuais e iterativamente mescla os pares mais frequentes, criando um vocabulario que equilibra granularidade e cobertura.
Impacto
A tokenizacao afeta o custo (tokens = custo), a capacidade de processar diferentes idiomas e a qualidade das representacoes. Na Trilion, a compreensao da tokenizacao e essencial para otimizar o uso e custo de LLMs em aplicacoes reais.
