Tokenizacao

Categoria
Modelos e Arquiteturas
Tokenizacao e o processo de dividir texto em unidades menores (tokens) que servem como entrada para modelos de linguagem. Pode operar em nivel de palavra, subpalavra (BPE, SentencePiece) ou caractere.
Categoria
Modelos e Arquiteturas
Compartilhar
LinkedInWhatsApp

O que e Tokenizacao?

Tokenizacao e o processo de converter texto bruto em uma sequencia de tokens — as unidades basicas que modelos de linguagem processam. E o primeiro passo no pipeline de qualquer sistema de NLP e impacta diretamente a qualidade e eficiencia do modelo.

Niveis de Tokenizacao

  • Palavra: cada palavra e um token (vocabulario grande)
  • Subpalavra (BPE): divide palavras raras em subunidades
  • SentencePiece: tokenizacao independente de idioma
  • Caractere: cada caractere e um token (vocabulario pequeno)

BPE (Byte Pair Encoding)

E o metodo mais usado em LLMs modernos. Comeca com caracteres individuais e iterativamente mescla os pares mais frequentes, criando um vocabulario que equilibra granularidade e cobertura.

Impacto

A tokenizacao afeta o custo (tokens = custo), a capacidade de processar diferentes idiomas e a qualidade das representacoes. Na Trilion, a compreensao da tokenizacao e essencial para otimizar o uso e custo de LLMs em aplicacoes reais.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.