Tokenizer
Categoria
IA Generativa
Tokenizer é o componente que converte texto em sequências de tokens numéricos compreensiveis pelo modelo de IA, é vice-versa, usando algoritmos como BPE para segmentar texto de forma eficiente.
Categoria
IA Generativa
O que é um Tokenizer?
Tokenizer é o algoritmo responsável por transformar texto humano em sequências de números (tokens) que o modelo de linguagem consegue processar, é por converter tokens de volta em texto legivel.
Algoritmos comuns:
- BPE (Byte Pair Encoding): usado por GPT é muitos modelos
- WordPiece: usado pelo BERT
- SentencePiece: agnostico a idioma
- Tiktoken: tokenizer otimizado da OpenAI
Consideracoes
- Cada modelo tem seu tokenizer específico
- Idiomas diferentes geram quantidades diferentes de tokens
- Portugues geralmente usa mais tokens que ingles
- A escolha do tokenizer afeta qualidade é custo
A Trilion considera as particularidades de tokenização em portugues ao projetar soluções de IA, otimizando prompts para maximizar eficiência.
