Chunking
Categoria
IA Generativa
Chunking é o processo de dividir documentos grandes em segmentos menores (chunks) para processamento eficiente por modelos de IA, sendo uma etapa crucial na construção de sistemas RAG.
Categoria
IA Generativa
O que é Chunking?
Chunking é a técnica de segmentar documentos ou textos longos em pedacos menores é gerênciaveis para serem processados por modelos de embedding é armazenados em bancos vetoriais.
Estratégias de chunking:
- Tamanho fixo: chunks de N tokens ou caracteres
- Semantico: dividir por paragrafos ou secoes logicas
- Recursivo: dividir hierarquicamente até atingir tamanho ideal
- Sentence-based: respeitar limites de sentencas
Melhores Praticas
- Overlap entre chunks para manter contexto
- Tamanho adequado ao modelo de embedding
- Preservar metadados de cada chunk
- Testar diferentes estratégias por tipo de documento
A Trilion calibra estratégias de chunking específicas para cada projeto de RAG, otimizando a qualidade de recuperacao de informações nas bases de conhecimento dos clientes.
