GGUF
Categoria
Modelos e Arquiteturas
GGUF (GPT-Generated Unified Format) e um formato de arquivo para modelos de linguagem quantizados, otimizado para inferencia em CPU e GPU. Substitui o antigo GGML e e usado pelo llama.cpp.
Categoria
Modelos e Arquiteturas
O que e GGUF?
GGUF (GPT-Generated Unified Format) e um formato de arquivo para modelos de IA quantizados, projetado para inferencia eficiente em hardware diverso. Desenvolvido como evolucao do formato GGML, e o formato padrao do ecossistema llama.cpp.
Caracteristicas
- Auto-contido: metadados e pesos em um unico arquivo
- Multiplas quantizacoes: Q2, Q3, Q4, Q5, Q6, Q8
- Inferencia em CPU: nao requer GPU
- Suporte a GPU: offloading parcial ou total
Nomenclatura
Arquivos GGUF usam convencao como Q4_K_M: Q4 = 4 bits, K = metodo k-quants, M = tamanho medio. Quantizacoes maiores oferecem melhor qualidade, menores economizam memoria.
Ecossistema
Usado por ferramentas como llama.cpp, Ollama, LM Studio e GPT4All. Na Trilion, GGUF e o formato preferido para rodar modelos de linguagem localmente, garantindo privacidade e independencia de APIs externas.
