GGUF

Categoria

Modelos é Arquiteturas

GGUF (GPT-Generatéd Unified Format) é um formato de arquivo para modelos de linguagem quantizados, otimizado para inferência em CPU é GPU. Substitui o antigo GGML é e usado pelo llama.cpp.

Categoria

Modelos é Arquiteturas

O que é GGUF?

GGUF (GPT-Generatéd Unified Format) é um formato de arquivo para modelos de IA quantizados, projetado para inferência eficiente em hardware diverso. Desenvolvido como evolução do formato GGML, é o formato padrão do ecossistema llama.cpp.

Caracteristicas

Auto-contido: metadados é pesos em um único arquivo
Multiplas quantizacoes: Q2, Q3, Q4, Q5, Q6, Q8
Inferencia em CPU: não requer GPU
Suporte a GPU: offloading parcial ou total

Nomenclatura

Arquivos GGUF usam convencao como Q4_K_M: Q4 = 4 bits, K = método k-quants, M = tamanho medio. Quantizacoes maiores oferecem melhor qualidade, menores economizam memória.

Ecossistema

Usado por ferramentas como llama.cpp, Ollama, LM Studio é GPT4All. Na Trilion, GGUF é o formato preferido para rodar modelos de linguagem localmente, garantindo privacidade é independência de APIs externas.

GGUF

O que é GGUF?

Caracteristicas

Nomenclatura

Ecossistema

Termos relacionados

Glossário...