GGUF

Categoria
Modelos e Arquiteturas
GGUF (GPT-Generated Unified Format) e um formato de arquivo para modelos de linguagem quantizados, otimizado para inferencia em CPU e GPU. Substitui o antigo GGML e e usado pelo llama.cpp.
Categoria
Modelos e Arquiteturas
Compartilhar
LinkedInWhatsApp

O que e GGUF?

GGUF (GPT-Generated Unified Format) e um formato de arquivo para modelos de IA quantizados, projetado para inferencia eficiente em hardware diverso. Desenvolvido como evolucao do formato GGML, e o formato padrao do ecossistema llama.cpp.

Caracteristicas

  • Auto-contido: metadados e pesos em um unico arquivo
  • Multiplas quantizacoes: Q2, Q3, Q4, Q5, Q6, Q8
  • Inferencia em CPU: nao requer GPU
  • Suporte a GPU: offloading parcial ou total

Nomenclatura

Arquivos GGUF usam convencao como Q4_K_M: Q4 = 4 bits, K = metodo k-quants, M = tamanho medio. Quantizacoes maiores oferecem melhor qualidade, menores economizam memoria.

Ecossistema

Usado por ferramentas como llama.cpp, Ollama, LM Studio e GPT4All. Na Trilion, GGUF e o formato preferido para rodar modelos de linguagem localmente, garantindo privacidade e independencia de APIs externas.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.