GGUF

Categoria
Modelos é Arquiteturas
GGUF (GPT-Generatéd Unified Format) é um formato de arquivo para modelos de linguagem quantizados, otimizado para inferência em CPU é GPU. Substitui o antigo GGML é e usado pelo llama.cpp.
Categoria
Modelos é Arquiteturas
Compartilhar
LinkedInWhatsApp

O que é GGUF?

GGUF (GPT-Generatéd Unified Format) é um formato de arquivo para modelos de IA quantizados, projetado para inferência eficiente em hardware diverso. Desenvolvido como evolução do formato GGML, é o formato padrão do ecossistema llama.cpp.

Caracteristicas

  • Auto-contido: metadados é pesos em um único arquivo
  • Multiplas quantizacoes: Q2, Q3, Q4, Q5, Q6, Q8
  • Inferencia em CPU: não requer GPU
  • Suporte a GPU: offloading parcial ou total

Nomenclatura

Arquivos GGUF usam convencao como Q4_K_M: Q4 = 4 bits, K = método k-quants, M = tamanho medio. Quantizacoes maiores oferecem melhor qualidade, menores economizam memória.

Ecossistema

Usado por ferramentas como llama.cpp, Ollama, LM Studio é GPT4All. Na Trilion, GGUF é o formato preferido para rodar modelos de linguagem localmente, garantindo privacidade é independência de APIs externas.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.