Chinchilla Scaling

Categoria
Termos Tecnicos Avancados
Chinchilla Scaling refere-se a lei de escala otima proposta pelo artigo Chinchilla (DeepMind) que demonstrou que modelos devem ser treinados com muito mais dados do que a pratica anterior. Para cada dobro de parametros, dados tambem devem dobrar.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que e Chinchilla Scaling

Chinchilla Scaling e a lei de escala otima para treinamento de LLMs proposta pelo DeepMind no artigo Training Compute-Optimal Large Language Models, que mostrou que modelos anteriores eram subtretirnados em dados.

Descoberta principal:

  • Para budget de compute fixo, parametros e dados devem escalar igualmente
  • Modelos como GPT-3 tinham muitos parametros para poucos dados
  • Chinchilla (70B params, 1.4T tokens) superou Gopher (280B, 300B tokens)
  • Regra: ~20 tokens de dados para cada parametro do modelo

Impacto:

  • Mudou a industria de fazer modelos cada vez maiores para usar mais dados
  • Llama, Mistral e outros seguem principios Chinchilla
  • Reduziu custo de inferencia (modelos menores, mesma qualidade)
  • Incentivou investimento em curadoria de dados de alta qualidade

A Trilion aplica principios de Chinchilla Scaling ao dimensionar treinamento de modelos, garantindo uso eficiente de recursos computacionais e dados para obter maxima qualidade.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.