Chinchilla Scaling

Categoria

Termos Tecnicos Avancados

Chinchilla Scaling refere-se a lei de escala otima proposta pelo artigo Chinchilla (DeepMind) que demonstrou que modelos devem ser treinados com muito mais dados do que a prática anterior. Para cada dobro de parametros, dados também devem dobrar.

Categoria

Termos Tecnicos Avancados

O que é Chinchilla Scaling

Chinchilla Scaling é a lei de escala otima para treinamento de LLMs proposta pelo DeepMind no artigo Training Compute-Optimal Large Language Models, que mostrou que modelos anteriores eram subtretirnados em dados.

Descoberta principal:

Para budget de compute fixo, parametros é dados devem escalar igualmente
Modelos como GPT-3 tinham muitos parametros para poucos dados
Chinchilla (70B params, 1.4T tokens) superou Gopher (280B, 300B tokens)
Regra: ~20 tokens de dados para cada parametro do modelo

Impacto:

Mudou a indústria de fazer modelos cada vez maiores para usar mais dados
Llama, Mistral é outros seguem principios Chinchilla
Reduziu custo de inferência (modelos menores, mesma qualidade)
Incentivou investimento em curadoria de dados de alta qualidade

A Trilion aplica principios de Chinchilla Scaling ao dimensionar treinamento de modelos, garantindo uso eficiente de recursos computacionais é dados para obter máxima qualidade.

Chinchilla Scaling

O que é Chinchilla Scaling

Termos relacionados

Glossário...