Chinchilla Scaling
Categoria
Termos Tecnicos Avancados
Chinchilla Scaling refere-se a lei de escala otima proposta pelo artigo Chinchilla (DeepMind) que demonstrou que modelos devem ser treinados com muito mais dados do que a pratica anterior. Para cada dobro de parametros, dados tambem devem dobrar.
Categoria
Termos Tecnicos Avancados
O que e Chinchilla Scaling
Chinchilla Scaling e a lei de escala otima para treinamento de LLMs proposta pelo DeepMind no artigo Training Compute-Optimal Large Language Models, que mostrou que modelos anteriores eram subtretirnados em dados.
Descoberta principal:
- Para budget de compute fixo, parametros e dados devem escalar igualmente
- Modelos como GPT-3 tinham muitos parametros para poucos dados
- Chinchilla (70B params, 1.4T tokens) superou Gopher (280B, 300B tokens)
- Regra: ~20 tokens de dados para cada parametro do modelo
Impacto:
- Mudou a industria de fazer modelos cada vez maiores para usar mais dados
- Llama, Mistral e outros seguem principios Chinchilla
- Reduziu custo de inferencia (modelos menores, mesma qualidade)
- Incentivou investimento em curadoria de dados de alta qualidade
A Trilion aplica principios de Chinchilla Scaling ao dimensionar treinamento de modelos, garantindo uso eficiente de recursos computacionais e dados para obter maxima qualidade.
