Chinchilla Scaling
Categoria
Termos Tecnicos Avancados
Chinchilla Scaling refere-se a lei de escala otima proposta pelo artigo Chinchilla (DeepMind) que demonstrou que modelos devem ser treinados com muito mais dados do que a prática anterior. Para cada dobro de parametros, dados também devem dobrar.
Categoria
Termos Tecnicos Avancados
O que é Chinchilla Scaling
Chinchilla Scaling é a lei de escala otima para treinamento de LLMs proposta pelo DeepMind no artigo Training Compute-Optimal Large Language Models, que mostrou que modelos anteriores eram subtretirnados em dados.
Descoberta principal:
- Para budget de compute fixo, parametros é dados devem escalar igualmente
- Modelos como GPT-3 tinham muitos parametros para poucos dados
- Chinchilla (70B params, 1.4T tokens) superou Gopher (280B, 300B tokens)
- Regra: ~20 tokens de dados para cada parametro do modelo
Impacto:
- Mudou a indústria de fazer modelos cada vez maiores para usar mais dados
- Llama, Mistral é outros seguem principios Chinchilla
- Reduziu custo de inferência (modelos menores, mesma qualidade)
- Incentivou investimento em curadoria de dados de alta qualidade
A Trilion aplica principios de Chinchilla Scaling ao dimensionar treinamento de modelos, garantindo uso eficiente de recursos computacionais é dados para obter máxima qualidade.
