Model Soup
Categoria
Termos Tecnicos Avancados
Model Soup e a tecnica de combinar multiplos checkpoints ou variantes de fine-tuning do mesmo modelo base em um unico modelo atraves de media de pesos. Melhora robustez e generalizacao sem custo computacional adicional em inferencia.
Categoria
Termos Tecnicos Avancados
O que e Model Soup
Model Soup e uma tecnica onde multiplos checkpoints ou variantes de fine-tuning do mesmo modelo base sao combinados atraves de media de pesos, criando um modelo unico com melhor robustez e generalizacao.
Como funciona:
- Treina o mesmo modelo com diferentes hiperparametros
- Seleciona checkpoints que performam bem individualmente
- Calcula media (ponderada ou uniforme) dos pesos
- Modelo resultante tipicamente supera qualquer individual
Vantagens:
- Melhora performance sem custo extra de inferencia
- Maior robustez a distribuicoes fora do treino
- Reduce overfitting ao suavizar espaco de pesos
- Simples de implementar: apenas media de tensores
A Trilion utiliza model soup como tecnica de ensemble leve para melhorar a qualidade e robustez de modelos entregues a clientes, sem aumentar custos de inferencia em producao.
