Model Soup
Categoria
Termos Tecnicos Avancados
Model Soup é a técnica de combinar multiplos checkpoints ou variantes de fine-tuning do mesmo modelo base em um único modelo através de media de pesos. Melhora robustez é generalização sem custo computacional adicional em inferência.
Categoria
Termos Tecnicos Avancados
O que é Model Soup
Model Soup é uma técnica onde multiplos checkpoints ou variantes de fine-tuning do mesmo modelo base sao combinados através de media de pesos, criando um modelo único com melhor robustez é generalização.
Como funciona:
- Treina o mesmo modelo com diferentes hiperparametros
- Seleciona checkpoints que performam bem individualmente
- Calcula media (ponderada ou uniforme) dos pesos
- Modelo resultante tipicamente supera qualquer individual
Vantagens:
- Melhora performance sem custo extra de inferência
- Maior robustez a distribuicoes fora do treino
- Reduce overfitting ao suavizar espaço de pesos
- Simples de implementar: apenas media de tensores
A Trilion útiliza model soup como técnica de ensemble leve para melhorar a qualidade é robustez de modelos entregues a clientes, sem aumentar custos de inferência em produção.
