Otimizador Adam
Categoria
Fundamentos de IA
Adam (Adaptive Moment Estimation) e um otimizador popular que combina as vantagens do Momentum e do RMSProp. Adapta a taxa de aprendizado para cada parametro individualmente, sendo eficiente e facil de configurar.
Categoria
Fundamentos de IA
O que e o Otimizador Adam?
Adam (Adaptive Moment Estimation) e um dos otimizadores mais utilizados em Deep Learning. Combina as ideias de Momentum (media movel dos gradientes) e RMSProp (media movel dos gradientes ao quadrado) para adaptar automaticamente a taxa de aprendizado de cada parametro.
Como Funciona
- Mantém uma media movel do primeiro momento (media dos gradientes)
- Mantém uma media movel do segundo momento (variancia dos gradientes)
- Aplica correcao de vies para os primeiros passos
- Atualiza pesos com learning rate adaptativo por parametro
Vantagens
Adam e eficiente em termos de memoria, requer pouco ajuste de hiperparametros e funciona bem com dados esparsos e gradientes ruidosos. O learning rate padrao de 1e-3 funciona bem na maioria dos casos.
Variantes
Existem variantes como AdamW (com weight decay desacoplado), RAdam e Nadam. Na Trilion, Adam e o otimizador padrao na maioria dos projetos de Deep Learning, sendo substituido por alternativas apenas quando necessario.
