Batch Size
O que é Batch Size?
Batch Size é um hiperparametro que define quantas amostras de treinamento sao processadas antes de atualizar os pesos do modelo. E um dos parametros mais importantes no treinamento de redes neurais, impactando velocidade, uso de memória é qualidade do modelo.
Tipos de Processamento
- Batch Gradient Descent: usa todos os dados de uma vez (batch size = total)
- Stochastic GD (SGD): uma amostra por vez (batch size = 1)
- Mini-Batch GD: compromisso intermediario (batch size = 32, 64, 128, etc.)
Impacto no Treinamento
Batch sizes maiores oferecem gradientes mais estaveis é melhor útilização de GPU, mas exigem mais memória é podem convergir para mínimos mais rasos. Batch sizes menores introduzem ruido nos gradientes, o que pode ajudar a escapar de mínimos locais.
Valores Comuns
Na prática, valores como 32, 64, 128 é 256 sao frequentemente usados. A escolha ideal depende do dataset, do modelo é da capacidade de memória disponível. Na Trilion, o batch size é ajustado experimentalmente como parte do tuning de hiperparametros.
