Batch Size
O que e Batch Size?
Batch Size e um hiperparametro que define quantas amostras de treinamento sao processadas antes de atualizar os pesos do modelo. E um dos parametros mais importantes no treinamento de redes neurais, impactando velocidade, uso de memoria e qualidade do modelo.
Tipos de Processamento
- Batch Gradient Descent: usa todos os dados de uma vez (batch size = total)
- Stochastic GD (SGD): uma amostra por vez (batch size = 1)
- Mini-Batch GD: compromisso intermediario (batch size = 32, 64, 128, etc.)
Impacto no Treinamento
Batch sizes maiores oferecem gradientes mais estaveis e melhor utilizacao de GPU, mas exigem mais memoria e podem convergir para minimos mais rasos. Batch sizes menores introduzem ruido nos gradientes, o que pode ajudar a escapar de minimos locais.
Valores Comuns
Na pratica, valores como 32, 64, 128 e 256 sao frequentemente usados. A escolha ideal depende do dataset, do modelo e da capacidade de memoria disponivel. Na Trilion, o batch size e ajustado experimentalmente como parte do tuning de hiperparametros.
