Batch Size

Categoria
Fundamentos de IA
Batch Size e o numero de amostras de treinamento processadas antes de uma atualizacao dos pesos do modelo. Afeta a velocidade de treinamento, uso de memoria e qualidade da convergencia.
Categoria
Fundamentos de IA
Compartilhar
LinkedInWhatsApp

O que e Batch Size?

Batch Size e um hiperparametro que define quantas amostras de treinamento sao processadas antes de atualizar os pesos do modelo. E um dos parametros mais importantes no treinamento de redes neurais, impactando velocidade, uso de memoria e qualidade do modelo.

Tipos de Processamento

  • Batch Gradient Descent: usa todos os dados de uma vez (batch size = total)
  • Stochastic GD (SGD): uma amostra por vez (batch size = 1)
  • Mini-Batch GD: compromisso intermediario (batch size = 32, 64, 128, etc.)

Impacto no Treinamento

Batch sizes maiores oferecem gradientes mais estaveis e melhor utilizacao de GPU, mas exigem mais memoria e podem convergir para minimos mais rasos. Batch sizes menores introduzem ruido nos gradientes, o que pode ajudar a escapar de minimos locais.

Valores Comuns

Na pratica, valores como 32, 64, 128 e 256 sao frequentemente usados. A escolha ideal depende do dataset, do modelo e da capacidade de memoria disponivel. Na Trilion, o batch size e ajustado experimentalmente como parte do tuning de hiperparametros.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.