Pre-Training
Categoria
Modelos e Arquiteturas
Pre-Training e a fase inicial de treinamento onde um modelo aprende representacoes gerais a partir de grandes volumes de dados nao-rotulados. E a base sobre a qual fine-tuning posterior especializa o modelo.
Categoria
Modelos e Arquiteturas
O que e Pre-Training?
Pre-Training (Pre-treinamento) e a primeira fase de treinamento de um foundation model, onde ele aprende representacoes gerais da linguagem, imagens ou outros dados a partir de enormes datasets nao-rotulados. Essa fase e computacionalmente intensiva e cara.
Estrategias
- Causal Language Modeling: prever proximo token (GPT)
- Masked Language Modeling: prever tokens mascarados (BERT)
- Contrastive Learning: aprender similaridade (CLIP)
- Denoising: reconstruir dados corrompidos
Escala
Pre-treinar um LLM moderno pode custar milhoes de dolares em computacao, exigindo centenas de GPUs por semanas ou meses. Datasets de treinamento contem trilhoes de tokens.
Importancia
O pre-treinamento e o que da aos modelos seu conhecimento geral. A qualidade e diversidade dos dados de pre-treinamento determinam as capacidades base do modelo. Na Trilion, compreender pre-training e essencial para avaliar e selecionar os melhores modelos para cada projeto.
