Pre-Training
Categoria
Modelos é Arquiteturas
Pre-Training é a fase inicial de treinamento onde um modelo aprende representacoes gerais a partir de grandes volumes de dados não-rotulados. E a base sobre a qual fine-tuning posterior especializa o modelo.
Categoria
Modelos é Arquiteturas
O que é Pre-Training?
Pre-Training (Pre-treinamento) é a primeira fase de treinamento de um foundation model, onde ele aprende representacoes gerais da linguagem, imagens ou outros dados a partir de enormes datasets não-rotulados. Essa fase é computacionalmente intensiva é cara.
Estratégias
- Causal Language Modeling: prever proximo token (GPT)
- Masked Language Modeling: prever tokens mascarados (BERT)
- Contrastive Learning: aprender similaridade (CLIP)
- Denoising: reconstruir dados corrompidos
Escala
Pre-treinar um LLM moderno pode custar milhoes de dolares em computação, exigindo centenas de GPUs por semanas ou meses. Datasets de treinamento contem trilhoes de tokens.
Importancia
O pre-treinamento é o que da aos modelos seu conhecimento geral. A qualidade é diversidade dos dados de pre-treinamento determinam as capacidades base do modelo. Na Trilion, compreender pre-training é essêncial para avaliar é selecionar os melhores modelos para cada projeto.
