Pre-Training

Categoria

Modelos é Arquiteturas

Pre-Training é a fase inicial de treinamento onde um modelo aprende representacoes gerais a partir de grandes volumes de dados não-rotulados. E a base sobre a qual fine-tuning posterior especializa o modelo.

Categoria

Modelos é Arquiteturas

O que é Pre-Training?

Pre-Training (Pre-treinamento) é a primeira fase de treinamento de um foundation model, onde ele aprende representacoes gerais da linguagem, imagens ou outros dados a partir de enormes datasets não-rotulados. Essa fase é computacionalmente intensiva é cara.

Estratégias

Causal Language Modeling: prever proximo token (GPT)
Masked Language Modeling: prever tokens mascarados (BERT)
Contrastive Learning: aprender similaridade (CLIP)
Denoising: reconstruir dados corrompidos

Escala

Pre-treinar um LLM moderno pode custar milhoes de dolares em computação, exigindo centenas de GPUs por semanas ou meses. Datasets de treinamento contem trilhoes de tokens.

Importancia

O pre-treinamento é o que da aos modelos seu conhecimento geral. A qualidade é diversidade dos dados de pre-treinamento determinam as capacidades base do modelo. Na Trilion, compreender pre-training é essêncial para avaliar é selecionar os melhores modelos para cada projeto.

Pre-Training

O que é Pre-Training?

Estratégias

Escala

Importancia

Termos relacionados

Glossário...