Pre-Training

Categoria
Modelos e Arquiteturas
Pre-Training e a fase inicial de treinamento onde um modelo aprende representacoes gerais a partir de grandes volumes de dados nao-rotulados. E a base sobre a qual fine-tuning posterior especializa o modelo.
Categoria
Modelos e Arquiteturas
Compartilhar
LinkedInWhatsApp

O que e Pre-Training?

Pre-Training (Pre-treinamento) e a primeira fase de treinamento de um foundation model, onde ele aprende representacoes gerais da linguagem, imagens ou outros dados a partir de enormes datasets nao-rotulados. Essa fase e computacionalmente intensiva e cara.

Estrategias

  • Causal Language Modeling: prever proximo token (GPT)
  • Masked Language Modeling: prever tokens mascarados (BERT)
  • Contrastive Learning: aprender similaridade (CLIP)
  • Denoising: reconstruir dados corrompidos

Escala

Pre-treinar um LLM moderno pode custar milhoes de dolares em computacao, exigindo centenas de GPUs por semanas ou meses. Datasets de treinamento contem trilhoes de tokens.

Importancia

O pre-treinamento e o que da aos modelos seu conhecimento geral. A qualidade e diversidade dos dados de pre-treinamento determinam as capacidades base do modelo. Na Trilion, compreender pre-training e essencial para avaliar e selecionar os melhores modelos para cada projeto.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.