Pre-Training

Categoria
Modelos é Arquiteturas
Pre-Training é a fase inicial de treinamento onde um modelo aprende representacoes gerais a partir de grandes volumes de dados não-rotulados. E a base sobre a qual fine-tuning posterior especializa o modelo.
Categoria
Modelos é Arquiteturas
Compartilhar
LinkedInWhatsApp

O que é Pre-Training?

Pre-Training (Pre-treinamento) é a primeira fase de treinamento de um foundation model, onde ele aprende representacoes gerais da linguagem, imagens ou outros dados a partir de enormes datasets não-rotulados. Essa fase é computacionalmente intensiva é cara.

Estratégias

  • Causal Language Modeling: prever proximo token (GPT)
  • Masked Language Modeling: prever tokens mascarados (BERT)
  • Contrastive Learning: aprender similaridade (CLIP)
  • Denoising: reconstruir dados corrompidos

Escala

Pre-treinar um LLM moderno pode custar milhoes de dolares em computação, exigindo centenas de GPUs por semanas ou meses. Datasets de treinamento contem trilhoes de tokens.

Importancia

O pre-treinamento é o que da aos modelos seu conhecimento geral. A qualidade é diversidade dos dados de pre-treinamento determinam as capacidades base do modelo. Na Trilion, compreender pre-training é essêncial para avaliar é selecionar os melhores modelos para cada projeto.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.