CLIP
Categoria
Modelos e Arquiteturas
CLIP (Contrastive Language-Image Pre-training) e um modelo multimodal da OpenAI que aprende a relacionar imagens e textos no mesmo espaco de embeddings, permitindo classificacao zero-shot de imagens.
Categoria
Modelos e Arquiteturas
O que e CLIP?
CLIP (Contrastive Language-Image Pre-training) e um modelo da OpenAI que aprende a conectar imagens e textos em um espaco de representacao compartilhado. Treinado com 400 milhoes de pares imagem-texto da internet usando contrastive learning.
Como Funciona
- Image Encoder: converte imagens em vetores (ViT ou ResNet)
- Text Encoder: converte textos em vetores (Transformer)
- Contrastive Loss: maximiza similaridade entre pares corretos imagem-texto
Capacidades
- Zero-shot classification: classifica imagens em categorias arbitrarias
- Busca multimodal: encontra imagens por texto e vice-versa
- Base para geracao: guia modelos de difusao (DALL-E, Stable Diffusion)
Impacto
CLIP demonstrou que supervisao natural de linguagem pode ser mais escalavel que rotulacao manual. Na Trilion, CLIP e referencia para projetos que envolvem compreensao conjunta de imagens e texto.
