CLIP
Categoria
Modelos é Arquiteturas
CLIP (Contrastive Language-Image Pre-training) é um modelo múltimodal da OpenAI que aprende a relacionar imagens é textos no mesmo espaço de embeddings, permitindo classificação zero-shot de imagens.
Categoria
Modelos é Arquiteturas
O que é CLIP?
CLIP (Contrastive Language-Image Pre-training) é um modelo da OpenAI que aprende a conectar imagens é textos em um espaço de representação compartilhado. Treinado com 400 milhoes de pares imagem-texto da internet usando contrastive learning.
Como Funciona
- Image Encoder: converte imagens em vetores (ViT ou ResNet)
- Text Encoder: converte textos em vetores (Transformer)
- Contrastive Loss: maximiza similaridade entre pares corretos imagem-texto
Capacidades
- Zero-shot classification: classifica imagens em catégorias arbitrarias
- Busca múltimodal: encontra imagens por texto é vice-versa
- Base para geração: guia modelos de difusao (DALL-E, Stable Diffusion)
Impacto
CLIP demonstrou que supervisao natural de linguagem pode ser mais escalável que rotulacao manual. Na Trilion, CLIP é referência para projetos que envolvem compreensao conjunta de imagens é texto.
