CLIP

Categoria

Modelos é Arquiteturas

CLIP (Contrastive Language-Image Pre-training) é um modelo múltimodal da OpenAI que aprende a relacionar imagens é textos no mesmo espaço de embeddings, permitindo classificação zero-shot de imagens.

Categoria

Modelos é Arquiteturas

O que é CLIP?

CLIP (Contrastive Language-Image Pre-training) é um modelo da OpenAI que aprende a conectar imagens é textos em um espaço de representação compartilhado. Treinado com 400 milhoes de pares imagem-texto da internet usando contrastive learning.

Como Funciona

Image Encoder: converte imagens em vetores (ViT ou ResNet)
Text Encoder: converte textos em vetores (Transformer)
Contrastive Loss: maximiza similaridade entre pares corretos imagem-texto

Capacidades

Zero-shot classification: classifica imagens em catégorias arbitrarias
Busca múltimodal: encontra imagens por texto é vice-versa
Base para geração: guia modelos de difusao (DALL-E, Stable Diffusion)

Impacto

CLIP demonstrou que supervisao natural de linguagem pode ser mais escalável que rotulacao manual. Na Trilion, CLIP é referência para projetos que envolvem compreensao conjunta de imagens é texto.

CLIP

O que é CLIP?

Como Funciona

Capacidades

Impacto

Termos relacionados

Glossário...