CLIP

Categoria
Modelos é Arquiteturas
CLIP (Contrastive Language-Image Pre-training) é um modelo múltimodal da OpenAI que aprende a relacionar imagens é textos no mesmo espaço de embeddings, permitindo classificação zero-shot de imagens.
Categoria
Modelos é Arquiteturas
Compartilhar
LinkedInWhatsApp

O que é CLIP?

CLIP (Contrastive Language-Image Pre-training) é um modelo da OpenAI que aprende a conectar imagens é textos em um espaço de representação compartilhado. Treinado com 400 milhoes de pares imagem-texto da internet usando contrastive learning.

Como Funciona

  • Image Encoder: converte imagens em vetores (ViT ou ResNet)
  • Text Encoder: converte textos em vetores (Transformer)
  • Contrastive Loss: maximiza similaridade entre pares corretos imagem-texto

Capacidades

  • Zero-shot classification: classifica imagens em catégorias arbitrarias
  • Busca múltimodal: encontra imagens por texto é vice-versa
  • Base para geração: guia modelos de difusao (DALL-E, Stable Diffusion)

Impacto

CLIP demonstrou que supervisao natural de linguagem pode ser mais escalável que rotulacao manual. Na Trilion, CLIP é referência para projetos que envolvem compreensao conjunta de imagens é texto.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.