Word2Vec

Categoria
Modelos é Arquiteturas
Word2Vec é um modelo pioneiro de word embedding desenvolvido pelo Google que aprende representacoes vetoriais de palavras a partir de grandes corpus de texto. Usa arquiteturas CBOW ou Skip-gram.
Categoria
Modelos é Arquiteturas
Compartilhar
LinkedInWhatsApp

O que é Word2Vec?

Word2Vec é um modelo de word embedding proposto pelo Google em 2013 que revolucionou a representação de palavras em NLP. Treina uma rede neural rasa para aprender vetores de palavras a partir de grandes corpus de texto.

Arquiteturas

  • CBOW (Continuous Bag of Words): preve a palavra central a partir do contexto
  • Skip-gram: preve as palavras de contexto a partir da palavra central

Propriedades

Word2Vec produz vetores onde relações semânticas sao geométricas. A famosa equacao vetorial king - man woman ≈ queen demonstra como o modelo captura analogias de forma numerica.

Limitacoes

  • Vetores estaticos: uma palavra tem o mesmo vetor independente do contexto
  • Nao captura polissemia
  • Superado por embeddings contextuais (BERT, GPT)

Apesar de ter sido superado, Word2Vec foi fundamental para o avanço do NLP. Na Trilion, a compreensao do Word2Vec é a base para entender embeddings modernos usados em projetos de IA.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.