Word2Vec

Categoria
Modelos e Arquiteturas
Word2Vec e um modelo pioneiro de word embedding desenvolvido pelo Google que aprende representacoes vetoriais de palavras a partir de grandes corpus de texto. Usa arquiteturas CBOW ou Skip-gram.
Categoria
Modelos e Arquiteturas
Compartilhar
LinkedInWhatsApp

O que e Word2Vec?

Word2Vec e um modelo de word embedding proposto pelo Google em 2013 que revolucionou a representacao de palavras em NLP. Treina uma rede neural rasa para aprender vetores de palavras a partir de grandes corpus de texto.

Arquiteturas

  • CBOW (Continuous Bag of Words): preve a palavra central a partir do contexto
  • Skip-gram: preve as palavras de contexto a partir da palavra central

Propriedades

Word2Vec produz vetores onde relacoes semanticas sao geometricas. A famosa equacao vetorial king - man woman ≈ queen demonstra como o modelo captura analogias de forma numerica.

Limitacoes

  • Vetores estaticos: uma palavra tem o mesmo vetor independente do contexto
  • Nao captura polissemia
  • Superado por embeddings contextuais (BERT, GPT)

Apesar de ter sido superado, Word2Vec foi fundamental para o avanco do NLP. Na Trilion, a compreensao do Word2Vec e a base para entender embeddings modernos usados em projetos de IA.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.