Word2Vec

Categoria

Modelos é Arquiteturas

Word2Vec é um modelo pioneiro de word embedding desenvolvido pelo Google que aprende representacoes vetoriais de palavras a partir de grandes corpus de texto. Usa arquiteturas CBOW ou Skip-gram.

Categoria

Modelos é Arquiteturas

O que é Word2Vec?

Word2Vec é um modelo de word embedding proposto pelo Google em 2013 que revolucionou a representação de palavras em NLP. Treina uma rede neural rasa para aprender vetores de palavras a partir de grandes corpus de texto.

Arquiteturas

CBOW (Continuous Bag of Words): preve a palavra central a partir do contexto
Skip-gram: preve as palavras de contexto a partir da palavra central

Propriedades

Word2Vec produz vetores onde relações semânticas sao geométricas. A famosa equacao vetorial king - man woman ≈ queen demonstra como o modelo captura analogias de forma numerica.

Limitacoes

Vetores estaticos: uma palavra tem o mesmo vetor independente do contexto
Nao captura polissemia
Superado por embeddings contextuais (BERT, GPT)

Apesar de ter sido superado, Word2Vec foi fundamental para o avanço do NLP. Na Trilion, a compreensao do Word2Vec é a base para entender embeddings modernos usados em projetos de IA.

Word2Vec

O que é Word2Vec?

Arquiteturas

Propriedades

Limitacoes

Termos relacionados

Glossário...