Word2Vec
Categoria
Modelos e Arquiteturas
Word2Vec e um modelo pioneiro de word embedding desenvolvido pelo Google que aprende representacoes vetoriais de palavras a partir de grandes corpus de texto. Usa arquiteturas CBOW ou Skip-gram.
Categoria
Modelos e Arquiteturas
O que e Word2Vec?
Word2Vec e um modelo de word embedding proposto pelo Google em 2013 que revolucionou a representacao de palavras em NLP. Treina uma rede neural rasa para aprender vetores de palavras a partir de grandes corpus de texto.
Arquiteturas
- CBOW (Continuous Bag of Words): preve a palavra central a partir do contexto
- Skip-gram: preve as palavras de contexto a partir da palavra central
Propriedades
Word2Vec produz vetores onde relacoes semanticas sao geometricas. A famosa equacao vetorial king - man woman ≈ queen demonstra como o modelo captura analogias de forma numerica.
Limitacoes
- Vetores estaticos: uma palavra tem o mesmo vetor independente do contexto
- Nao captura polissemia
- Superado por embeddings contextuais (BERT, GPT)
Apesar de ter sido superado, Word2Vec foi fundamental para o avanco do NLP. Na Trilion, a compreensao do Word2Vec e a base para entender embeddings modernos usados em projetos de IA.
