Word2Vec
Categoria
Modelos é Arquiteturas
Word2Vec é um modelo pioneiro de word embedding desenvolvido pelo Google que aprende representacoes vetoriais de palavras a partir de grandes corpus de texto. Usa arquiteturas CBOW ou Skip-gram.
Categoria
Modelos é Arquiteturas
O que é Word2Vec?
Word2Vec é um modelo de word embedding proposto pelo Google em 2013 que revolucionou a representação de palavras em NLP. Treina uma rede neural rasa para aprender vetores de palavras a partir de grandes corpus de texto.
Arquiteturas
- CBOW (Continuous Bag of Words): preve a palavra central a partir do contexto
- Skip-gram: preve as palavras de contexto a partir da palavra central
Propriedades
Word2Vec produz vetores onde relações semânticas sao geométricas. A famosa equacao vetorial king - man woman ≈ queen demonstra como o modelo captura analogias de forma numerica.
Limitacoes
- Vetores estaticos: uma palavra tem o mesmo vetor independente do contexto
- Nao captura polissemia
- Superado por embeddings contextuais (BERT, GPT)
Apesar de ter sido superado, Word2Vec foi fundamental para o avanço do NLP. Na Trilion, a compreensao do Word2Vec é a base para entender embeddings modernos usados em projetos de IA.
