Deslize para mostrar o menu

Compreendendo Embeddings de Palavras

Métodos tradicionais de representação de texto, como bag of words e TF-IDF, apresentam limitações notáveis. Eles tratam as palavras isoladamente, ignorando relações semânticas, e produzem vetores esparsos e de alta dimensionalidade que se tornam ineficientes computacionalmente em grandes corpora.

Embeddings de palavras resolvem essas questões ao considerar o contexto em que as palavras aparecem, proporcionando uma compreensão mais detalhada da linguagem.

Definição

Word embeddings são representações vetoriais densas de palavras em um espaço vetorial contínuo, onde palavras semanticamente semelhantes são mapeadas para pontos próximos.

Diversos modelos e técnicas foram desenvolvidos para gerar word embeddings significativos:

Word2Vec: desenvolvido pelo Google, o Word2Vec representa palavras como vetores densos utilizando duas arquiteturas: continuous bag of words (CBoW), que prevê uma palavra a partir de seu contexto, e Skip-gram, que prevê palavras do contexto a partir de uma palavra dada;
GloVe: criado em Stanford, o GloVe (global vectors) gera word embeddings analisando estatísticas globais de coocorrência de palavras em todo o corpus, capturando relações semânticas com base na frequência com que pares de palavras aparecem juntos;
FastText: introduzido pelo Facebook AI Research, o FastText expande o Word2Vec ao representar palavras como uma coleção de n-gramas de caracteres. Isso permite modelar informações de subpalavras, melhorando a capacidade de lidar com palavras raras, fora do vocabulário e idiomas morfologicamente ricos.

Word2Vec e FastText são os modelos mais utilizados para gerar embeddings de palavras. No entanto, como o FastText é apenas uma versão aprimorada do Word2Vec, iremos ignorá-lo e focar apenas no Word2Vec.

Como o Word2Vec funciona?

Word2Vec transforma palavras em vetores utilizando um processo que começa com a codificação one-hot, onde cada palavra em um vocabulário é representada por um vetor único marcado por um único 1 entre zeros. Vamos analisar um exemplo:

Esse vetor serve como entrada para uma rede neural, que é projetada para 'aprender' as embeddings de palavras. A arquitetura da rede pode seguir um dos dois modelos:

CBoW (continuous bag of words): prevê uma palavra-alvo com base no contexto fornecido pelas palavras ao redor;
Skip-gram: prevê as palavras de contexto ao redor com base na palavra-alvo.

Em ambas as arquiteturas do Word2Vec, durante cada iteração de treinamento, o modelo recebe uma palavra-alvo e as palavras ao redor como contexto, representadas como vetores one-hot. O conjunto de dados de treinamento é, portanto, composto efetivamente por esses pares ou grupos, onde cada palavra-alvo está associada às suas palavras de contexto ao redor.

Cada palavra do vocabulário assume o papel de alvo à medida que o modelo percorre o texto utilizando a técnica de janela de contexto deslizante. Essa técnica se move sistematicamente por cada palavra, garantindo aprendizado abrangente de todos os contextos possíveis dentro do corpus.

Definição

Uma janela de contexto é um número fixo de palavras ao redor de uma palavra-alvo que o modelo utiliza para aprender seu contexto. Ela define quantas palavras antes e depois da palavra-alvo são consideradas durante o treinamento.

Vamos analisar um exemplo com uma janela de tamanho igual a 2 para esclarecer:

Um tamanho de janela de contexto de 2 significa que o modelo incluirá até 2 palavras tanto à esquerda quanto à direita da palavra alvo, desde que essas palavras estejam disponíveis dentro dos limites do texto. Como pode ser observado, se houver menos de 2 palavras em qualquer um dos lados, o modelo incluirá quantas palavras estiverem disponíveis.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 4. Capítulo 1

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Noções Básicas de Word Embeddings

Compreendendo Embeddings de Palavras

Embeddings de palavras resolvem essas questões ao considerar o contexto em que as palavras aparecem, proporcionando uma compreensão mais detalhada da linguagem.

Definição

Word embeddings são representações vetoriais densas de palavras em um espaço vetorial contínuo, onde palavras semanticamente semelhantes são mapeadas para pontos próximos.

Diversos modelos e técnicas foram desenvolvidos para gerar word embeddings significativos:

Word2Vec: desenvolvido pelo Google, o Word2Vec representa palavras como vetores densos utilizando duas arquiteturas: continuous bag of words (CBoW), que prevê uma palavra a partir de seu contexto, e Skip-gram, que prevê palavras do contexto a partir de uma palavra dada;
GloVe: criado em Stanford, o GloVe (global vectors) gera word embeddings analisando estatísticas globais de coocorrência de palavras em todo o corpus, capturando relações semânticas com base na frequência com que pares de palavras aparecem juntos;
FastText: introduzido pelo Facebook AI Research, o FastText expande o Word2Vec ao representar palavras como uma coleção de n-gramas de caracteres. Isso permite modelar informações de subpalavras, melhorando a capacidade de lidar com palavras raras, fora do vocabulário e idiomas morfologicamente ricos.

Como o Word2Vec funciona?

Esse vetor serve como entrada para uma rede neural, que é projetada para 'aprender' as embeddings de palavras. A arquitetura da rede pode seguir um dos dois modelos:

CBoW (continuous bag of words): prevê uma palavra-alvo com base no contexto fornecido pelas palavras ao redor;
Skip-gram: prevê as palavras de contexto ao redor com base na palavra-alvo.

Definição

Vamos analisar um exemplo com uma janela de tamanho igual a 2 para esclarecer:

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 4. Capítulo 1