Leer Basisprincipes van Word Embeddings

Inzicht in woordembeddings

Traditionele tekstrepresentatiemethoden zoals bag of words en TF-IDF hebben aanzienlijke beperkingen. Ze behandelen woorden afzonderlijk, negeren semantische relaties en produceren hoog-dimensionale, ijle vectoren die computationeel inefficiënt worden bij grote corpora.

Woordembeddings lossen deze problemen op door rekening te houden met de context waarin woorden voorkomen, wat zorgt voor een meer genuanceerd begrip van taal.

Definitie

Woordembeddings zijn dichte vectorrepresentaties van woorden in een continue vectorruimte, waarbij semantisch vergelijkbare woorden op nabijgelegen punten worden geprojecteerd.

Er zijn verschillende modellen en technieken ontwikkeld om betekenisvolle woordembeddings te genereren:

Word2Vec: ontwikkeld door Google, representeert Word2Vec woorden als dichte vectoren met behulp van twee architecturen: continuous bag of words (CBoW), die een woord voorspelt op basis van de omliggende context, en Skip-gram, die omliggende woorden voorspelt op basis van een gegeven woord;
GloVe: ontwikkeld aan Stanford, genereert GloVe (global vectors) woordembeddings door globale co-occurrencestatistieken van woorden over het gehele corpus te analyseren, waarbij semantische relaties worden vastgelegd op basis van de frequentie waarmee woordparen samen voorkomen;
FastText: geïntroduceerd door Facebook AI Research, bouwt FastText voort op Word2Vec door woorden te representeren als een verzameling van karakter n-grammen. Hierdoor kan het subwoordinformatie modelleren, wat de mogelijkheid verbetert om zeldzame en onbekende woorden, evenals morfologisch rijke talen, te verwerken.

Word2Vec en FastText zijn de meest gebruikte modellen voor het genereren van woordembeddings. Omdat FastText echter slechts een verbeterde versie van Word2Vec is, slaan we deze over en richten we ons uitsluitend op Word2Vec.

Hoe werkt Word2Vec?

Word2Vec zet woorden om in vectoren via een proces dat begint met one-hot encoding, waarbij elk woord in een vocabulaire wordt weergegeven door een unieke vector met één enkele 1 tussen nullen. Bekijk het volgende voorbeeld:

Deze vector dient als invoer voor een neuraal netwerk, dat is ontworpen om de woordembeddings te 'leren'. De architectuur van het netwerk kan een van de volgende twee modellen volgen:

CBoW (continuous bag of words): voorspelt een doelwoord op basis van de context die wordt geboden door omliggende woorden;
Skip-gram: voorspelt de omliggende contextwoorden op basis van het doelwoord.

In beide Word2Vec-architecturen krijgt het model tijdens elke trainingsiteratie een doelwoord en de omliggende woorden als context, weergegeven als one-hot gecodeerde vectoren. De trainingsdataset bestaat dus effectief uit deze paren of groepen, waarbij elk doelwoord wordt gekoppeld aan de omliggende contextwoorden.

Elk woord in de vocabulaire komt aan de beurt als doelwoord terwijl het model door de tekst iteratief beweegt met behulp van een verschuivend contextvenster. Deze techniek schuift systematisch over elk woord, zodat er volledig wordt geleerd van alle mogelijke contexten binnen het corpus.

Definitie

Een contextvenster is een vast aantal woorden rondom een doelwoord dat het model gebruikt om de context te leren. Het bepaalt hoeveel woorden voor en na het doelwoord worden meegenomen tijdens de training.

Bekijk een voorbeeld met een venstergrootte van 2 om het duidelijk te maken:

Een contextvenstergrootte van 2 betekent dat het model tot 2 woorden van zowel de linker- als de rechterkant van het doelwoord opneemt, zolang deze woorden beschikbaar zijn binnen de grenzen van de tekst. Zoals te zien is, als er minder dan 2 woorden aan een van beide zijden zijn, neemt het model zoveel woorden op als beschikbaar zijn.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 1

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain the main differences between Word2Vec, GloVe, and FastText?

How does the sliding context window impact the quality of word embeddings?

Can you provide a simple example of how Word2Vec learns word relationships?

Awesome!

Completion rate improved to 3.45

Veeg om het menu te tonen

Inzicht in woordembeddings

Woordembeddings lossen deze problemen op door rekening te houden met de context waarin woorden voorkomen, wat zorgt voor een meer genuanceerd begrip van taal.

Definitie

Woordembeddings zijn dichte vectorrepresentaties van woorden in een continue vectorruimte, waarbij semantisch vergelijkbare woorden op nabijgelegen punten worden geprojecteerd.

Er zijn verschillende modellen en technieken ontwikkeld om betekenisvolle woordembeddings te genereren:

Word2Vec: ontwikkeld door Google, representeert Word2Vec woorden als dichte vectoren met behulp van twee architecturen: continuous bag of words (CBoW), die een woord voorspelt op basis van de omliggende context, en Skip-gram, die omliggende woorden voorspelt op basis van een gegeven woord;
GloVe: ontwikkeld aan Stanford, genereert GloVe (global vectors) woordembeddings door globale co-occurrencestatistieken van woorden over het gehele corpus te analyseren, waarbij semantische relaties worden vastgelegd op basis van de frequentie waarmee woordparen samen voorkomen;
FastText: geïntroduceerd door Facebook AI Research, bouwt FastText voort op Word2Vec door woorden te representeren als een verzameling van karakter n-grammen. Hierdoor kan het subwoordinformatie modelleren, wat de mogelijkheid verbetert om zeldzame en onbekende woorden, evenals morfologisch rijke talen, te verwerken.

Hoe werkt Word2Vec?

Deze vector dient als invoer voor een neuraal netwerk, dat is ontworpen om de woordembeddings te 'leren'. De architectuur van het netwerk kan een van de volgende twee modellen volgen:

CBoW (continuous bag of words): voorspelt een doelwoord op basis van de context die wordt geboden door omliggende woorden;
Skip-gram: voorspelt de omliggende contextwoorden op basis van het doelwoord.

Definitie

Bekijk een voorbeeld met een venstergrootte van 2 om het duidelijk te maken:

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 1