Leer CBoW- en Skip-Grammodellen

Veeg om het menu te tonen

Een basiskennis van neurale netwerken wordt aanbevolen voor dit hoofdstuk. Als je niet vertrouwd bent met dit onderwerp, bekijk dan gerust deze cursus:

Vereisten

Introductie tot Neurale Netwerken

Zowel de CBoW- als de Skip-gram-architecturen leren woordembeddings aan via een neuraal netwerk met de volgende lagen:

een invoerlaag;
een enkele verborgen laag;
een uitvoerlaag.

De gewichtenmatrix tussen de invoer- en verborgen laag, aangeduid als $W^1$ of $E$ , fungeert als de embeddingsmatrix. Elke rij van deze matrix vertegenwoordigt een embeddingvector voor een overeenkomstig woord, waarbij de $i$ -de rij overeenkomt met het $i$ -de woord in de vocabulaire.

Deze matrix bevat $V$ (vocabulairegrootte) embeddings, elk van grootte $N$ , een dimensie die we specificeren. Door de getransponeerde matrix ( $N \times V$ matrix) te vermenigvuldigen met een one-hot gecodeerde vector ( $V \times 1$ vector), wordt de embedding voor een specifiek woord opgehaald, wat resulteert in een $N \times 1$ vector.

De tweede gewichts matrix, tussen de verborgen en uitvoer lagen, heeft de afmeting $N \times V$ . Het vermenigvuldigen van de getransponeerde matrix ( $V \times N$ matrix) met de $N \times 1$ vector van de verborgen laag resulteert in een $V \times 1$ vector.

CBoW

Bekijk nu een voorbeeld van het gebruik van een CBoW-model:

Eerst wordt de getransponeerde embeddingsmatrix vermenigvuldigd met de one-hot vectoren van de contextwoorden om hun embeddings te verkrijgen. Deze embeddings worden vervolgens opgeteld of gemiddeld, afhankelijk van de implementatie, om één enkele vector te vormen. Deze vector wordt vermenigvuldigd met de $W^2$ matrix, wat resulteert in een $V \times 1$ vector.

Ten slotte gaat deze vector door de softmax activatiefunctie, waardoor het wordt omgezet in een waarschijnlijkheidsverdeling, waarbij elk element de kans weergeeft dat een vocabulairewoord het doelwoord is.

Daarna wordt het verlies berekend en worden beide gewichtsmatrices bijgewerkt om dit verlies te minimaliseren. Idealiter willen we dat de kans op het doelwoord dicht bij 1 ligt, terwijl de kansen voor alle andere woorden naar nul gaan. Dit proces wordt herhaald voor elke combinatie van een doelwoord en zijn contextwoorden.

Zodra alle combinaties zijn verwerkt, is een epoch voltooid. Gewoonlijk wordt het neuraal netwerk over meerdere epochs getraind om een nauwkeurige training te waarborgen. Ten slotte kunnen de rijen van de resulterende embeddingmatrix worden gebruikt als onze woordembeddings. Elke rij komt overeen met de vectorrepresentatie van een specifiek woord in de vocabulaire en legt effectief de semantische eigenschappen vast binnen het getrainde model.

Skip-gram

Laten we nu een skip-grammodel bekijken:

Zoals te zien is, lijkt het proces grotendeels op CBoW. Het begint met het ophalen van de embedding van het doelwoord, die vervolgens wordt gebruikt in de verborgen laag. Daarna wordt een $V \times 1$ vector geproduceerd in de outputlaag. Deze vector, verkregen door de embedding van het doelwoord te vermenigvuldigen met de gewichtsmatrix van de outputlaag, wordt vervolgens door de softmax activatiefunctie omgezet in een vector van waarschijnlijkheden.

Opmerking

Hoewel deze resulterende vector van waarschijnlijkheden hetzelfde is voor alle contextwoorden die aan één doelwoord zijn gekoppeld tijdens één trainingsstap, wordt het verlies voor elk contextwoord individueel berekend.

Het verlies voor elk contextwoord wordt opgeteld, en de gewichtsmatrices worden bij elke iteratie dienovereenkomstig bijgewerkt om het totale verlies te minimaliseren. Zodra het opgegeven aantal epochs is voltooid, kan de embeddingsmatrix worden gebruikt om de woordembeddings te verkrijgen.

Meer Leren

In de praktijk, vooral bij grote woordenschatten, kan de softmax-functie te rekenintensief zijn. Daarom worden benaderingen zoals negatieve sampling vaak gebruikt om de berekening efficiënter te maken.