Lära CBoW- och Skip-gram-modeller

Grundläggande förståelse för neurala nätverk rekommenderas för detta kapitel. Om du är obekant med ämnet, utforska gärna denna kurs:

Förkunskaper

Introduktion till neurala nätverk

Både CBoW- och Skip-gram-arkitekturer lär sig ordinbäddningar genom en neural nätverksstruktur som består av följande lager:

ett inmatningslager;
ett dolt lager;
ett utmatningslager.

Viktmatrisen mellan inmatnings- och dolt lager, betecknad som $W^1$ eller $E$ , fungerar som inbäddningsmatrisen. Varje rad i denna matris representerar en inbäddningsvektor för ett motsvarande ord, där den $i$ :te raden matchar det $i$ :te ordet i vokabulären.

Denna matris innehåller $V$ (vokabulärstorlek) inbäddningar, var och en av storlek $N$ , en dimension vi specificerar. Multiplikation av transponatet av denna matris ( $N \times V$ matris) med en one-hot-kodad vektor ( $V \times 1$ vektor) hämtar inbäddningen för ett specifikt ord och producerar en $N \times 1$ vektor.

Den andra viktmatrisen, mellan det dolda lagret och utgångslagret, har storleken $N \times V$ . Om man multiplicerar transponatet av denna matris (en $V \times N$ -matris) med det dolda lagrets $N \times 1$ -vektor erhålls en $V \times 1$ -vektor.

CBoW

Här följer ett exempel på användning av en CBoW-modell:

Först multipliceras transponatet av inbäddningsmatrisen med one-hot-vektorerna för kontextorden för att generera deras inbäddningar. Dessa inbäddningar summeras eller medelvärdesberäknas beroende på implementationen för att bilda en enda vektor. Denna vektor multipliceras med $W^2$ -matrisen, vilket resulterar i en $V \times 1$ -vektor.

Slutligen passerar denna vektor genom softmax-aktiveringsfunktionen, vilket omvandlar den till en sannolikhetsfördelning där varje element representerar sannolikheten att ett vokabulärord är målordet.

Därefter beräknas förlusten och båda viktmatriserna uppdateras för att minimera denna förlust. Idealiskt vill vi att sannolikheten för målordet ska vara nära 1, medan sannolikheterna för alla andra ord närmar sig noll. Denna process upprepas för varje kombination av ett målord och dess kontextord.

När alla kombinationer har bearbetats är en epok slutförd. Vanligtvis tränas det neurala nätverket under flera epoker för att säkerställa noggrann inlärning. Slutligen kan raderna i den resulterande embedding-matrisen användas som våra word embeddings. Varje rad motsvarar vektorrepresentationen av ett specifikt ord i vokabulären och fångar effektivt dess semantiska egenskaper inom den tränade modellen.

Skip-gram

Låt oss nu titta på en skip-gram-modell:

Som du kan se är processen i stort sett liknande CBoW. Den börjar med att hämta embedding för målordet, vilket sedan används i det dolda lagret. Detta följs av att producera en $V \times 1$ -vektor i utgångslagret. Denna vektor, som erhålls genom att multiplicera målordets embedding med utgångslagrets viktmatris, omvandlas sedan av softmax-aktiveringsfunktionen till en sannolikhetsvektor.

Notera

Även om denna resulterande sannolikhetsvektor är densamma för alla kontextord som är associerade med ett enskilt målord under ett enskilt träningssteg, beräknas förlusten för varje kontextord individuellt.

Förlusten för varje kontextord summeras, och viktmatriserna uppdateras därefter vid varje iteration för att minimera den totala förlusten. När det angivna antalet epoker är slutfört kan inbäddningsmatrisen användas för att erhålla ordbäddarna.

Läs mer

I praktiken, särskilt med stora vokabulärer, kan softmax-funktionen vara alltför beräkningsintensiv. Därför används ofta approximationer såsom negativ sampling för att göra beräkningen mer effektiv.