Lära Vektorrumsmodeller | Grundläggande Textmodeller

Behovet av numerisk representation

Datorer kan inte tolka text på samma sätt som människor gör. Medan vi utvinner mening ur språk genom kontext, kultur och erfarenhet, ser datorer inget annat än sekvenser av tecken.

För att göra text tillgänglig för maskiner måste vi översätta den till deras modersmål: siffror. Att representera text med vektorer och matriser möjliggör för matematiska och statistiska modeller att upptäcka mönster, relationer och insikter som annars skulle förbli dolda i råtext.

Förståelse för vektorrumsmodeller

Lyckligtvis finns det redan effektiva lösningar för att omvandla text till numerisk form. En av de mest använda metoderna är användningen av vektorrumsmodeller.

Definition

Vektorrumsmodell (VSM) är en matematisk modell som representerar textdokument, ord eller andra objekt som vektorer i ett flerdimensionellt rum.

Det finns många sätt att konstruera sådana vektorrum för textdokument. Ett enkelt tillvägagångssätt är att använda hela korpusvokabulären, där varje dimension i rummet tilldelas en unik term.

Definition

Vokabulär är den kompletta uppsättningen av unika termer som förekommer i en given korpus.

Låt korpusvokabulären betecknas som $V$ och dokumentmängden som $D$ . Då kan varje dokument $d_i \in D$ representeras som en vektor i $\R^N$ :

d_i = (w_{1,i}, w_{2,i}, ..., w_{N,i})

där:

$N = |V|$ är det totala antalet unika termer i vokabulären;
$w_{j,i}$ anger vikten eller betydelsen av termen $W_j \in V$ i dokumentet $d_i$ .

Här är ett enkelt exempel med endast 2 dokument och 2 unika termer, visualiserat i ett tvådimensionellt vektorrum:

Med hjälp av dessa vektorrepresentationer kan vi beräkna ett likhetspoäng mellan dokument genom att mäta vinkeln mellan deras vektorer, vanligtvis med cosinuslikhet.

Ord som vektorer

Idén bakom VSM kan utvidgas till individuella ordrepresentationer genom tekniken som kallas word embeddings. Word embeddings bygger på en liknande matematisk princip, men fokuserar på att representera enskilda ord som vektorer istället för hela dokument. Dimensionerna i dessa vektorer fångar latenta semantiska egenskaper som inte är direkt tolkbara.

Här är ett exempel med tvådimensionella embeddingar för tre ord:

Som illustreras i bilden är vektorerna för "woman" och "queen", samt för "queen" och "king", placerade nära varandra, vilket indikerar stark semantisk likhet. Däremot antyder den större vinkeln mellan "woman" och "king" en större semantisk skillnad.

Notering

Oroa dig inte för word embeddings just nu, vi kommer att diskutera dem senare.

Tillämpningar av vektorrumsmodeller

Vektorrumsmodeller används inom en mängd olika NLP-uppgifter:

Semantisk likhet: beräkning av likhet mellan textdokument eller ord baserat på deras vektorrepresentationer;
Informationssökning: förbättring av sökmotorer och rekommendationssystem för att hitta innehåll som är relevant för en användares sökfråga;
Textklassificering och klustring: automatisk kategorisering av dokument i fördefinierade klasser eller gruppering av liknande dokument;
Förståelse av naturligt språk: möjliggör djupare språklig analys som banar väg för tillämpningar som sentimentanalys, ämnesmodellering och mer.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 1

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 3.45

Svep för att visa menyn

Behovet av numerisk representation

Datorer kan inte tolka text på samma sätt som människor gör. Medan vi utvinner mening ur språk genom kontext, kultur och erfarenhet, ser datorer inget annat än sekvenser av tecken.

Förståelse för vektorrumsmodeller

Lyckligtvis finns det redan effektiva lösningar för att omvandla text till numerisk form. En av de mest använda metoderna är användningen av vektorrumsmodeller.

Definition

Vektorrumsmodell (VSM) är en matematisk modell som representerar textdokument, ord eller andra objekt som vektorer i ett flerdimensionellt rum.

Definition

Vokabulär är den kompletta uppsättningen av unika termer som förekommer i en given korpus.

Låt korpusvokabulären betecknas som $V$ och dokumentmängden som $D$ . Då kan varje dokument $d_i \in D$ representeras som en vektor i $\R^N$ :

d_i = (w_{1,i}, w_{2,i}, ..., w_{N,i})

där:

$N = |V|$ är det totala antalet unika termer i vokabulären;
$w_{j,i}$ anger vikten eller betydelsen av termen $W_j \in V$ i dokumentet $d_i$ .

Här är ett enkelt exempel med endast 2 dokument och 2 unika termer, visualiserat i ett tvådimensionellt vektorrum:

Med hjälp av dessa vektorrepresentationer kan vi beräkna ett likhetspoäng mellan dokument genom att mäta vinkeln mellan deras vektorer, vanligtvis med cosinuslikhet.

Ord som vektorer

Här är ett exempel med tvådimensionella embeddingar för tre ord:

Notering

Oroa dig inte för word embeddings just nu, vi kommer att diskutera dem senare.

Tillämpningar av vektorrumsmodeller

Vektorrumsmodeller används inom en mängd olika NLP-uppgifter:

Semantisk likhet: beräkning av likhet mellan textdokument eller ord baserat på deras vektorrepresentationer;
Informationssökning: förbättring av sökmotorer och rekommendationssystem för att hitta innehåll som är relevant för en användares sökfråga;
Textklassificering och klustring: automatisk kategorisering av dokument i fördefinierade klasser eller gruppering av liknande dokument;
Förståelse av naturligt språk: möjliggör djupare språklig analys som banar väg för tillämpningar som sentimentanalys, ämnesmodellering och mer.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 1