Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Vektorrumsmodeller | Grundläggande Textmodeller
Introduktion till NLP

bookVektorrumsmodeller

Behovet av numerisk representation

Datorer kan inte tolka text på samma sätt som människor gör. Medan vi utvinner mening ur språk genom kontext, kultur och erfarenhet, ser datorer inget annat än sekvenser av tecken.

För att göra text tillgänglig för maskiner måste vi översätta den till deras modersmål: siffror. Att representera text med vektorer och matriser möjliggör för matematiska och statistiska modeller att upptäcka mönster, relationer och insikter som annars skulle förbli dolda i råtext.

Förståelse för vektorrumsmodeller

Lyckligtvis finns det redan effektiva lösningar för att omvandla text till numerisk form. En av de mest använda metoderna är användningen av vektorrumsmodeller.

Note
Definition

Vektorrumsmodell (VSM) är en matematisk modell som representerar textdokument, ord eller andra objekt som vektorer i ett flerdimensionellt rum.

Det finns många sätt att konstruera sådana vektorrum för textdokument. Ett enkelt tillvägagångssätt är att använda hela korpusvokabulären, där varje dimension i rummet tilldelas en unik term.

Note
Definition

Vokabulär är den kompletta uppsättningen av unika termer som förekommer i en given korpus.

Låt korpusvokabulären betecknas som VV och dokumentmängden som DD. Då kan varje dokument diDd_i \in D representeras som en vektor i RN\R^N:

di=(w1,i,w2,i,...,wN,i)d_i = (w_{1,i}, w_{2,i}, ..., w_{N,i})

där:

  • N=VN = |V| är det totala antalet unika termer i vokabulären;
  • wj,iw_{j,i} anger vikten eller betydelsen av termen WjVW_j \in V i dokumentet did_i.

Här är ett enkelt exempel med endast 2 dokument och 2 unika termer, visualiserat i ett tvådimensionellt vektorrum:

Med hjälp av dessa vektorrepresentationer kan vi beräkna ett likhetspoäng mellan dokument genom att mäta vinkeln mellan deras vektorer, vanligtvis med cosinuslikhet.

Ord som vektorer

Idén bakom VSM kan utvidgas till individuella ordrepresentationer genom tekniken som kallas word embeddings. Word embeddings bygger på en liknande matematisk princip, men fokuserar på att representera enskilda ord som vektorer istället för hela dokument. Dimensionerna i dessa vektorer fångar latenta semantiska egenskaper som inte är direkt tolkbara.

Här är ett exempel med tvådimensionella embeddingar för tre ord:

Som illustreras i bilden är vektorerna för "woman" och "queen", samt för "queen" och "king", placerade nära varandra, vilket indikerar stark semantisk likhet. Däremot antyder den större vinkeln mellan "woman" och "king" en större semantisk skillnad.

Note
Notering

Oroa dig inte för word embeddings just nu, vi kommer att diskutera dem senare.

Tillämpningar av vektorrumsmodeller

Vektorrumsmodeller används inom en mängd olika NLP-uppgifter:

  • Semantisk likhet: beräkning av likhet mellan textdokument eller ord baserat på deras vektorrepresentationer;

  • Informationssökning: förbättring av sökmotorer och rekommendationssystem för att hitta innehåll som är relevant för en användares sökfråga;

  • Textklassificering och klustring: automatisk kategorisering av dokument i fördefinierade klasser eller gruppering av liknande dokument;

  • Förståelse av naturligt språk: möjliggör djupare språklig analys som banar väg för tillämpningar som sentimentanalys, ämnesmodellering och mer.

question mark

Vad används vektorrumsmodeller till?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 1

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 3.45

bookVektorrumsmodeller

Svep för att visa menyn

Behovet av numerisk representation

Datorer kan inte tolka text på samma sätt som människor gör. Medan vi utvinner mening ur språk genom kontext, kultur och erfarenhet, ser datorer inget annat än sekvenser av tecken.

För att göra text tillgänglig för maskiner måste vi översätta den till deras modersmål: siffror. Att representera text med vektorer och matriser möjliggör för matematiska och statistiska modeller att upptäcka mönster, relationer och insikter som annars skulle förbli dolda i råtext.

Förståelse för vektorrumsmodeller

Lyckligtvis finns det redan effektiva lösningar för att omvandla text till numerisk form. En av de mest använda metoderna är användningen av vektorrumsmodeller.

Note
Definition

Vektorrumsmodell (VSM) är en matematisk modell som representerar textdokument, ord eller andra objekt som vektorer i ett flerdimensionellt rum.

Det finns många sätt att konstruera sådana vektorrum för textdokument. Ett enkelt tillvägagångssätt är att använda hela korpusvokabulären, där varje dimension i rummet tilldelas en unik term.

Note
Definition

Vokabulär är den kompletta uppsättningen av unika termer som förekommer i en given korpus.

Låt korpusvokabulären betecknas som VV och dokumentmängden som DD. Då kan varje dokument diDd_i \in D representeras som en vektor i RN\R^N:

di=(w1,i,w2,i,...,wN,i)d_i = (w_{1,i}, w_{2,i}, ..., w_{N,i})

där:

  • N=VN = |V| är det totala antalet unika termer i vokabulären;
  • wj,iw_{j,i} anger vikten eller betydelsen av termen WjVW_j \in V i dokumentet did_i.

Här är ett enkelt exempel med endast 2 dokument och 2 unika termer, visualiserat i ett tvådimensionellt vektorrum:

Med hjälp av dessa vektorrepresentationer kan vi beräkna ett likhetspoäng mellan dokument genom att mäta vinkeln mellan deras vektorer, vanligtvis med cosinuslikhet.

Ord som vektorer

Idén bakom VSM kan utvidgas till individuella ordrepresentationer genom tekniken som kallas word embeddings. Word embeddings bygger på en liknande matematisk princip, men fokuserar på att representera enskilda ord som vektorer istället för hela dokument. Dimensionerna i dessa vektorer fångar latenta semantiska egenskaper som inte är direkt tolkbara.

Här är ett exempel med tvådimensionella embeddingar för tre ord:

Som illustreras i bilden är vektorerna för "woman" och "queen", samt för "queen" och "king", placerade nära varandra, vilket indikerar stark semantisk likhet. Däremot antyder den större vinkeln mellan "woman" och "king" en större semantisk skillnad.

Note
Notering

Oroa dig inte för word embeddings just nu, vi kommer att diskutera dem senare.

Tillämpningar av vektorrumsmodeller

Vektorrumsmodeller används inom en mängd olika NLP-uppgifter:

  • Semantisk likhet: beräkning av likhet mellan textdokument eller ord baserat på deras vektorrepresentationer;

  • Informationssökning: förbättring av sökmotorer och rekommendationssystem för att hitta innehåll som är relevant för en användares sökfråga;

  • Textklassificering och klustring: automatisk kategorisering av dokument i fördefinierade klasser eller gruppering av liknande dokument;

  • Förståelse av naturligt språk: möjliggör djupare språklig analys som banar väg för tillämpningar som sentimentanalys, ämnesmodellering och mer.

question mark

Vad används vektorrumsmodeller till?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 1
some-alt