Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Typer av Vektorrumsmodeller | Grundläggande Textmodeller
Introduktion till NLP

bookTyper av Vektorrumsmodeller

Vektorrumsmodeller kan kategoriseras efter hur de representerar text, från enkla frekvensbaserade metoder till mer avancerade, kontextmedvetna inbäddningar. Varje metod har sina unika fördelar och lämpar sig för olika typer av NLP-uppgifter.

Bag of Words

Bag of words (BoW) är en vektorrumsmodell som representerar dokument som vektorer där varje dimension motsvarar ett unikt ord. Den kan vara binär (anger om ordet förekommer) eller frekvensbaserad (anger antal förekomster av ordet).

Här är ett exempel på en frekvensbaserad BoW:

Som du kan se representeras varje dokument av en vektor, där varje dimension motsvarar frekvensen av ett specifikt ord i det dokumentet. I en binär bag of words-modell skulle varje vektor endast innehålla 0 eller 1 för varje ord, vilket anger dess frånvaro eller närvaro.

Note
Notering

Textförbehandling är ett nödvändigt steg innan BoW eller liknande modeller tillämpas.

TF-IDF

TF-IDF (term frequency-inverse document frequency)-modellen utökar bag of words (BoW)-metoden genom att justera ordfrekvenser baserat på deras förekomst i alla dokument. Den betonar ord som är unika för ett dokument och ger därmed mer specifika insikter om dokumentets innehåll.

Detta uppnås genom att kombinera termfrekvens (antalet gånger ett ord förekommer i ett dokument) med invers dokumentfrekvens (ett mått på hur vanligt eller ovanligt ett ord är i hela datamängden).

Här är resultatet av att tillämpa TF-IDF på dokumenten från det föregående exemplet:

De resulterande vektorerna, berikade med TF-IDF, uppvisar större variation och ger djupare insikter i dokumentets innehåll.

Ord-inbäddningar och dokumentinbäddningar

Ord-inbäddningar avbildar enskilda ord till täta vektorer i ett lågdimentionellt, kontinuerligt rum, vilket fångar semantiska likheter som inte är direkt tolkbara.

Dokumentinbäddningar å andra sidan, genererar täta vektorer som representerar hela dokument, och fångar deras övergripande semantiska innebörd.

Note
Notering

Dimensionaliteten (storleken) på inbäddningar väljs vanligtvis utifrån projektkrav och tillgängliga beräkningsresurser. Att välja rätt storlek är avgörande för att uppnå en balans mellan att fånga rik semantisk information och att bibehålla modeleffektivitet.

Här är ett exempel på hur ord-inbäddningar för orden "cat", "kitten", "dog" och "house" kan se ut:

Även om de numeriska värdena i denna tabell är godtyckliga, illustrerar de hur inbäddningar kan representera meningsfulla relationer mellan ord.

I verkliga tillämpningar lärs sådana inbäddningar in genom träning av en modell på en stor textkorpus, vilket gör det möjligt för modellen att upptäcka subtila mönster och semantiska relationer inom naturligt språk.

Note
Läs mer

En vidareutveckling av täta representationer, kontextuella inbäddningar (genererade av modeller som BERT och GPT), tar hänsyn till det sammanhang där ett ord förekommer för att generera dess vektor. Detta innebär att samma ord kan ha olika inbäddningar beroende på dess användning i olika meningar, vilket ger en nyanserad förståelse av språket.

question-icon

Ordna modellerna efter deras komplexitet, från enklast till mest komplex.




Click or drag`n`drop items and fill in the blanks

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 2

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 3.45

bookTyper av Vektorrumsmodeller

Svep för att visa menyn

Vektorrumsmodeller kan kategoriseras efter hur de representerar text, från enkla frekvensbaserade metoder till mer avancerade, kontextmedvetna inbäddningar. Varje metod har sina unika fördelar och lämpar sig för olika typer av NLP-uppgifter.

Bag of Words

Bag of words (BoW) är en vektorrumsmodell som representerar dokument som vektorer där varje dimension motsvarar ett unikt ord. Den kan vara binär (anger om ordet förekommer) eller frekvensbaserad (anger antal förekomster av ordet).

Här är ett exempel på en frekvensbaserad BoW:

Som du kan se representeras varje dokument av en vektor, där varje dimension motsvarar frekvensen av ett specifikt ord i det dokumentet. I en binär bag of words-modell skulle varje vektor endast innehålla 0 eller 1 för varje ord, vilket anger dess frånvaro eller närvaro.

Note
Notering

Textförbehandling är ett nödvändigt steg innan BoW eller liknande modeller tillämpas.

TF-IDF

TF-IDF (term frequency-inverse document frequency)-modellen utökar bag of words (BoW)-metoden genom att justera ordfrekvenser baserat på deras förekomst i alla dokument. Den betonar ord som är unika för ett dokument och ger därmed mer specifika insikter om dokumentets innehåll.

Detta uppnås genom att kombinera termfrekvens (antalet gånger ett ord förekommer i ett dokument) med invers dokumentfrekvens (ett mått på hur vanligt eller ovanligt ett ord är i hela datamängden).

Här är resultatet av att tillämpa TF-IDF på dokumenten från det föregående exemplet:

De resulterande vektorerna, berikade med TF-IDF, uppvisar större variation och ger djupare insikter i dokumentets innehåll.

Ord-inbäddningar och dokumentinbäddningar

Ord-inbäddningar avbildar enskilda ord till täta vektorer i ett lågdimentionellt, kontinuerligt rum, vilket fångar semantiska likheter som inte är direkt tolkbara.

Dokumentinbäddningar å andra sidan, genererar täta vektorer som representerar hela dokument, och fångar deras övergripande semantiska innebörd.

Note
Notering

Dimensionaliteten (storleken) på inbäddningar väljs vanligtvis utifrån projektkrav och tillgängliga beräkningsresurser. Att välja rätt storlek är avgörande för att uppnå en balans mellan att fånga rik semantisk information och att bibehålla modeleffektivitet.

Här är ett exempel på hur ord-inbäddningar för orden "cat", "kitten", "dog" och "house" kan se ut:

Även om de numeriska värdena i denna tabell är godtyckliga, illustrerar de hur inbäddningar kan representera meningsfulla relationer mellan ord.

I verkliga tillämpningar lärs sådana inbäddningar in genom träning av en modell på en stor textkorpus, vilket gör det möjligt för modellen att upptäcka subtila mönster och semantiska relationer inom naturligt språk.

Note
Läs mer

En vidareutveckling av täta representationer, kontextuella inbäddningar (genererade av modeller som BERT och GPT), tar hänsyn till det sammanhang där ett ord förekommer för att generera dess vektor. Detta innebär att samma ord kan ha olika inbäddningar beroende på dess användning i olika meningar, vilket ger en nyanserad förståelse av språket.

question-icon

Ordna modellerna efter deras komplexitet, från enklast till mest komplex.




Click or drag`n`drop items and fill in the blanks

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 2
some-alt