Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Lemmatisering | Stamming og Lemmatisering
Introduksjon til NLP

bookLemmatisering

Forståelse av lemmatisering

Note
Definisjon

Lemmatisering er en tekstnormaliseringsteknikk brukt i NLP for å redusere ord til deres ordboksform, kjent som en lemma.

I motsetning til stemming, som grovt kutter av affikser, tar lemmatisering hensyn til konteksten og konverterer ordet til dets ordboksform. For eksempel blir 'am', 'are' og 'is' alle lemmatisert til 'be'. Denne tilnærmingen kan redusere størrelsen på vokabularet (antall unike ord) i store tekstkorpuser betydelig, noe som øker effektiviteten ved modelltrening.

På den annen side, selv om lemmatisering er mer nøyaktig, er det også mer beregningskrevende og kan være tidkrevende med store datasett. For enda bedre nøyaktighet anbefales det å utføre morfologisk analyse og ordklassemerking før lemmatisering.

Note
Merk

Ikke bekymre deg for ordklassemerking nå, da dette er det neste du skal lære om.

Lemmatization med NLTK

WordNet Lemmatizer, levert av NLTK-biblioteket, benytter WordNet-korpuset for å utføre lemmatisering.

Note
Les mer

WordNet er en semantisk rik leksikalsk database for engelsk som går langt utover et enkelt korpus. Den grupperer ord i synonyme sett, eller synsets, hvor hvert sett representerer et distinkt begrep og ledsages av definisjoner og brukseksempler. I tillegg koder WordNet meningsfulle relasjoner mellom disse synsettene — som hyperonymer (bredere, mer generelle termer) og hyponymer (smalere, mer spesifikke termer) — og tilbyr et kraftig rammeverk for å utforske og avklare ords betydning.

Når du bruker WordNet Lemmatizer, slår den opp målordet i WordNet-databasen for å finne den mest passende lemmaen til ordet.

Som nevnt ovenfor, fordi ord kan ha ulike betydninger i forskjellige kontekster (for eksempel "running" som verb vs. "running" som substantiv), kan lemmatiseringsverktøyet kreve at du spesifiserer ordklasse (for eksempel verb, substantiv, adjektiv). Dette hjelper den å velge riktig lemma basert på ordets rolle i en setning.

1234567891011
from nltk.stem import WordNetLemmatizer import nltk # Download the WordNet corpus nltk.download('wordnet') # Initialize the WordNet lemmatizer lemmatizer = WordNetLemmatizer() # Parts of speech, 'v' for verb and 'n' for noun parts_of_speech = ['v', 'n'] # Lemmatize words lemmatized_words = [lemmatizer.lemmatize("running", pos) for pos in parts_of_speech] print("Lemmatized words:", lemmatized_words)
copy

Du kan utelate å spesifisere ordklassen ved å kalle lemmatizer.lemmatize("running"), men som du ser, gir ulike ordklasser forskjellige resultater. Derfor er det best å utføre ordklassetagging på forhånd.

question mark

Hva er den primære fordelen med å bruke lemmatisering sammenlignet med stemming?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 3

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

Can you explain the difference between stemming and lemmatization in more detail?

How does specifying the part of speech affect the lemmatization result?

Why is lemmatization considered more computationally expensive than stemming?

Awesome!

Completion rate improved to 3.45

bookLemmatisering

Sveip for å vise menyen

Forståelse av lemmatisering

Note
Definisjon

Lemmatisering er en tekstnormaliseringsteknikk brukt i NLP for å redusere ord til deres ordboksform, kjent som en lemma.

I motsetning til stemming, som grovt kutter av affikser, tar lemmatisering hensyn til konteksten og konverterer ordet til dets ordboksform. For eksempel blir 'am', 'are' og 'is' alle lemmatisert til 'be'. Denne tilnærmingen kan redusere størrelsen på vokabularet (antall unike ord) i store tekstkorpuser betydelig, noe som øker effektiviteten ved modelltrening.

På den annen side, selv om lemmatisering er mer nøyaktig, er det også mer beregningskrevende og kan være tidkrevende med store datasett. For enda bedre nøyaktighet anbefales det å utføre morfologisk analyse og ordklassemerking før lemmatisering.

Note
Merk

Ikke bekymre deg for ordklassemerking nå, da dette er det neste du skal lære om.

Lemmatization med NLTK

WordNet Lemmatizer, levert av NLTK-biblioteket, benytter WordNet-korpuset for å utføre lemmatisering.

Note
Les mer

WordNet er en semantisk rik leksikalsk database for engelsk som går langt utover et enkelt korpus. Den grupperer ord i synonyme sett, eller synsets, hvor hvert sett representerer et distinkt begrep og ledsages av definisjoner og brukseksempler. I tillegg koder WordNet meningsfulle relasjoner mellom disse synsettene — som hyperonymer (bredere, mer generelle termer) og hyponymer (smalere, mer spesifikke termer) — og tilbyr et kraftig rammeverk for å utforske og avklare ords betydning.

Når du bruker WordNet Lemmatizer, slår den opp målordet i WordNet-databasen for å finne den mest passende lemmaen til ordet.

Som nevnt ovenfor, fordi ord kan ha ulike betydninger i forskjellige kontekster (for eksempel "running" som verb vs. "running" som substantiv), kan lemmatiseringsverktøyet kreve at du spesifiserer ordklasse (for eksempel verb, substantiv, adjektiv). Dette hjelper den å velge riktig lemma basert på ordets rolle i en setning.

1234567891011
from nltk.stem import WordNetLemmatizer import nltk # Download the WordNet corpus nltk.download('wordnet') # Initialize the WordNet lemmatizer lemmatizer = WordNetLemmatizer() # Parts of speech, 'v' for verb and 'n' for noun parts_of_speech = ['v', 'n'] # Lemmatize words lemmatized_words = [lemmatizer.lemmatize("running", pos) for pos in parts_of_speech] print("Lemmatized words:", lemmatized_words)
copy

Du kan utelate å spesifisere ordklassen ved å kalle lemmatizer.lemmatize("running"), men som du ser, gir ulike ordklasser forskjellige resultater. Derfor er det best å utføre ordklassetagging på forhånd.

question mark

Hva er den primære fordelen med å bruke lemmatisering sammenlignet med stemming?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 3
some-alt