Summary  
This chapter covers how to perform lemmatization—reducing words to their dictionary form—using NLTK’s WordNetLemmatizer and highlights specifying parts of speech to improve accuracy.  

General domain of usage  
Natural Language Processing

**Lemmatisering** er en tekstnormaliseringsteknikk brukt i NLP for å redusere ord til deres ordboksform, kjent som en **lemma**.

Definisjon

I motsetning til stemming, som grovt kutter av affikser, tar lemmatisering hensyn til konteksten og konverterer ordet til dets **ordboksform**. For eksempel blir 'am', 'are' og 'is' alle lemmatisert til 'be'. Denne tilnærmingen kan redusere **størrelsen på vokabularet** (antall unike ord) i store tekstkorpuser betydelig, noe som øker effektiviteten ved modelltrening.

På den annen side, selv om lemmatisering er mer nøyaktig, er det også mer **beregningsmessig krevende** og kan være tidkrevende med store datasett. For enda bedre nøyaktighet anbefales det å utføre morfologisk analyse og **ordklassemerking** før lemmatisering.

Ikke bekymre deg for **ordklassemerking** nå, da dette er det neste du skal lære om.

Merk

## Lemmatisering med NLTK

WordNet Lemmatizer, levert av NLTK-biblioteket, benytter **WordNet**-korpuset for å utføre lemmatisering.

**WordNet** er en semantisk rik leksikalsk database for engelsk som går langt utover et enkelt korpus. Den grupperer ord i synonyme sett, eller **synsets**, hvor hvert sett representerer et distinkt begrep og ledsages av definisjoner og brukseksempler. I tillegg koder WordNet meningsfulle relasjoner mellom disse synsettene — som **hyperonymer** (bredere, mer generelle termer) og **hyponymer** (smalere, mer spesifikke termer) — og tilbyr et kraftig rammeverk for å utforske og avklare ords betydning.


Les mer

Når du bruker WordNet Lemmatizer, slår den opp målordet i **WordNet-databasen** for å finne den mest passende lemmaen til ordet.

Som nevnt ovenfor, fordi ord kan ha ulike betydninger i forskjellige kontekster (for eksempel "running" som verb vs. "running" som substantiv), kan lemmatizeren kreve at du spesifiserer **ordklasse** (for eksempel verb, substantiv, adjektiv). Dette hjelper den med å velge riktig lemma basert på ordets rolle i en setning.

from nltk.stem import WordNetLemmatizer
import nltk
# Download the WordNet corpus
nltk.download('wordnet')
# Initialize the WordNet lemmatizer
lemmatizer = WordNetLemmatizer()
# Parts of speech, 'v' for verb and 'n' for noun
parts_of_speech = ['v', 'n']
# Lemmatize words
lemmatized_words = [lemmatizer.lemmatize("running", pos) for pos in parts_of_speech]
print("Lemmatized words:", lemmatized_words)

Du kan utelate å spesifisere ordklasse ved å kalle `lemmatizer.lemmatize("running")`, men som du ser, gir ulike ordklasser forskjellige resultater. Derfor er det best å utføre **ordklassetagging** på forhånd.

Hva er den primære fordelen med å bruke lemmatisering sammenlignet med stemming?

Utforsk grunnleggende prinsipper innen Natural Language Processing (NLP) ved å lære essensielle teknikker for tekstforbehandling og metoder for å representere tekstdata. Få praktisk erfaring med verktøyene som brukes til å rense, analysere og tolke tekstinformasjon. Utvikle ferdigheter som kreves for å omforme råspråk til strukturerte innsikter, og legg et solid grunnlag for avanserte anvendelser innen kunstig intelligens og maskinlæring.

Utforsk det grunnleggende innen tekstforbehandling for å klargjøre råtekst for analyse. Lær hvordan man deler opp tekst i token, filtrerer ut stoppord og tilpasser tokenisering med regulære uttrykk.

Utforsk hvordan ord kan reduseres til sine grunnformer ved hjelp av stamming og lemmatisering. Behersk ordklassemerking for å berike tekst med grammatisk kontekst og anvend ordklassebevisst lemmatisering.

Lær hvordan tekst kan representeres med tall ved hjelp av vektorrommodeller. Få praktisk erfaring ved å implementere og tilpasse to populære vektorrommodeller: bag of words og TF-IDF.

Få en grundig forståelse av ordinnbygginger og hvordan de fanger opp semantisk betydning. Utforsk CBoW- og Skip-gram-arkitekturer brukt i Word2Vec, og implementer dem selv.

Lemmatisering

Forståelse av lemmatisering

Lemmatisering med NLTK