Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Lemmatisatie | Stemming en Lemmatizatie
Introductie tot NLP

bookLemmatisatie

Inzicht in lemmatisatie

Note
Definitie

Lemmatisatie is een tekstnormalisatietechniek die in NLP wordt gebruikt om woorden terug te brengen naar hun woordenboekvorm, bekend als een lemma.

In tegenstelling tot stemming, waarbij op grove wijze affixen worden verwijderd, houdt lemmatisatie rekening met de context en zet het woord om naar de woordenboekvorm. Bijvoorbeeld, 'am', 'are' en 'is' worden allemaal gelemmatiseerd tot 'be'. Deze aanpak kan de omvang van de woordenschat (het aantal unieke woorden) in grote tekstcorpora aanzienlijk verkleinen, waardoor de efficiëntie bij het trainen van modellen toeneemt.

Aan de andere kant is lemmatisatie, hoewel nauwkeuriger, ook computationeel intensiever en kan het tijdrovend zijn bij grote datasets. Voor nog betere nauwkeurigheid wordt aanbevolen om morfologische analyse en woordsoorttagging uit te voeren vóór lemmatisatie.

Note
Opmerking

Maak je geen zorgen over part-of-speech tagging op dit moment, want dit is het volgende onderwerp dat aan bod komt.

Lemmatisatie met NLTK

De WordNet Lemmatizer, aangeboden door de NLTK-bibliotheek, maakt gebruik van het WordNet-corpus om lemmatisatie uit te voeren.

Note
Meer leren

WordNet is een semantisch rijke lexicale database voor het Engels die veel verder gaat dan een eenvoudig corpus. Het groepeert woorden in synoniemensets, of synsets, die elk een afzonderlijk concept vastleggen en worden voorzien van definities en gebruiksvoorbeelden. Daarnaast legt WordNet betekenisvolle relaties vast tussen deze synsets — zoals hyperoniemen (algemenere termen) en hyponiemen (specifiekere termen) — en biedt zo een krachtig kader voor het verkennen en disambigueren van woordbetekenissen.

Wanneer je de WordNet Lemmatizer gebruikt, zoekt deze het doelwoord op in de WordNet-database om het meest geschikte lemma van het woord te vinden.

Zoals hierboven vermeld, kunnen woorden verschillende betekenissen hebben afhankelijk van de context (bijvoorbeeld "running" als werkwoord versus "running" als zelfstandig naamwoord). De lemmatizer kan daarom vereisen dat je de woordsoort specificeert (bijvoorbeeld werkwoord, zelfstandig naamwoord, bijvoeglijk naamwoord). Dit helpt bij het selecteren van het juiste lemma op basis van de rol van het woord in een zin.

1234567891011
from nltk.stem import WordNetLemmatizer import nltk # Download the WordNet corpus nltk.download('wordnet') # Initialize the WordNet lemmatizer lemmatizer = WordNetLemmatizer() # Parts of speech, 'v' for verb and 'n' for noun parts_of_speech = ['v', 'n'] # Lemmatize words lemmatized_words = [lemmatizer.lemmatize("running", pos) for pos in parts_of_speech] print("Lemmatized words:", lemmatized_words)
copy

Je kunt het specificeren van de woordsoort weglaten door lemmatizer.lemmatize("running") aan te roepen, maar zoals je ziet leveren verschillende woordsoorten verschillende resultaten op. Daarom is het aan te raden om vooraf part-of-speech tagging uit te voeren.

question mark

Wat is het belangrijkste voordeel van het gebruik van lemmatisatie ten opzichte van stemming?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 3

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 3.45

bookLemmatisatie

Veeg om het menu te tonen

Inzicht in lemmatisatie

Note
Definitie

Lemmatisatie is een tekstnormalisatietechniek die in NLP wordt gebruikt om woorden terug te brengen naar hun woordenboekvorm, bekend als een lemma.

In tegenstelling tot stemming, waarbij op grove wijze affixen worden verwijderd, houdt lemmatisatie rekening met de context en zet het woord om naar de woordenboekvorm. Bijvoorbeeld, 'am', 'are' en 'is' worden allemaal gelemmatiseerd tot 'be'. Deze aanpak kan de omvang van de woordenschat (het aantal unieke woorden) in grote tekstcorpora aanzienlijk verkleinen, waardoor de efficiëntie bij het trainen van modellen toeneemt.

Aan de andere kant is lemmatisatie, hoewel nauwkeuriger, ook computationeel intensiever en kan het tijdrovend zijn bij grote datasets. Voor nog betere nauwkeurigheid wordt aanbevolen om morfologische analyse en woordsoorttagging uit te voeren vóór lemmatisatie.

Note
Opmerking

Maak je geen zorgen over part-of-speech tagging op dit moment, want dit is het volgende onderwerp dat aan bod komt.

Lemmatisatie met NLTK

De WordNet Lemmatizer, aangeboden door de NLTK-bibliotheek, maakt gebruik van het WordNet-corpus om lemmatisatie uit te voeren.

Note
Meer leren

WordNet is een semantisch rijke lexicale database voor het Engels die veel verder gaat dan een eenvoudig corpus. Het groepeert woorden in synoniemensets, of synsets, die elk een afzonderlijk concept vastleggen en worden voorzien van definities en gebruiksvoorbeelden. Daarnaast legt WordNet betekenisvolle relaties vast tussen deze synsets — zoals hyperoniemen (algemenere termen) en hyponiemen (specifiekere termen) — en biedt zo een krachtig kader voor het verkennen en disambigueren van woordbetekenissen.

Wanneer je de WordNet Lemmatizer gebruikt, zoekt deze het doelwoord op in de WordNet-database om het meest geschikte lemma van het woord te vinden.

Zoals hierboven vermeld, kunnen woorden verschillende betekenissen hebben afhankelijk van de context (bijvoorbeeld "running" als werkwoord versus "running" als zelfstandig naamwoord). De lemmatizer kan daarom vereisen dat je de woordsoort specificeert (bijvoorbeeld werkwoord, zelfstandig naamwoord, bijvoeglijk naamwoord). Dit helpt bij het selecteren van het juiste lemma op basis van de rol van het woord in een zin.

1234567891011
from nltk.stem import WordNetLemmatizer import nltk # Download the WordNet corpus nltk.download('wordnet') # Initialize the WordNet lemmatizer lemmatizer = WordNetLemmatizer() # Parts of speech, 'v' for verb and 'n' for noun parts_of_speech = ['v', 'n'] # Lemmatize words lemmatized_words = [lemmatizer.lemmatize("running", pos) for pos in parts_of_speech] print("Lemmatized words:", lemmatized_words)
copy

Je kunt het specificeren van de woordsoort weglaten door lemmatizer.lemmatize("running") aan te roepen, maar zoals je ziet leveren verschillende woordsoorten verschillende resultaten op. Daarom is het aan te raden om vooraf part-of-speech tagging uit te voeren.

question mark

Wat is het belangrijkste voordeel van het gebruik van lemmatisatie ten opzichte van stemming?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 3
some-alt