Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Stopwoorden | Grondbeginselen van Tekstvoorbewerking
Introductie tot NLP

bookStopwoorden

Inzicht in stopwoorden

Note
Definitie

Stopwoorden zijn veelvoorkomende woorden die meestal niet bijdragen aan de betekenis van een zin, althans voor de doeleinden van de meeste analyses en algoritmen. Dit zijn onder andere woorden zoals "de", "is", "in" en "op".

Stopwoorden worden doorgaans na tokenisatie gefilterd voor NLP-taken, zoals sentimentanalyse, topicmodellering of het extraheren van trefwoorden. De reden om stopwoorden te verwijderen is het verkleinen van de dataset, waardoor de rekenkundige efficiëntie wordt verbeterd, en het vergroten van de relevantie van de analyse door te focussen op de woorden die daadwerkelijk betekenis dragen.

Stopwoorden verwijderen met NLTK

Om het proces te vereenvoudigen, biedt nltk een uitgebreide lijst van stopwoorden in meerdere talen, die eenvoudig toegankelijk is en gebruikt kan worden om stopwoorden uit tekstdata te filteren.

Hier volgt hoe de lijst met Engelse stopwoorden in NLTK kan worden opgehaald en omgezet naar een set:

1234567
import nltk from nltk.corpus import stopwords # Download the stop words list nltk.download('stopwords') # Load English stop words stop_words = set(stopwords.words('english')) print(stop_words)
copy
Note
Opmerking

Het omzetten van deze lijst naar een set verhoogt de efficiëntie van zoekopdrachten, omdat het controleren van lidmaatschap in een set sneller is dan in een lijst.

Met dit in gedachten bekijken we een volledig voorbeeld van het filteren van stopwoorden uit een gegeven tekst:

1234567891011121314
import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords nltk.download('punkt_tab') nltk.download('stopwords') stop_words = set(stopwords.words('english')) text = "This is an example sentence demonstrating the removal of stop words." text = text.lower() # Tokenize the text tokens = word_tokenize(text) # Remove stop words filtered_tokens = [word for word in tokens if word not in stop_words] print("Original Tokens:", tokens) print("Filtered Tokens:", filtered_tokens)
copy

Zoals te zien is, dienen eerst de stopwoorden te worden gedownload en moet tokenisatie worden uitgevoerd. De volgende stap is het gebruik van een list comprehension om een lijst te maken met alleen tokens die geen stopwoord zijn. De word.lower() in de if-clausule is essentieel om elk woord (token) om te zetten naar kleine letters, aangezien nltk stopwoorden uitsluitend in kleine letters bevat.

Note
Opmerking

Als alternatief kan een gebruikelijke for-lus worden gebruikt in plaats van een list comprehension, maar het gebruik van list comprehension is hier efficiënter en beknopter.

question mark

Welke van de volgende opties beschrijft het beste wat stopwoorden zijn en waarom ze vaak worden verwijderd?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 7

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain why it's important to remove stop words in NLP tasks?

What are some common stop words in English?

Can you show how to remove stop words from a custom text?

Awesome!

Completion rate improved to 3.45

bookStopwoorden

Veeg om het menu te tonen

Inzicht in stopwoorden

Note
Definitie

Stopwoorden zijn veelvoorkomende woorden die meestal niet bijdragen aan de betekenis van een zin, althans voor de doeleinden van de meeste analyses en algoritmen. Dit zijn onder andere woorden zoals "de", "is", "in" en "op".

Stopwoorden worden doorgaans na tokenisatie gefilterd voor NLP-taken, zoals sentimentanalyse, topicmodellering of het extraheren van trefwoorden. De reden om stopwoorden te verwijderen is het verkleinen van de dataset, waardoor de rekenkundige efficiëntie wordt verbeterd, en het vergroten van de relevantie van de analyse door te focussen op de woorden die daadwerkelijk betekenis dragen.

Stopwoorden verwijderen met NLTK

Om het proces te vereenvoudigen, biedt nltk een uitgebreide lijst van stopwoorden in meerdere talen, die eenvoudig toegankelijk is en gebruikt kan worden om stopwoorden uit tekstdata te filteren.

Hier volgt hoe de lijst met Engelse stopwoorden in NLTK kan worden opgehaald en omgezet naar een set:

1234567
import nltk from nltk.corpus import stopwords # Download the stop words list nltk.download('stopwords') # Load English stop words stop_words = set(stopwords.words('english')) print(stop_words)
copy
Note
Opmerking

Het omzetten van deze lijst naar een set verhoogt de efficiëntie van zoekopdrachten, omdat het controleren van lidmaatschap in een set sneller is dan in een lijst.

Met dit in gedachten bekijken we een volledig voorbeeld van het filteren van stopwoorden uit een gegeven tekst:

1234567891011121314
import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords nltk.download('punkt_tab') nltk.download('stopwords') stop_words = set(stopwords.words('english')) text = "This is an example sentence demonstrating the removal of stop words." text = text.lower() # Tokenize the text tokens = word_tokenize(text) # Remove stop words filtered_tokens = [word for word in tokens if word not in stop_words] print("Original Tokens:", tokens) print("Filtered Tokens:", filtered_tokens)
copy

Zoals te zien is, dienen eerst de stopwoorden te worden gedownload en moet tokenisatie worden uitgevoerd. De volgende stap is het gebruik van een list comprehension om een lijst te maken met alleen tokens die geen stopwoord zijn. De word.lower() in de if-clausule is essentieel om elk woord (token) om te zetten naar kleine letters, aangezien nltk stopwoorden uitsluitend in kleine letters bevat.

Note
Opmerking

Als alternatief kan een gebruikelijke for-lus worden gebruikt in plaats van een list comprehension, maar het gebruik van list comprehension is hier efficiënter en beknopter.

question mark

Welke van de volgende opties beschrijft het beste wat stopwoorden zijn en waarom ze vaak worden verwijderd?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 7
some-alt