Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Suppression des Mots Vides | Fondamentaux du Prétraitement de Texte
Introduction au NLP
course content

Contenu du cours

Introduction au NLP

Introduction au NLP

1. Fondamentaux du Prétraitement de Texte
2. Racine et Lemmatisation
3. Modèles de Texte de Base
4. Incorporations de Mots

book
Suppression des Mots Vides

Comprendre les mots vides

En NLP, le processus de suppression des mots vides est une étape cruciale dans le prétraitement du texte.

Les mots vides sont généralement filtrés après la tokenisation pour les tâches de NLP, telles que l'analyse de sentiment, la modélisation de sujets ou l'extraction de mots-clés. La raison derrière la suppression des mots vides est de réduire la taille du jeu de données, améliorant ainsi l'efficacité computationnelle, et d'augmenter la pertinence de l'analyse en se concentrant sur les mots qui portent une signification importante.

Suppression des mots vides avec NLTK

Pour faciliter les choses, nltk fournit une liste complète de mots vides dans plusieurs langues, qui peut être facilement consultée et utilisée pour filtrer les mots vides des données textuelles.

Voici comment vous pouvez obtenir la liste des mots vides en anglais dans NLTK et la convertir en ensemble :

1234567
import nltk from nltk.corpus import stopwords # Download the stop words list nltk.download('stopwords') # Load English stop words stop_words = set(stopwords.words('english')) print(stop_words)
copy

Avec cela à l'esprit, examinons un exemple complet de la façon de filtrer les mots vides d'un texte donné :

1234567891011121314
import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords nltk.download('punkt_tab') nltk.download('stopwords') stop_words = set(stopwords.words('english')) text = "This is an example sentence demonstrating the removal of stop words." text = text.lower() # Tokenize the text tokens = word_tokenize(text) # Remove stop words filtered_tokens = [word for word in tokens if word.lower() not in stop_words] print("Original Tokens:", tokens) print("Filtered Tokens:", filtered_tokens)
copy

Comme vous pouvez le voir, nous devons d'abord télécharger les mots vides et effectuer la tokenisation. L'étape suivante consiste à utiliser une compréhension de liste pour créer une liste contenant uniquement les tokens qui ne sont pas des mots vides. Le word.lower() dans la clause if est essentiel pour convertir chaque mot (token) en minuscules, car nltk contient des mots vides exclusivement en minuscules.

Tâche

Swipe to start coding

Votre tâche consiste à convertir le text en minuscules, charger la liste des mots vides en anglais de nltk et la convertir en un ensemble, puis tokeniser la chaîne text en utilisant la fonction word_tokenize(), et filtrer les mots vides de tokens en utilisant la compréhension de liste.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 7
toggle bottom row

book
Suppression des Mots Vides

Comprendre les mots vides

En NLP, le processus de suppression des mots vides est une étape cruciale dans le prétraitement du texte.

Les mots vides sont généralement filtrés après la tokenisation pour les tâches de NLP, telles que l'analyse de sentiment, la modélisation de sujets ou l'extraction de mots-clés. La raison derrière la suppression des mots vides est de réduire la taille du jeu de données, améliorant ainsi l'efficacité computationnelle, et d'augmenter la pertinence de l'analyse en se concentrant sur les mots qui portent une signification importante.

Suppression des mots vides avec NLTK

Pour faciliter les choses, nltk fournit une liste complète de mots vides dans plusieurs langues, qui peut être facilement consultée et utilisée pour filtrer les mots vides des données textuelles.

Voici comment vous pouvez obtenir la liste des mots vides en anglais dans NLTK et la convertir en ensemble :

1234567
import nltk from nltk.corpus import stopwords # Download the stop words list nltk.download('stopwords') # Load English stop words stop_words = set(stopwords.words('english')) print(stop_words)
copy

Avec cela à l'esprit, examinons un exemple complet de la façon de filtrer les mots vides d'un texte donné :

1234567891011121314
import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords nltk.download('punkt_tab') nltk.download('stopwords') stop_words = set(stopwords.words('english')) text = "This is an example sentence demonstrating the removal of stop words." text = text.lower() # Tokenize the text tokens = word_tokenize(text) # Remove stop words filtered_tokens = [word for word in tokens if word.lower() not in stop_words] print("Original Tokens:", tokens) print("Filtered Tokens:", filtered_tokens)
copy

Comme vous pouvez le voir, nous devons d'abord télécharger les mots vides et effectuer la tokenisation. L'étape suivante consiste à utiliser une compréhension de liste pour créer une liste contenant uniquement les tokens qui ne sont pas des mots vides. Le word.lower() dans la clause if est essentiel pour convertir chaque mot (token) en minuscules, car nltk contient des mots vides exclusivement en minuscules.

Tâche

Swipe to start coding

Votre tâche consiste à convertir le text en minuscules, charger la liste des mots vides en anglais de nltk et la convertir en un ensemble, puis tokeniser la chaîne text en utilisant la fonction word_tokenize(), et filtrer les mots vides de tokens en utilisant la compréhension de liste.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 7
Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
We're sorry to hear that something went wrong. What happened?
some-alt