Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Défi : Sac de Mots | Modèles de Texte de Base
Introduction au TALN

bookDéfi : Sac de Mots

Tâche

Swipe to start coding

Vous disposez d'un corpus de textes stocké dans la variable corpus. Votre tâche consiste à afficher le vecteur du bigramme 'graphic design' dans un modèle BoW. Pour cela :

  1. Importez la classe CountVectorizer pour créer un modèle BoW.
  2. Instanciez la classe CountVectorizer sous le nom count_vectorizer, en la configurant pour un modèle basé sur la fréquence incluant à la fois des unigrammes et des bigrammes.
  3. Utilisez la méthode appropriée de count_vectorizer pour générer une matrice BoW à partir de la colonne 'Document' du corpus et stockez le résultat dans bow_matrix.
  4. Convertissez bow_matrix en un tableau dense et créez un DataFrame à partir de celui-ci, en définissant les caractéristiques uniques (unigrammes et bigrammes) comme colonnes. Stockez le résultat dans la variable bow_df.
  5. Affichez le vecteur du bigramme 'graphic design' sous forme de tableau.

Solution

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 5
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

close

Awesome!

Completion rate improved to 3.45

bookDéfi : Sac de Mots

Glissez pour afficher le menu

Tâche

Swipe to start coding

Vous disposez d'un corpus de textes stocké dans la variable corpus. Votre tâche consiste à afficher le vecteur du bigramme 'graphic design' dans un modèle BoW. Pour cela :

  1. Importez la classe CountVectorizer pour créer un modèle BoW.
  2. Instanciez la classe CountVectorizer sous le nom count_vectorizer, en la configurant pour un modèle basé sur la fréquence incluant à la fois des unigrammes et des bigrammes.
  3. Utilisez la méthode appropriée de count_vectorizer pour générer une matrice BoW à partir de la colonne 'Document' du corpus et stockez le résultat dans bow_matrix.
  4. Convertissez bow_matrix en un tableau dense et créez un DataFrame à partir de celui-ci, en définissant les caractéristiques uniques (unigrammes et bigrammes) comme colonnes. Stockez le résultat dans la variable bow_df.
  5. Affichez le vecteur du bigramme 'graphic design' sous forme de tableau.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 5
single

single

some-alt