Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Herausforderung: Erstellung eines Bag of Words | Grundlegende Textmodelle
Einführung in NLP
course content

Kursinhalt

Einführung in NLP

Einführung in NLP

1. Grundlagen der Textvorverarbeitung
2. Stemming und Lemmatisierung
3. Grundlegende Textmodelle
4. Wort-Einbettungen

book
Herausforderung: Erstellung eines Bag of Words

Aufgabe

Swipe to start coding

Ihre Aufgabe besteht darin, den Vektor für das Bigramm 'graphic design' in einem BoW-Modell anzuzeigen:

  1. Importieren Sie die CountVectorizer-Klasse, um ein BoW-Modell zu erstellen.

  2. Instanziieren Sie die CountVectorizer-Klasse als count_vectorizer und konfigurieren Sie sie für ein frequenzbasiertes Modell, das sowohl Unigramme als auch Bigramme umfasst.

  3. Verwenden Sie die geeignete Methode von count_vectorizer, um eine BoW-Matrix aus der 'Document'-Spalte im corpus zu erzeugen.

  4. Konvertieren Sie bow_matrix in ein dichtes Array und erstellen Sie ein DataFrame daraus, indem Sie die einzigartigen Merkmale (Unigramme und Bigramme) als Spalten festlegen. Weisen Sie dies der Variablen bow_df zu.

  5. Zeigen Sie den Vektor für 'graphic design' als Array an, anstatt als pandas Series.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 5
toggle bottom row

book
Herausforderung: Erstellung eines Bag of Words

Aufgabe

Swipe to start coding

Ihre Aufgabe besteht darin, den Vektor für das Bigramm 'graphic design' in einem BoW-Modell anzuzeigen:

  1. Importieren Sie die CountVectorizer-Klasse, um ein BoW-Modell zu erstellen.

  2. Instanziieren Sie die CountVectorizer-Klasse als count_vectorizer und konfigurieren Sie sie für ein frequenzbasiertes Modell, das sowohl Unigramme als auch Bigramme umfasst.

  3. Verwenden Sie die geeignete Methode von count_vectorizer, um eine BoW-Matrix aus der 'Document'-Spalte im corpus zu erzeugen.

  4. Konvertieren Sie bow_matrix in ein dichtes Array und erstellen Sie ein DataFrame daraus, indem Sie die einzigartigen Merkmale (Unigramme und Bigramme) als Spalten festlegen. Weisen Sie dies der Variablen bow_df zu.

  5. Zeigen Sie den Vektor für 'graphic design' als Array an, anstatt als pandas Series.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 5
Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
We're sorry to hear that something went wrong. What happened?
some-alt