Herausforderung: Kodierung Kategorialer Variablen
Zur Zusammenfassung der vorherigen drei Kapitel finden Sie hier eine Tabelle, die zeigt, welchen Encoder Sie verwenden sollten:
In dieser Aufgabe wird der Pinguin-Datensatz (ohne fehlende Werte) bereitgestellt. Alle kategorialen Merkmale, einschließlich des Zielwerts (Spalte 'species'), müssen codiert werden.
Hier eine Erinnerung an die Struktur des Datensatzes:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv') print(df.head())
Beachten Sie, dass 'island' und 'sex' kategoriale Merkmale sind und 'species' ein kategoriales Ziel ist.
Swipe to start coding
Sie erhalten ein DataFrame namens df, das Pinguindaten enthält.
Ihre Aufgabe ist es, alle kategorialen Merkmale so zu kodieren, dass die Daten in einem Machine-Learning-Modell verwendet werden können.
- Importieren Sie die Klassen
OneHotEncoderundLabelEncoderaussklearn.preprocessing. - Trennen Sie die Merkmalsmatrix
Xund die Zielvariableyaus demDataFrame. - Erstellen Sie ein
OneHotEncoder-Objekt und wenden Sie es auf die Spalten'island'und'sex'inXan. - Ersetzen Sie die ursprünglichen kategorialen Spalten durch die kodierten Spalten.
- Erstellen Sie ein
LabelEncoder-Objekt und wenden Sie es auf die Spalte'species'an, um die Zielvariableyzu kodieren.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Which encoder should I use for each column in the penguins dataset?
Can you explain the difference between OrdinalEncoder, OneHotEncoder, and LabelEncoder?
What are the next steps to encode the categorical features and target in this dataset?
Awesome!
Completion rate improved to 3.13
Herausforderung: Kodierung Kategorialer Variablen
Swipe um das Menü anzuzeigen
Zur Zusammenfassung der vorherigen drei Kapitel finden Sie hier eine Tabelle, die zeigt, welchen Encoder Sie verwenden sollten:
In dieser Aufgabe wird der Pinguin-Datensatz (ohne fehlende Werte) bereitgestellt. Alle kategorialen Merkmale, einschließlich des Zielwerts (Spalte 'species'), müssen codiert werden.
Hier eine Erinnerung an die Struktur des Datensatzes:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv') print(df.head())
Beachten Sie, dass 'island' und 'sex' kategoriale Merkmale sind und 'species' ein kategoriales Ziel ist.
Swipe to start coding
Sie erhalten ein DataFrame namens df, das Pinguindaten enthält.
Ihre Aufgabe ist es, alle kategorialen Merkmale so zu kodieren, dass die Daten in einem Machine-Learning-Modell verwendet werden können.
- Importieren Sie die Klassen
OneHotEncoderundLabelEncoderaussklearn.preprocessing. - Trennen Sie die Merkmalsmatrix
Xund die Zielvariableyaus demDataFrame. - Erstellen Sie ein
OneHotEncoder-Objekt und wenden Sie es auf die Spalten'island'und'sex'inXan. - Ersetzen Sie die ursprünglichen kategorialen Spalten durch die kodierten Spalten.
- Erstellen Sie ein
LabelEncoder-Objekt und wenden Sie es auf die Spalte'species'an, um die Zielvariableyzu kodieren.
Lösung
Danke für Ihr Feedback!
single