Vertrautmachen mit dem Datensatz
Beginnen Sie mit der Vorverarbeitung, indem Sie den Datensatz untersuchen. Im Verlauf dieses Kurses wird der Penguin-Datensatz verwendet, mit der Aufgabe, die Art eines Pinguins vorherzusagen.
Es gibt drei mögliche Optionen, die im maschinellen Lernen häufig als Klassen bezeichnet werden:
Die Merkmale sind: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
und 'sex'
.
Der Datensatz ist in der Datei penguins.csv
gespeichert. Er kann über einen Link mit der Funktion pd.read_csv()
geladen werden, um den Inhalt zu untersuchen:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Dieses Datenset weist mehrere Probleme auf, die behoben werden müssen:
- Fehlende Daten;
- Kategorische Variablen;
- Unterschiedliche Merkmals-Skalen.
Fehlende Daten
Die meisten ML-Algorithmen können fehlende Werte nicht direkt verarbeiten, daher müssen diese vor dem Training behandelt werden. Fehlende Werte können entweder entfernt oder imputiert (durch Ersatzwerte ersetzt) werden.
In pandas
werden leere Zellen als NaN
dargestellt. Viele ML-Modelle erzeugen einen Fehler, wenn das Datenset auch nur ein einziges NaN
enthält.
Kategorische Daten
Der Datensatz enthält kategoriale Variablen, die von Machine-Learning-Modellen nicht direkt verarbeitet werden können.
Kategorische Daten müssen in numerische Form kodiert werden.
Unterschiedliche Skalen
Die Werte von 'culmen_depth_mm'
reichen von 13.1 bis 21.5, während die Werte von 'body_mass_g'
von 2700 bis 6300 reichen. Daher könnten einige ML-Modelle das Merkmal 'body_mass_g'
als deutlich wichtiger als 'culmen_depth_mm'
einstufen.
Skalierung löst dieses Problem. Dies wird in späteren Kapiteln behandelt.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
What are the three classes of penguins in the dataset?
How do I handle missing data in the penguin dataset?
Can you explain how to encode categorical variables for machine learning?
Awesome!
Completion rate improved to 3.13
Vertrautmachen mit dem Datensatz
Swipe um das Menü anzuzeigen
Beginnen Sie mit der Vorverarbeitung, indem Sie den Datensatz untersuchen. Im Verlauf dieses Kurses wird der Penguin-Datensatz verwendet, mit der Aufgabe, die Art eines Pinguins vorherzusagen.
Es gibt drei mögliche Optionen, die im maschinellen Lernen häufig als Klassen bezeichnet werden:
Die Merkmale sind: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
und 'sex'
.
Der Datensatz ist in der Datei penguins.csv
gespeichert. Er kann über einen Link mit der Funktion pd.read_csv()
geladen werden, um den Inhalt zu untersuchen:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Dieses Datenset weist mehrere Probleme auf, die behoben werden müssen:
- Fehlende Daten;
- Kategorische Variablen;
- Unterschiedliche Merkmals-Skalen.
Fehlende Daten
Die meisten ML-Algorithmen können fehlende Werte nicht direkt verarbeiten, daher müssen diese vor dem Training behandelt werden. Fehlende Werte können entweder entfernt oder imputiert (durch Ersatzwerte ersetzt) werden.
In pandas
werden leere Zellen als NaN
dargestellt. Viele ML-Modelle erzeugen einen Fehler, wenn das Datenset auch nur ein einziges NaN
enthält.
Kategorische Daten
Der Datensatz enthält kategoriale Variablen, die von Machine-Learning-Modellen nicht direkt verarbeitet werden können.
Kategorische Daten müssen in numerische Form kodiert werden.
Unterschiedliche Skalen
Die Werte von 'culmen_depth_mm'
reichen von 13.1 bis 21.5, während die Werte von 'body_mass_g'
von 2700 bis 6300 reichen. Daher könnten einige ML-Modelle das Merkmal 'body_mass_g'
als deutlich wichtiger als 'culmen_depth_mm'
einstufen.
Skalierung löst dieses Problem. Dies wird in späteren Kapiteln behandelt.
Danke für Ihr Feedback!