Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Vertrautmachen mit dem Datensatz | Datenvorverarbeitung mit Scikit-Learn
ML-Einführung Mit Scikit-Learn

bookVertrautmachen mit dem Datensatz

Beginnen Sie mit der Vorverarbeitung, indem Sie den Datensatz untersuchen. Im Verlauf dieses Kurses wird der Penguin-Datensatz verwendet, mit der Aufgabe, die Art eines Pinguins vorherzusagen.

Es gibt drei mögliche Optionen, die im maschinellen Lernen häufig als Klassen bezeichnet werden:

Die Merkmale sind: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' und 'sex'.

Der Datensatz ist in der Datei penguins.csv gespeichert. Er kann über einen Link mit der Funktion pd.read_csv() geladen werden, um den Inhalt zu untersuchen:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Dieses Datenset weist mehrere Probleme auf, die behoben werden müssen:

  • Fehlende Daten;
  • Kategorische Variablen;
  • Unterschiedliche Merkmals-Skalen.

Fehlende Daten

Die meisten ML-Algorithmen können fehlende Werte nicht direkt verarbeiten, daher müssen diese vor dem Training behandelt werden. Fehlende Werte können entweder entfernt oder imputiert (durch Ersatzwerte ersetzt) werden.

In pandas werden leere Zellen als NaN dargestellt. Viele ML-Modelle erzeugen einen Fehler, wenn das Datenset auch nur ein einziges NaN enthält.

Kategorische Daten

Der Datensatz enthält kategoriale Variablen, die von Machine-Learning-Modellen nicht direkt verarbeitet werden können.

Kategorische Daten müssen in numerische Form kodiert werden.

Unterschiedliche Skalen

Die Werte von 'culmen_depth_mm' reichen von 13.1 bis 21.5, während die Werte von 'body_mass_g' von 2700 bis 6300 reichen. Daher könnten einige ML-Modelle das Merkmal 'body_mass_g' als deutlich wichtiger als 'culmen_depth_mm' einstufen.

Skalierung löst dieses Problem. Dies wird in späteren Kapiteln behandelt.

question-icon

Ordnen Sie das Problem einer Lösungsmöglichkeit zu.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

What are the three classes of penguins in the dataset?

How do I handle missing data in the penguin dataset?

Can you explain how to encode categorical variables for machine learning?

Awesome!

Completion rate improved to 3.13

bookVertrautmachen mit dem Datensatz

Swipe um das Menü anzuzeigen

Beginnen Sie mit der Vorverarbeitung, indem Sie den Datensatz untersuchen. Im Verlauf dieses Kurses wird der Penguin-Datensatz verwendet, mit der Aufgabe, die Art eines Pinguins vorherzusagen.

Es gibt drei mögliche Optionen, die im maschinellen Lernen häufig als Klassen bezeichnet werden:

Die Merkmale sind: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' und 'sex'.

Der Datensatz ist in der Datei penguins.csv gespeichert. Er kann über einen Link mit der Funktion pd.read_csv() geladen werden, um den Inhalt zu untersuchen:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Dieses Datenset weist mehrere Probleme auf, die behoben werden müssen:

  • Fehlende Daten;
  • Kategorische Variablen;
  • Unterschiedliche Merkmals-Skalen.

Fehlende Daten

Die meisten ML-Algorithmen können fehlende Werte nicht direkt verarbeiten, daher müssen diese vor dem Training behandelt werden. Fehlende Werte können entweder entfernt oder imputiert (durch Ersatzwerte ersetzt) werden.

In pandas werden leere Zellen als NaN dargestellt. Viele ML-Modelle erzeugen einen Fehler, wenn das Datenset auch nur ein einziges NaN enthält.

Kategorische Daten

Der Datensatz enthält kategoriale Variablen, die von Machine-Learning-Modellen nicht direkt verarbeitet werden können.

Kategorische Daten müssen in numerische Form kodiert werden.

Unterschiedliche Skalen

Die Werte von 'culmen_depth_mm' reichen von 13.1 bis 21.5, während die Werte von 'body_mass_g' von 2700 bis 6300 reichen. Daher könnten einige ML-Modelle das Merkmal 'body_mass_g' als deutlich wichtiger als 'culmen_depth_mm' einstufen.

Skalierung löst dieses Problem. Dies wird in späteren Kapiteln behandelt.

question-icon

Ordnen Sie das Problem einer Lösungsmöglichkeit zu.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 2
some-alt