Summary
This chapter covers data preprocessing techniques using pandas, including handling missing values, encoding categorical variables, and preparing features for consistent scaling.

General domain of usage
Machine learning

Mit der Vorverarbeitung wird begonnen, indem das Datenset untersucht wird. Im Verlauf dieses Kurses wird das **Penguin-Datenset** verwendet, mit der Aufgabe, die Art eines Pinguins vorherzusagen.


Es gibt drei mögliche Optionen, die im maschinellen Lernen häufig als **Klassen** bezeichnet werden:

Die Merkmale sind: `'island'`, `'culmen_depth_mm'`, `'flipper_length_mm'`, `'body_mass_g'` und `'sex'`.

Der Datensatz ist in der Datei `penguins.csv` gespeichert. Er kann über einen Link mit der Funktion `pd.read_csv()` geladen werden, um den Inhalt zu untersuchen:


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.head(10))

Dieses Datenset weist mehrere Probleme auf, die behoben werden müssen:

* Fehlende Daten;
* Kategorische Variablen;
* Unterschiedliche Merkmals-Skalen.


## Fehlende Daten

Die meisten ML-Algorithmen können fehlende Werte nicht direkt verarbeiten, daher müssen diese vor dem Training behandelt werden. Fehlende Werte können entweder **entfernt** oder **imputiert** (durch Ersatzwerte ersetzt) werden.

In `pandas` werden leere Zellen als `NaN` dargestellt. Viele ML-Modelle erzeugen einen Fehler, wenn das Datenset auch nur ein einziges `NaN` enthält.


## Kategorische Daten

Der Datensatz enthält kategoriale Variablen, die von Machine-Learning-Modellen nicht direkt verarbeitet werden können.


Kategorische Daten müssen in eine **numerische** Form **kodiert** werden.


## Unterschiedliche Skalen

`'culmen_depth_mm'`-Werte reichen von 13,1 bis 21,5, während `'body_mass_g'`-Werte von 2700 bis 6300 reichen. Daher könnten einige ML-Modelle das Merkmal `'body_mass_g'` als **wesentlich wichtiger** als `'culmen_depth_mm'` einstufen.

**Skalierung** löst dieses Problem. Das Thema wird in späteren Kapiteln behandelt.

Maschinelles Lernen wird heute überall eingesetzt. Möchten Sie es selbst erlernen? Dieser Kurs ist eine Einführung in die Welt des maschinellen Lernens, um grundlegende Konzepte zu verstehen, mit Scikit-learn – der beliebtesten Bibliothek für ML – zu arbeiten und Ihr erstes Projekt im Bereich Machine Learning zu erstellen.
Dieser Kurs richtet sich an Studierende mit Grundkenntnissen in Python, Pandas und Numpy.

Erlernen der Konzepte des maschinellen Lernens und des Workflows von ML-Projekten.

Die Vorverarbeitung ist vermutlich die wichtigste Phase eines ML-Projekts. Dieses Kapitel behandelt die notwendigen Vorverarbeitungsschritte für nahezu jedes Datenset.

Eine Pipeline ist eine elegante Methode, um alle Vorverarbeitungsschritte sowie ein Modell zu kombinieren. Pipelines erleichtern das Trainieren und die Nutzung eines Modells erheblich.

Die Modellierung ist die spannendste Phase eines ML-Projekts. Lernen Sie, das Modell zu erstellen, zu optimieren und zu evaluieren.

Getting Familiar with Dataset

Fehlende Daten

Kategorische Daten

Unterschiedliche Skalen