Summary  
This chapter explains how to use a transformer to apply one-hot encoding on nominal categorical features, converting each unique category into its own binary indicator column without implying any order.  

General domain of usage  
Preprocessing categorical data for machine learning models

Bei **nominalen** Werten ist die Verarbeitung etwas komplexer.

Für **ordinale** Daten, wie zum Beispiel Benutzerbewertungen von 'Terrible' bis 'Great', ist eine Kodierung als Zahlen von 0 bis 4 sinnvoll, da das Modell die zugrunde liegende Reihenfolge erfassen kann.

Im Gegensatz dazu würde bei einem Merkmal wie `'city'` mit fünf verschiedenen Kategorien eine Kodierung als Zahlen von 0 bis 4 fälschlicherweise eine Reihenfolge suggerieren. In diesem Fall ist das **One-Hot-Encoding** die bessere Wahl, da es die Kategorien darstellt, ohne eine Hierarchie anzudeuten.


Zur Kodierung von **nominalen Daten** wird der `OneHotEncoder`-Transformer verwendet. Er erstellt eine Spalte für jeden eindeutigen Wert. Für jede Zeile wird dann in der Spalte des Wertes dieser Zeile eine 1 gesetzt und in allen anderen Spalten eine 0.


Was ursprünglich `'NewYork'` war, hat jetzt **1** in der Spalte `'City_NewYork'` und **0** in den anderen `City_`-Spalten.

Anwendung von `OneHotEncoder` auf den **penguins**-Datensatz. Die nominalen Merkmale sind `'island'` und `'sex'`. Die Spalte `'species'` ist das Ziel und wird separat behandelt, wenn im nächsten Kapitel **Target Encoding** besprochen wird.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')

print('island: ', df['island'].unique())
print('sex: ', df['sex'].unique())

Um den `OneHotEncoder` anzuwenden, das Encoder-Objekt initialisieren und die ausgewählten Spalten an `.fit_transform()` übergeben, analog zu anderen Transformern.

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')
# Assign X, y variables
y = df['species']
X = df.drop('species', axis=1)
# Initialize an OneHotEncoder object
one_hot = OneHotEncoder()
# Print transformed 'sex', 'island' columns
print(one_hot.fit_transform(X[['sex', 'island']]).toarray())

Die Methode `.toarray()` wandelt die **Sparse-Matrix**-Ausgabe des `OneHotEncoder` in ein dichtes NumPy-Array um. **Dichte Arrays** zeigen alle Werte explizit an und erleichtern so die Visualisierung und Bearbeitung der kodierten Daten innerhalb eines DataFrames. Sparse-Matrizen speichern nur **Nicht-Null-Elemente** und optimieren so die Speichernutzung. Diese Methode kann weggelassen werden, um den Unterschied in der Ausgabe zu sehen.

Hinweis

`OneHotEncoder` erstellt neue Spalten. Ist das korrekt?

Maschinelles Lernen wird heute überall eingesetzt. Möchten Sie es selbst erlernen? Dieser Kurs ist eine Einführung in die Welt des maschinellen Lernens, um grundlegende Konzepte zu verstehen, mit Scikit-learn – der beliebtesten Bibliothek für ML – zu arbeiten und Ihr erstes Projekt im Bereich Machine Learning zu erstellen.
Dieser Kurs richtet sich an Studierende mit Grundkenntnissen in Python, Pandas und Numpy.

Erlernen der Konzepte des maschinellen Lernens und des Workflows von ML-Projekten.

Die Vorverarbeitung ist vermutlich die wichtigste Phase eines ML-Projekts. Dieses Kapitel behandelt die notwendigen Vorverarbeitungsschritte für nahezu jedes Datenset.

Eine Pipeline ist eine elegante Methode, um alle Vorverarbeitungsschritte sowie ein Modell zu kombinieren. Pipelines erleichtern das Trainieren und die Nutzung eines Modells erheblich.

Die Modellierung ist die spannendste Phase eines ML-Projekts. Lernen Sie, das Modell zu erstellen, zu optimieren und zu evaluieren.

One-Hot-Encoder