Summary  
This chapter explains how to use a transformer to apply one-hot encoding on nominal categorical features, converting each unique category into its own binary indicator column without implying any order.  

General domain of usage  
Preprocessing categorical data for machine learning models

Voor **nominale** waarden is de verwerking iets complexer.

Voor **ordinale** gegevens, zoals gebruikersbeoordelingen van 'Verschrikkelijk' tot 'Uitstekend', is codering als getallen van 0 tot 4 geschikt omdat het model de inherente volgorde kan vastleggen.

Voor een kenmerk zoals `'city'` met vijf verschillende categorieën zou codering als getallen van 0 tot 4 echter onterecht een volgorde suggereren. In dit geval is **one-hot encoding** een betere keuze, omdat het categorieën weergeeft zonder een hiërarchie te impliceren.


Voor het coderen van **nominale gegevens** wordt de `OneHotEncoder`-transformer gebruikt. Deze maakt een kolom aan voor elke unieke waarde. Voor elke rij wordt vervolgens een 1 geplaatst in de kolom van de waarde van die rij en een 0 in de andere kolommen.


Wat oorspronkelijk `'NewYork'` was, heeft nu **1** in de kolom `'City_NewYork'` en **0** in de andere `City_` kolommen.

Pas `OneHotEncoder` toe op de **penguins** dataset. De nominale kenmerken zijn `'island'` en `'sex'`. De kolom `'species'` is het doel en zal apart worden behandeld bij het bespreken van **target encoding** in het volgende hoofdstuk.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')

print('island: ', df['island'].unique())
print('sex: ', df['sex'].unique())

Om `OneHotEncoder` toe te passen, het encoder-object initialiseren en de geselecteerde kolommen doorgeven aan `.fit_transform()`, op dezelfde manier als bij andere transformers.

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')
# Assign X, y variables
y = df['species']
X = df.drop('species', axis=1)
# Initialize an OneHotEncoder object
one_hot = OneHotEncoder()
# Print transformed 'sex', 'island' columns
print(one_hot.fit_transform(X[['sex', 'island']]).toarray())

De methode `.toarray()` zet de **sparse matrix** uitvoer van de `OneHotEncoder` om in een dense NumPy-array. **Dense arrays** tonen alle waarden expliciet, waardoor visualisatie en bewerking van de gecodeerde gegevens binnen een DataFrame eenvoudiger wordt. Sparse matrices slaan alleen **niet-nul elementen** op, wat het geheugengebruik optimaliseert. Je kunt deze methode weglaten om het verschil in uitvoer te zien.

Opmerking

`OneHotEncoder` maakt nieuwe kolommen aan. Is dit correct?

Machine learning wordt tegenwoordig overal toegepast. Wil je het zelf leren? Deze cursus is een introductie tot de wereld van machine learning waarin je basisconcepten leert, werkt met Scikit-learn – de populairste bibliotheek voor ML – en je eerste machine learning-project bouwt.
Deze cursus is bedoeld voor studenten met basiskennis van Python, Pandas en Numpy.

Leer de concepten van machine learning en de workflow van een ML-project.

Preprocessing is waarschijnlijk de belangrijkste fase van een ML-project. Dit hoofdstuk behandelt de preprocessing-stappen die nodig zijn voor vrijwel elke dataset.

Een pipeline is een overzichtelijke manier om alle preprocessingsstappen en een model te combineren. Pipelines maken het veel eenvoudiger om een model te trainen en te gebruiken.

Modellering is de meest interessante fase van een ML-project. Leer het model opbouwen, verfijnen en evalueren!

One-hotencoder