Summary  
This chapter covers transforming categorical features into numerical form using ordinal encoding for ordered categories and one-hot encoding for nominal categories.

General domain of usage  
Machine learning data preprocessing

Clustering-algoritmen zoals **K-means** vereisen **numerieke data**. Categorische kenmerken moeten worden omgezet naar numerieke vorm via codering. U leert over **ordinale** en **one-hot encoding**.

## Ordinale codering

**Ordinale codering** zet geordende categorieën om in numerieke waarden, waarbij hun **rangorde** behouden blijft. Bijvoorbeeld, ordinale codering van de kolom `'education_level'` transformeert de waarden van `"High School"`, `"Bachelor's"`, `"Master's"`, `'PhD'` naar `0`, `1`, `2`, `3`.

Dit veronderstelt een **betekenisvol numeriek verschil** tussen de gecodeerde waarden, wat niet altijd accuraat hoeft te zijn.

```python
from sklearn.preprocessing import OrdinalEncoder

education_levels = [['High School',
                     "Bachelor's",
                     "Master's",
                     "PhD"]]
encoder = OrdinalEncoder(categories=education_levels)

df[['education_encoded']] = encoder.fit_transform(df[['education_level']]) 
```

Deze codering dient alleen te worden gebruikt voor **ordinale kenmerken** waarbij de volgorde van categorieën van belang is.

Opmerking

## One-hot-encoding

One-hot-encoding zet **nominale** (ongeschikte) categorieën om in binaire kolommen, waarbij elke categorie een **nieuwe kolom** wordt. Voor een kenmerk met `n` categorieën worden doorgaans `n` kolommen aangemaakt — één kolom is `1` voor de betreffende categorie en de overige zijn `0`. Echter, slechts `n-1` kolommen zijn daadwerkelijk nodig om de informatie **zonder redundantie** weer te geven.

Een voorbeeld: een `'color'`-kolom met waarden `'red'`, `'blue'` en `'green'` kan worden gecodeerd met slechts **twee** kolommen: `'color_red'` en `'color_blue'`. Als een rij `0` heeft in beide kolommen, betekent dit dat de kleur `'green'` is. Door één kolom te laten vervallen, wordt **redundantie** voorkomen.

Het verwijderen van de redundante kolom wordt gespecificeerd via `drop='first'`:

```python
from sklearn.preprocessing import OneHotEncoder 

encoder = OneHotEncoder(drop='first', sparse=False) 

encoded = encoder.fit_transform(df[['color']]) 
```



Hoewel one-hot-encoding geen volgorde oplegt en geschikt is voor nominale kenmerken, kan het de **datadimensionaliteit** vergroten.

Welke coderingsmethode is het meest geschikt voor een categorisch kenmerk zoals `'country'` met waarden als `"USA"`, `"Canada"` en `"Germany"`, waarbij er geen natuurlijke volgorde is?

Verkrijg een grondig begrip van clusteranalyse, een belangrijke unsupervised learning-techniek voor het ontdekken van patronen in niet-gelabelde data. Verken de basisprincipes van K-Means, hiërarchische clustering, DBSCAN en GMM's, en doe praktische ervaring op met echte datasets om vertrouwen te krijgen in het toepassen van clustering op praktijkproblemen.

Verdiep u in de basisprincipes van clustering en ontdek het verschil met classificatie.
Verken essentiële algoritmen, tools en bibliotheken die deze unsupervised learning-techniek aandrijven om verborgen patronen in data te onthullen.

Verkrijg een grondig begrip van essentiële preprocessietechnieken die effectieve clustering waarborgen.
Behandeling van ontbrekende waarden.
Codering van categorische kenmerken.
Normalisatie van gegevens.
Selectie van geschikte afstandsmaatstaven en koppelingen ter verbetering van de clusteringnauwkeurigheid.

Beheers de vaardigheden die nodig zijn om K-Means-clustering effectief toe te passen. Leer hoe het algoritme werkt, bepaal het optimale aantal clusters en doe praktische ervaring op met het implementeren van K-Means op zowel synthetische als realistische datasets.

Ontdek de basisprincipes van hiërarchische clustering en leer hoe u gegevens groepeert in betekenisvolle clusters met behulp van dendrogrammen. Vergroot het vertrouwen in het identificeren van het optimale aantal clusters en het toepassen van de techniek op zowel synthetische als realistische datasets.

Ontdek hoe DBSCAN uitblinkt in het detecteren van clusters met verschillende vormen en het omgaan met ruis in data. Begrijp de werking van dit dichtheidsgebaseerde algoritme, de toewijzing van punten aan clusters en de toepassing op zowel synthetische als echte datasets met vertrouwen.

Verkrijg een grondig begrip van Gaussiaanse mengmodellen en hoe deze waarschijnlijkheid gebruiken om complexe clusterstructuren te modelleren. Inzicht in de principes van de Gauss-verdeling, verkenning van de werking van GMM's en het opbouwen van vertrouwen door toepassing op zowel fictieve als realistische gegevens.

Codering van Categorische Kenmerken

Ordinale codering

One-hot-encoding