Summary  
This chapter demonstrates how to standardize features and apply principal component analysis (PCA) using scikit-learn to reduce the dimensionality of a dataset.

General domain of usage  
Machine learning

Voer **PCA** uit op een echte dataset met behulp van `scikit-learn`. Gebruik de **Iris-dataset**, een klassieker binnen machine learning, en volg deze stappen:

- Data laden;
- Voorbereiden voor analyse;
- Kenmerken standaardiseren;
- `PCA` toepassen om de dimensionaliteit te reduceren.

Dit proces toont aan hoe dimensionaliteitsreductie in praktische situaties wordt geïmplementeerd.

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Load the Iris dataset
data = load_iris()
X = data.data
feature_names = data.feature_names

# Standardize features (important for PCA)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Apply PCA to reduce to 2 components
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print("Original shape:", X.shape)
print("Transformed shape:", X_pca.shape)
# Each row in X_pca is a sample projected onto the first two principal components

De bovenstaande code voert **PCA** uit op de Iris-dataset door verschillende belangrijke stappen te volgen:

#### 1. Data laden
De Iris-dataset wordt geladen met `load_iris()` uit `scikit-learn`. Deze dataset bevat 150 monsters van irisbloemen, elk beschreven door vier kenmerken: kelkbladlengte, kelkbladbreedte, kroonbladlengte, kroonbladbreedte.

#### 2. Kenmerken standaardiseren
**Standaardisatie** zorgt ervoor dat elk kenmerk een gemiddelde van `0` en een variantie van `1` heeft:

```python
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
```

Deze stap is essentieel omdat **PCA** gevoelig is voor de variantie van elk kenmerk. Zonder standaardisatie zouden kenmerken met grotere schalen de hoofdcomponenten domineren, wat tot misleidende resultaten leidt.

### 3. PCA toepassen
`PCA(n_components=2)` reduceert de dataset van vier dimensies naar twee:

```python
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
```

**Hoofdcomponenten** zijn nieuwe assen die de richtingen van maximale variantie in de data weergeven. Elk monster wordt op deze assen geprojecteerd, wat resulteert in een compacte representatie die zoveel mogelijk informatie behoudt.

### 4. PCA-uitvoer interpreteren
Het is mogelijk om te controleren hoeveel variantie elke hoofdcomponent verklaart:

```python
print(pca.explained_variance_ratio_)
```

Dit geeft een array, zoals `[0.7277, 0.2303]`, wat betekent dat de eerste component ongeveer 73% van de variantie verklaart en de tweede ongeveer 23%. Samen vangen ze het grootste deel van de informatie uit de oorspronkelijke data.

Welke uitspraak is correct over het uitvoeren van PCA op de Iris-dataset zoals getoond in het voorbeeld?

Een uitgebreide cursus op gemiddeld niveau die cursisten begeleidt door de motivatie, wiskundige basis en praktische implementatie van Principal Component Analysis (PCA) voor dimensionaliteitsreductie in data science en machine learning.

Ontdek de motivatie, uitdagingen en voordelen van het reduceren van datadimensies in machine learning en datawetenschap.

Verdieping in de wiskundige concepten die ten grondslag liggen aan PCA, waaronder variantie, covariantie en eigenvectoren.

PCA toepassen op echte datasets met Python, de resultaten interpreteren, verklaarde variantie en componentladingen visualiseren, en modelprestaties vergelijken vóór en na PCA.

PCA Uitvoeren op een Echte Dataset

1. Data laden

2. Kenmerken standaardiseren

3. PCA toepassen

4. PCA-uitvoer interpreteren