Summary  
This chapter demonstrates implementing a k-nearest neighbors classification algorithm by fitting a KNeighborsClassifier instance on scaled feature data using StandardScaler and then predicting labels for new samples.  

General domain of usage  
Supervised classification tasks

## KNeighborsClassifier
Het implementeren van k-Nearest Neighbors is vrij eenvoudig. Het enige wat nodig is, is het importeren en gebruiken van de `KNeighborsClassifier` klasse.

Nadat de klasse is geïmporteerd en een klasse-object is aangemaakt zoals hieronder:
```python
# Importing the class
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
```
Moet de trainingsdata worden aangeboden via de `.fit()` methode:
```python
knn.fit(X_scaled, y)
```
En dat is alles! Nu kunnen nieuwe waarden worden voorspeld.
```python
y_pred = knn.predict(X_new_scaled)
```

## Gegevens schalen

Houd er echter rekening mee dat de gegevens **geschaald moeten worden**. `StandardScaler` wordt hiervoor vaak gebruikt:

Bereken $$\bar x$$ en $$s$$ **alleen op de trainingsset** met behulp van `.fit()` of `.fit_transform()`.
Gebruik vervolgens `.transform()` op de **testset** zodat beide sets identiek worden geschaald:

```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

Het gebruik van verschillende schaalwaarden voor train en test schaadt de voorspellingen.

## Voorbeeld

We voorspellen of een persoon **Star Wars VI** leuk vindt op basis van hun beoordelingen voor Episodes IV en V (uit <a href="https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> The Movies Dataset</a>).
Na het trainen testen we twee gebruikers: één beoordeelde IV/V als `5` en `5`, de ander als `4.5` en `4`.

from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

# Dropping the target column and leaving only features as `X_train`
X_train = df.drop('StarWars6', axis=1)
# Storing target column as `y_train`, which contains 1 (liked SW 6) or 0 (didn't like SW 6)
y_train = df['StarWars6']

# Test set of two people
X_test = np.array([[5, 5], [4.5, 4]])

# Scaling the data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Building a model and predict new instances
knn = KNeighborsClassifier(n_neighbors=13).fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(y_pred)

Welke van de volgende class-namen uit scikit-learn worden gebruikt om de k-Nearest Neighbors-classificatie te implementeren en om features te schalen bij het voorbereiden van data voor k-NN?

Beheers de kernclassificatie-algoritmen die moderne machine learning aandrijven. Ontdek hoe modellen zoals k-NN, logistische regressie, beslissingsbomen en random forests voorspellingen doen, hun nauwkeurigheid evalueren en begrijp wanneer elk model te gebruiken. Ontwikkel vaardigheden om modellen te vergelijken en de beste keuze te maken voor uw data.

Ontdek hoe het k-nearest neighbors-algoritme voorspellingen doet op basis van gelijkenis. Leer omgaan met meerdere kenmerken, parameters afstemmen en kruisvalidatie toepassen om de nauwkeurigheid te verbeteren.

Inzicht in hoe logistische regressie waarschijnlijkheden modelleert en uitkomsten classificeert. Oefenen met het implementeren ervan, het interpreteren van beslissingsgrenzen en het toepassen van regularisatie om overfitting te voorkomen.

Leer hoe beslisbomen gegevens opdelen in betekenisvolle groepen op basis van kenmerkwaarden. Ontdek hoe parameters zoals boomdiepte en het minimum aantal monsters per blad de modelprestaties en generalisatie beïnvloeden.

Ontdek hoe random forests meerdere beslissingsbomen combineren om de nauwkeurigheid en robuustheid te verbeteren. Begrijp de rol van willekeur en pas deze ensemblemethode toe op real-world data.

Modellen evalueren met behulp van metriek zoals nauwkeurigheid, precisie, recall en F1-score. Interpretatie van verwarringsmatrices en vergelijking van meerdere classificatie-algoritmen om het best presterende model te identificeren.

Implementatie van k-NN

KNeighborsClassifier

Gegevens schalen

Voorbeeld