Summary  
This chapter explains how to implement the k-Nearest Neighbors classification algorithm in code using a library’s classifier class, including feature scaling with StandardScaler and the proper use of fit(), transform(), and predict() methods.

General domain of usage  
Recommendation systems

## KNeighborsClassifier
L’implémentation des k-plus proches voisins est assez simple. Il suffit d’importer et d’utiliser la classe `KNeighborsClassifier`.

Une fois la classe importée et un objet créé comme ceci :
```python
# Importing the class
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
```
Il faut fournir les données d’entraînement à l’aide de la méthode `.fit()` :
```python
knn.fit(X_scaled, y)
```
Et c’est tout ! Il est maintenant possible de prédire de nouvelles valeurs.
```python
y_pred = knn.predict(X_new_scaled)
```

## Mise à l'échelle des données

Cependant, il est important de rappeler que les données **doivent être mises à l'échelle**. `StandardScaler` est couramment utilisé à cet effet :

Il faut calculer $$\bar x$$ et $$s$$ **uniquement sur l'ensemble d'entraînement** en utilisant `.fit()` ou `.fit_transform()`.
Ensuite, utiliser `.transform()` sur l'**ensemble de test** afin que les deux ensembles soient mis à l'échelle de manière identique :

```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

Utiliser des valeurs d'échelle différentes pour l'entraînement et le test nuit aux prédictions.

## Exemple

Prédiction de l'appréciation d'une personne pour **Star Wars VI** à partir de ses notes pour les épisodes IV et V (provenant de <a href="https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> The Movies Dataset</a>).
Après l'entraînement, test de deux utilisateurs : l'un a noté IV/V à `5` et `5`, l'autre à `4.5` et `4`.

from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

# Dropping the target column and leaving only features as `X_train`
X_train = df.drop('StarWars6', axis=1)
# Storing target column as `y_train`, which contains 1 (liked SW 6) or 0 (didn't like SW 6)
y_train = df['StarWars6']

# Test set of two people
X_test = np.array([[5, 5], [4.5, 4]])

# Scaling the data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Building a model and predict new instances
knn = KNeighborsClassifier(n_neighbors=13).fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(y_pred)

Lesquels des noms de classes suivants de scikit-learn sont utilisés pour implémenter le classificateur des k plus proches voisins et pour mettre à l'échelle les caractéristiques lors de la préparation des données pour k-NN ?

Maîtrisez les principaux algorithmes de classification qui alimentent l'apprentissage automatique moderne. Découvrez comment des modèles tels que k-NN, la régression logistique, les arbres de décision et les forêts aléatoires effectuent des prédictions, évaluez leur précision et comprenez quand utiliser chacun d'eux. Développez les compétences nécessaires pour comparer les modèles et choisir le plus adapté à vos données.

Découvrez comment l'algorithme des k plus proches voisins effectue des prédictions basées sur la similarité. Apprenez à gérer plusieurs caractéristiques, à ajuster les paramètres et à appliquer la validation croisée pour améliorer la précision.

Comprendre comment la régression logistique modélise les probabilités et classe les résultats. S'exercer à l'implémenter, à interpréter les frontières de décision et à appliquer la régularisation pour éviter le surapprentissage.

Découvrez comment les arbres de décision divisent les données en groupes significatifs selon les valeurs des caractéristiques. Explorez l'influence de paramètres tels que la profondeur de l'arbre et le nombre minimal d'échantillons par feuille sur la performance et la généralisation du modèle.

Découvrez comment les forêts aléatoires combinent plusieurs arbres de décision pour améliorer la précision et la robustesse. Comprenez le rôle de l'aléatoire et appliquez cette méthode d'ensemble à des données réelles.

Évaluation des modèles à l'aide de métriques telles que l'exactitude, la précision, le rappel et le score F1. Interprétation des matrices de confusion et comparaison de plusieurs classificateurs afin d'identifier le modèle le plus performant.

Implémentation de k-NN

KNeighborsClassifier

Mise à l'échelle des données

Exemple