Summary  
This chapter explains how to use a transformer to apply one-hot encoding on nominal categorical features, converting each unique category into its own binary indicator column without implying any order.  

General domain of usage  
Preprocessing categorical data for machine learning models

Lorsqu'il s'agit de valeurs **nominales**, leur traitement est un peu plus complexe.

Pour les données **ordinales**, telles que les évaluations d'utilisateurs allant de 'Terrible' à 'Excellent', les encoder sous forme de nombres de 0 à 4 est approprié car le modèle peut saisir l'ordre inhérent.

En revanche, pour une caractéristique comme `'city'` avec cinq catégories distinctes, les encoder sous forme de nombres de 0 à 4 suggérerait à tort un ordre. Dans ce cas, l'**encodage one-hot** est un meilleur choix, car il représente les catégories sans impliquer de hiérarchie.


Pour encoder des **données nominales**, le transformateur `OneHotEncoder` est utilisé. Il crée une colonne pour chaque valeur unique. Ensuite, pour chaque ligne, il attribue 1 à la colonne correspondant à la valeur de cette ligne et 0 aux autres colonnes.


Ce qui était à l'origine `'NewYork'` a maintenant la valeur **1** dans la colonne `'City_NewYork'` et **0** dans les autres colonnes `City_`.

Appliquer `OneHotEncoder` au jeu de données **penguins**. Les variables nominales sont `'island'` et `'sex'`. La colonne `'species'` est la cible et sera traitée séparément lors de la discussion sur **l'encodage de la cible** dans le prochain chapitre.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')

print('island: ', df['island'].unique())
print('sex: ', df['sex'].unique())

Pour appliquer `OneHotEncoder`, initialiser l'objet encodeur et passer les colonnes sélectionnées à `.fit_transform()`, de la même manière qu'avec les autres transformateurs.

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')
# Assign X, y variables
y = df['species']
X = df.drop('species', axis=1)
# Initialize an OneHotEncoder object
one_hot = OneHotEncoder()
# Print transformed 'sex', 'island' columns
print(one_hot.fit_transform(X[['sex', 'island']]).toarray())

La méthode `.toarray()` convertit la **matrice creuse** produite par le `OneHotEncoder` en un tableau NumPy dense. Les **tableaux denses** affichent explicitement toutes les valeurs, ce qui facilite la visualisation et la manipulation des données encodées dans un DataFrame. Les matrices creuses ne stockent que les **éléments non nuls**, optimisant ainsi l'utilisation de la mémoire. Il est possible d'omettre cette méthode pour observer la différence de sortie.

Remarque

`OneHotEncoder` crée de nouvelles colonnes. Est-ce correct ?

L'apprentissage automatique est désormais utilisé partout. Vous souhaitez l'apprendre vous-même ? Ce cours constitue une introduction au monde de l'apprentissage automatique afin de vous permettre d'acquérir les concepts de base, de travailler avec Scikit-learn – la bibliothèque la plus populaire pour le ML – et de réaliser votre premier projet d'apprentissage automatique.
Ce cours s'adresse aux étudiants ayant des connaissances de base en Python, Pandas et Numpy.

Découvrez les concepts de l'apprentissage automatique et le flux de travail d'un projet ML.

Le prétraitement est probablement l’étape la plus importante d’un projet ML. Ce chapitre couvre les étapes de prétraitement nécessaires pour presque tout jeu de données.

Un pipeline est une méthode élégante pour combiner toutes les étapes de prétraitement ainsi qu’un modèle. Les pipelines facilitent grandement l’entraînement et l’utilisation d’un modèle.

La modélisation est l'étape la plus intéressante d'un projet ML. Apprenons à construire, ajuster et évaluer le modèle !

Encodeur One-Hot