Summary  
This chapter explains how to use a transformer to apply one-hot encoding on nominal categorical features, converting each unique category into its own binary indicator column without implying any order.  

General domain of usage  
Preprocessing categorical data for machine learning models

Quando si tratta di valori **nominali**, la loro gestione è un po' più complessa.

Per i dati **ordinali**, come le valutazioni degli utenti che vanno da 'Terribile' a 'Ottimo', codificarli come numeri da 0 a 4 è appropriato perché il modello può cogliere l'ordine intrinseco.

Al contrario, per una caratteristica come `'city'` con cinque categorie distinte, codificarle come numeri da 0 a 4 suggerirebbe erroneamente un ordine. In questo caso, la **one-hot encoding** è una scelta migliore, poiché rappresenta le categorie senza implicare una gerarchia.


Per codificare **dati nominali**, si utilizza il trasformatore `OneHotEncoder`. Questo crea una colonna per ogni valore unico. Poi, per ogni riga, imposta 1 nella colonna corrispondente al valore di quella riga e 0 nelle altre colonne.


Quello che originariamente era `'NewYork'` ora ha **1** nella colonna `'City_NewYork'` e **0** nelle altre colonne `City_`.

Applicazione di `OneHotEncoder` al dataset **penguins**. Le caratteristiche nominali sono `'island'` e `'sex'`. La colonna `'species'` è il target e verrà trattata separatamente quando si discuterà della **codifica del target** nel prossimo capitolo.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')

print('island: ', df['island'].unique())
print('sex: ', df['sex'].unique())

Per applicare `OneHotEncoder`, inizializzare l'oggetto encoder e passare le colonne selezionate a `.fit_transform()`, nello stesso modo degli altri trasformatori.

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')
# Assign X, y variables
y = df['species']
X = df.drop('species', axis=1)
# Initialize an OneHotEncoder object
one_hot = OneHotEncoder()
# Print transformed 'sex', 'island' columns
print(one_hot.fit_transform(X[['sex', 'island']]).toarray())

Il metodo `.toarray()` converte l'output della **matrice sparsa** prodotto da `OneHotEncoder` in un array NumPy denso. Gli **array densi** mostrano esplicitamente tutti i valori, facilitando la visualizzazione e la manipolazione dei dati codificati all'interno di un DataFrame. Le matrici sparse memorizzano solo gli **elementi diversi da zero**, ottimizzando l'uso della memoria. È possibile omettere questo metodo per vedere la differenza nell'output.

Nota

`OneHotEncoder` crea nuove colonne. È corretto?

L'apprendimento automatico è ormai utilizzato ovunque. Vuoi impararlo anche tu? Questo corso è un'introduzione al mondo del machine learning per apprendere i concetti di base, lavorare con scikit-learn – la libreria più popolare per ML – e realizzare il tuo primo progetto di machine learning.
Questo corso è rivolto a studenti con conoscenze di base di Python, Pandas e Numpy.

Apprendere i concetti di Machine Learning e il flusso di lavoro di un progetto ML.

Il preprocessing è probabilmente la fase più importante di un progetto di ML. Questo capitolo tratta le fasi di preprocessing necessarie per quasi qualsiasi dataset.

Una pipeline è un modo ordinato per combinare tutti i passaggi di pre-elaborazione insieme a un modello. Le pipeline rendono molto più semplice addestrare e utilizzare un modello.

La modellazione è la fase più interessante di un progetto di ML. Impariamo a costruire, ottimizzare e valutare il modello!

One-Hot Encoder