Summary
This chapter covers data preprocessing techniques using pandas, including handling missing values, encoding categorical variables, and preparing features for consistent scaling.

General domain of usage
Machine learning

Iniziare la fase di preprocessing esplorando il dataset. Per tutto il corso verrà utilizzato il **penguin dataset**, con l'obiettivo di prevedere la specie di un pinguino.


Sono disponibili tre possibili opzioni, spesso chiamate **classi** nell'apprendimento automatico:

Le caratteristiche sono: `'island'`, `'culmen_depth_mm'`, `'flipper_length_mm'`, `'body_mass_g'` e `'sex'`.

Il dataset è memorizzato nel file `penguins.csv`. Può essere caricato da un link utilizzando la funzione `pd.read_csv()` per esaminarne il contenuto:


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.head(10))

Questo dataset presenta diversi problemi che devono essere affrontati:

* Dati mancanti;
* Variabili categoriche;
* Scale delle caratteristiche differenti.


## Dati mancanti

La maggior parte degli algoritmi di ML non può elaborare direttamente i valori mancanti, quindi questi devono essere gestiti prima dell'addestramento. I valori mancanti possono essere **rimossi** oppure **imputati** (sostituiti con valori alternativi).

In `pandas`, le celle vuote sono rappresentate come `NaN`. Molti modelli di ML genereranno un errore se il dataset contiene anche un solo `NaN`.


## Dati Categoriali

Il dataset include variabili categoriali, che i modelli di machine learning non sono in grado di elaborare direttamente.


I dati categoriali devono essere **codificati** in forma numerica.


## Scale differenti

I valori di `'culmen_depth_mm'` variano da 13.1 a 21.5, mentre i valori di `'body_mass_g'` variano da 2700 a 6300. Per questo motivo, alcuni modelli di ML possono considerare la caratteristica `'body_mass_g'` **molto più importante** rispetto a `'culmen_depth_mm'`.

La **scalatura** risolve questo problema. Verrà trattata nei capitoli successivi.

L'apprendimento automatico è ormai utilizzato ovunque. Vuoi impararlo anche tu? Questo corso è un'introduzione al mondo del machine learning per apprendere i concetti di base, lavorare con scikit-learn – la libreria più popolare per ML – e realizzare il tuo primo progetto di machine learning.
Questo corso è rivolto a studenti con conoscenze di base di Python, Pandas e Numpy.

Apprendere i concetti di Machine Learning e il flusso di lavoro di un progetto ML.

Il preprocessing è probabilmente la fase più importante di un progetto di ML. Questo capitolo tratta le fasi di preprocessing necessarie per quasi qualsiasi dataset.

Una pipeline è un modo ordinato per combinare tutti i passaggi di pre-elaborazione insieme a un modello. Le pipeline rendono molto più semplice addestrare e utilizzare un modello.

La modellazione è la fase più interessante di un progetto di ML. Impariamo a costruire, ottimizzare e valutare il modello!

Familiarizzazione con il Dataset

Dati mancanti

Dati Categoriali

Scale differenti