Summary  
This chapter introduces the concept of a Pipeline for chaining transformers and an estimator into a single workflow, allowing you to call fit_transform once on training data and then consistently apply transform to new instances.  

General domain of usage  
Machine learning data preprocessing

Nella sezione precedente sono stati completati tre passaggi di pre-elaborazione: imputazione, codifica e normalizzazione.


I passaggi di pre-elaborazione sono stati applicati **uno alla volta**, trasformando colonne specifiche e reintegrandole nell'array `X`. Questo approccio può risultare complesso, soprattutto con `OneHotEncoder`, che modifica il numero di colonne.

Un altro svantaggio è che qualsiasi nuovo dato utilizzato per la previsione deve essere sottoposto alla stessa sequenza di trasformazioni, richiedendo la ripetizione dell'intero processo.

La classe `Pipeline` di Scikit-learn semplifica questo processo combinando tutte le trasformazioni in un unico flusso di lavoro, rendendo più semplice applicare la pre-elaborazione in modo coerente sia ai dati di addestramento che alle nuove istanze.


Un `Pipeline` funge da contenitore per una sequenza di trasformatori e, infine, un stimatore. Quando si richiama il metodo `.fit_transform()` su un `Pipeline`, applica **sequenzialmente** il metodo `.fit_transform()` di ciascun trasformatore ai dati.

```python
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
```

Questo approccio semplificato significa che è necessario chiamare `.fit_transform()` **una sola volta sul set di addestramento** e successivamente utilizzare il metodo `.transform()` per elaborare nuove istanze.

Qual è il principale vantaggio dell'utilizzo di un `Pipeline` in scikit-learn per la pre-elaborazione dei dati e l'addestramento del modello?

L'apprendimento automatico è ormai utilizzato ovunque. Vuoi impararlo anche tu? Questo corso è un'introduzione al mondo del machine learning per apprendere i concetti di base, lavorare con scikit-learn – la libreria più popolare per ML – e realizzare il tuo primo progetto di machine learning.
Questo corso è rivolto a studenti con conoscenze di base di Python, Pandas e Numpy.

Apprendere i concetti di Machine Learning e il flusso di lavoro di un progetto ML.

Il preprocessing è probabilmente la fase più importante di un progetto di ML. Questo capitolo tratta le fasi di preprocessing necessarie per quasi qualsiasi dataset.

Una pipeline è un modo ordinato per combinare tutti i passaggi di pre-elaborazione insieme a un modello. Le pipeline rendono molto più semplice addestrare e utilizzare un modello.

La modellazione è la fase più interessante di un progetto di ML. Impariamo a costruire, ottimizzare e valutare il modello!

Che cos'è una pipeline