Summary  
This chapter introduces the concept of a Pipeline for chaining transformers and an estimator into a single workflow, allowing you to call fit_transform once on training data and then consistently apply transform to new instances.  

General domain of usage  
Machine learning data preprocessing

Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.


Esikäsittelyvaiheet toteutettiin **yksi kerrallaan**, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin `X`-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti `OneHotEncoder`-muuntimen kanssa, joka muuttaa sarakkeiden määrää.

Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, täytyy käsitellä täsmälleen samojen muunnosten kautta, mikä vaatii koko prosessin toistamista.

Scikit-learnin `Pipeline`-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn soveltamista johdonmukaisesti sekä koulutusdataan että uusiin havaintoihin.


`Pipeline` toimii säiliönä useille peräkkäisille muuntimille ja lopulta estimaattorille. Kun kutsut `.fit_transform()`-metodia `Pipeline`-oliolle, se **soveltaa** kunkin muuntimen `.fit_transform()`-metodia dataan järjestyksessä.

```python
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
```

Tämä virtaviivainen lähestymistapa tarkoittaa, että sinun tarvitsee kutsua `.fit_transform()` **vain kerran harjoitusaineistolle** ja käyttää sen jälkeen `.transform()`-metodia uusien havaintojen käsittelyyn.

Mikä on tärkein etu `Pipeline`-rakenteen käytössä scikit-learnissa datan esikäsittelyssä ja mallin koulutuksessa?

Koneoppimista käytetään nykyään kaikkialla. Haluatko oppia sen itse? Tämä kurssi on johdatus koneoppimisen maailmaan, jossa opit peruskäsitteet, työskentelet Scikit-learnin – suosituimman ML-kirjaston – kanssa ja rakennat ensimmäisen koneoppimisprojektisi.
Kurssi on tarkoitettu opiskelijoille, joilla on perustiedot Pythonista, Pandasista ja Numpysta.

Koneoppimisen käsitteiden ja ML-projektin työnkulun oppiminen.

Esikäsittely on todennäköisesti tärkein vaihe ML-projektissa. Tämä luku käsittelee esikäsittelyvaiheet, joita tarvitaan lähes kaikissa aineistoissa.

Putkisto on kätevä tapa yhdistää kaikki esikäsittelyvaiheet sekä malli. Putkistot helpottavat huomattavasti mallin kouluttamista ja käyttöä.

Mallintaminen on ML-projektin viihdyttävin vaihe. Opitaan rakentamaan, hienosäätämään ja arvioimaan mallia!

Mikä on putkisto