Summary  
This chapter demonstrates how to append a final estimator to a preprocessing pipeline—allowing preprocessing and prediction in one call—and explains why using .transform() (rather than .fit_transform() on new data) is critical for consistent feature encoding.  

General domain of usage  
Machine learning predictive modeling

`Pipeline` användes tidigare för **förbehandling**, men dess verkliga syfte är att kedja förbehandling med en **slutlig prediktor**. Det sista steget i en pipeline kan vara vilken estimator som helst (vanligtvis en modell) som genererar prediktioner.

Vid anrop av `.fit()` kör varje transformer `.fit_transform()`.
Vid anrop av `.predict()` använder pipelinen `.transform()` innan data skickas till den slutliga estimatern.
Detta krävs eftersom **ny data måste transformeras exakt som träningsdatan**.

Notera

## Varför `.transform()`?

Att använda `.fit_transform()` på ny data kan ändra kodningar (t.ex. i `OneHotEncoder`), vilket skapar omatchade kolumner och opålitliga prediktioner.
`.transform()` garanterar **konsekvent förbehandling**, ignorerar okända kategorier och behåller samma kolumnordning.

Så här ser ett one-hot-kodat träningsdata ut:

Här är de nya instanserna att förutsäga:

Om `.fit_transform()` skulle tillämpas på **nya instanser** kan `OneHotEncoder` generera kolumner i en annan ordning eller till och med introducera nya. Detta skulle göra att de nya data transformeras **inkonsekvent med träningsuppsättningen**, vilket gör förutsägelser **opålitliga**.


Att använda `.transform()` säkerställer dock att den nya datan kodas **exakt som träningsdatan**, och ignorerar kategorier som inte sågs under träningen:

## Lägga till den slutliga estimatoren

Lägg helt enkelt till modellen som det **sista steget** i pipelinen:

```python
pipe = make_pipeline(
    ct,
    SimpleImputer(strategy='most_frequent'),
    StandardScaler(),
    KNeighborsClassifier()
)
pipe.fit(X, y)
pipe.predict(X_new)
```

Detta gör att hela arbetsflödet—förbehandling + prediktion—kan köras med ett enda anrop.

Maskininlärning används nu överallt. Vill du lära dig det själv? Denna kurs är en introduktion till maskininlärningens värld där du får lära dig grundläggande begrepp, arbeta med scikit-learn – det mest populära biblioteket för ML, och bygga ditt första maskininlärningsprojekt.
Kursen är avsedd för studenter med grundläggande kunskaper i Python, Pandas och Numpy.

Lär dig maskininlärningskoncept och arbetsflödet för ML-projekt.

Förbehandling är troligen det viktigaste steget i ett ML-projekt. Detta kapitel behandlar de förbehandlingssteg som krävs för nästan alla datamängder.

En pipeline är ett smidigt sätt att kombinera alla förbehandlingssteg samt en modell. Pipelines gör det mycket enklare att träna och använda en modell.

Modellering är det mest underhållande steget i ett ML-projekt. Lär dig att bygga, finjustera och utvärdera modellen!

Slutlig Estimator

Varför .transform()?

Lägga till den slutliga estimatoren

Varför `.transform()`?