Summary  
This chapter explains how to use an estimator’s `.fit()`, `.predict()`, and `.score()` methods to train a model, generate predictions, and evaluate its performance.  

General domain of usage  
Supervised machine learning

Grundlæggende dataforbehandling og opbygning af pipelines er nu dækket. Næste skridt er **modellering**.


En **model** i Scikit-learn er en **estimator**, der tilbyder metoderne `.predict()` og `.score()`, samt `.fit()` som arves fra alle estimators.


## .fit() 

Når dataene er forbehandlet og klar til at blive sendt til modellen, er det første skridt i opbygningen af en model **at træne en model**. Dette gøres ved hjælp af `.fit(X, y)`.

For **supervised learning** (regression, klassifikation) kræver `.fit()` både `X` og `y`.
For **unsupervised learning** (f.eks. clustering) kaldes kun `.fit(X)`. Hvis `y` gives med, ignoreres det blot og giver ikke fejl.

Bemærk

Under træningen **lærer** modellen de mønstre, der er nødvendige for at lave forudsigelser. Hvad den lærer, og hvor lang tid træningen tager, afhænger af algoritmen. Træning er ofte den **langsomste del** af ML, især med store datasæt.

## .predict()

Efter træning bruges `.predict()` til at generere forudsigelser:

```python
model.fit(X, y)
y_pred = model.predict(X_new)
```

## .score()

`.score()` evaluerer en trænet model, typisk på et **testdatasæt**:

```python
model.fit(X, y)
model.score(X_test, y_test)
```

Den sammenligner forudsigelser med de sande mål. Som standard er metrikken **nøjagtighed** for klassifikation.

`X_test` henviser til det datasæt, der kaldes **testdatasættet**, som bruges til at evaluere en models ydeevne efter træning. Det indeholder **features** (inputdata). `y_test` er det tilsvarende sæt af **sande labels** for `X_test`. Sammen vurderer de, hvor godt modellen forudsiger nye, usete data.

Maskinlæring anvendes nu overalt. Vil du lære det selv? Dette kursus er en introduktion til maskinlæringens verden, hvor du lærer grundlæggende begreber, arbejder med Scikit-learn – det mest populære bibliotek til ML – og bygger dit første maskinlæringsprojekt.
Dette kursus er tiltænkt studerende med grundlæggende kendskab til Python, Pandas og Numpy.

Lær om maskinlæringskoncepter og arbejdsgangen i et ML-projekt.

Forbehandling er sandsynligvis den vigtigste fase i et ML-projekt. Dette kapitel dækker de forbehandlingsskridt, der er nødvendige for næsten ethvert datasæt.

En pipeline er en elegant måde at kombinere alle forbehandlingsskridt samt en model. Pipelines gør det meget nemmere at træne og anvende en model.

Modellering er den mest underholdende fase i et ML-projekt. Lad os lære at opbygge, finjustere og evaluere modellen!