Summary  
This chapter explains how to use an estimator’s `.fit()`, `.predict()`, and `.score()` methods to train a model, generate predictions, and evaluate its performance.  

General domain of usage  
Supervised machine learning

De basisprincipes van gegevensvoorbewerking en het opzetten van pipelines zijn nu behandeld. De volgende stap is **modelleren**.


Een **model** in Scikit-learn is een **schatter** die de methoden `.predict()` en `.score()` biedt, samen met `.fit()` die door alle schatters wordt overgenomen.


## .fit()

Zodra de data is voorbewerkt en klaar is voor het model, is de eerste stap bij het bouwen van een model **het trainen van een model**. Dit gebeurt met behulp van `.fit(X, y)`.

Voor **supervised learning** (regressie, classificatie) vereist `.fit()` zowel `X` als `y`.
Voor **unsupervised learning** (bijvoorbeeld clustering) gebruik je alleen `.fit(X)`. Het meegeven van `y` veroorzaakt geen fout — deze wordt simpelweg genegeerd.

Opmerking

Tijdens het trainen **leert** het model patronen die nodig zijn voor voorspellingen. Wat het model leert en hoe lang het trainen duurt, hangt af van het algoritme. Training is vaak het **traagste onderdeel** van machine learning, vooral bij grote datasets.

## .predict()

Na training wordt `.predict()` gebruikt om voorspellingen te genereren:

```python
model.fit(X, y)
y_pred = model.predict(X_new)
```

## .score()

`.score()` evalueert een getraind model, meestal op een **testset**:

```python
model.fit(X, y)
model.score(X_test, y_test)
```

Vergelijkt voorspellingen met werkelijke doelen. Standaard is de metriek **nauwkeurigheid** voor classificatie.

`X_test` verwijst naar de subset van de dataset, bekend als de **testset**, die wordt gebruikt om de prestaties van een model na training te evalueren. Het bevat de **kenmerken** (invoergegevens). `y_test` is de bijbehorende subset van **ware labels** voor `X_test`. Samen beoordelen ze hoe goed het model nieuwe, ongeziene data voorspelt.

Machine learning wordt tegenwoordig overal toegepast. Wil je het zelf leren? Deze cursus is een introductie tot de wereld van machine learning waarin je basisconcepten leert, werkt met Scikit-learn – de populairste bibliotheek voor ML – en je eerste machine learning-project bouwt.
Deze cursus is bedoeld voor studenten met basiskennis van Python, Pandas en Numpy.

Leer de concepten van machine learning en de workflow van een ML-project.

Preprocessing is waarschijnlijk de belangrijkste fase van een ML-project. Dit hoofdstuk behandelt de preprocessing-stappen die nodig zijn voor vrijwel elke dataset.

Een pipeline is een overzichtelijke manier om alle preprocessingsstappen en een model te combineren. Pipelines maken het veel eenvoudiger om een model te trainen en te gebruiken.

Modellering is de meest interessante fase van een ML-project. Leer het model opbouwen, verfijnen en evalueren!

Modellen

.fit()

.predict()

.score()