Summary  
This chapter explains how to tune model hyperparameters by combining cross-validation with GridSearchCV or RandomizedSearchCV in a workflow that splits data into training, validation, and test sets to optimize and evaluate machine learning pipelines.

General domain of usage  
Machine learning model evaluation and selection

Je weet nu hoe je een **model** bouwt, **pipelines** gebruikt en **hyperparameters** afstemt. Je hebt ook twee evaluatiemethoden geleerd: train-test split en cross-validatie.
De volgende stap is het combineren van evaluatie en afstemming met behulp van `GridSearchCV` of `RandomizedSearchCV`.

Omdat onze dataset klein is, gebruiken we de `GridSearchCV`, maar alles wat hieronder wordt besproken geldt ook voor een `RandomizedSearchCV`.

Opmerking

Omdat cross-validatie stabieler is dan een enkele train-test split, is het doel om de **hoogste cross-validatiescore** te behalen.
`GridSearchCV` zoekt naar hyperparameters en vindt degene die deze score maximaliseren. De beste score wordt opgeslagen in `.best_score_`.

Hyperparameters die het beste werken voor één dataset kunnen **niet generaliseren** wanneer er nieuwe data binnenkomt.
Daarom kan `.best_score_` hoger zijn dan de prestatie van het model op **volledig ongeziene** data.

Een veelgebruikte workflow: splitsen in trainings- en testsets; cross-validatie uitvoeren op de **trainingsset** om het model af te stemmen; vervolgens het geoptimaliseerde model evalueren op de **testset** om de prestaties in de praktijk te meten.

Samenvatting:

1. Gegevens preprocessen;
2. Verdelen in trainings- en testsets;
3. Cross-validatie toepassen op de trainingsset om de beste configuratie te vinden;
4. Evalueren op de testset.

De derde stap omvat meestal het testen van **meerdere algoritmen** en het afstemmen van hun hyperparameters om de beste optie te bepalen. Voor de eenvoud is in deze cursus slechts één algoritme gebruikt.


Meer leren

Cross-validatie is niet altijd de beste optie. Voor grote datasets wordt het berekenen van CV-scores kostbaar, terwijl een train-test split stabieler wordt dankzij de grote testset.

Grote datasets worden vaak opgesplitst in **trainingssets**, **validatiesets** en **testsets**.
Hyperparameters worden gekozen op basis van de prestaties op de **validatieset**.
Ten slotte wordt het geselecteerde model geëvalueerd op de **testset** om te verifiëren hoe goed het generaliseert.

De **penguins dataset** is klein, met slechts 342 voorbeelden. Vanwege deze beperkte omvang zal in het volgende hoofdstuk de cross-validatiescore worden gebruikt voor evaluatie.


Waarom is cross-validatie bijzonder waardevol voor het afstemmen van hyperparameters bij kleinere datasets, in tegenstelling tot grotere datasets waarbij train-test splits vaker de voorkeur hebben?

Machine learning wordt tegenwoordig overal toegepast. Wil je het zelf leren? Deze cursus is een introductie tot de wereld van machine learning waarin je basisconcepten leert, werkt met Scikit-learn – de populairste bibliotheek voor ML – en je eerste machine learning-project bouwt.
Deze cursus is bedoeld voor studenten met basiskennis van Python, Pandas en Numpy.

Leer de concepten van machine learning en de workflow van een ML-project.

Preprocessing is waarschijnlijk de belangrijkste fase van een ML-project. Dit hoofdstuk behandelt de preprocessing-stappen die nodig zijn voor vrijwel elke dataset.

Een pipeline is een overzichtelijke manier om alle preprocessingsstappen en een model te combineren. Pipelines maken het veel eenvoudiger om een model te trainen en te gebruiken.

Modellering is de meest interessante fase van een ML-project. Leer het model opbouwen, verfijnen en evalueren!

Samenvatting Modellering