Summary  
This chapter explains how to tune model hyperparameters by combining cross-validation with GridSearchCV or RandomizedSearchCV in a workflow that splits data into training, validation, and test sets to optimize and evaluate machine learning pipelines.

General domain of usage  
Machine learning model evaluation and selection

Du ved nu, hvordan man opbygger en **model**, bruger **pipelines** og justerer **hyperparametre**. Du har også lært to evalueringsmetoder: train-test split og krydsvalidering.
Næste skridt er at kombinere evaluering og tuning ved hjælp af `GridSearchCV` eller `RandomizedSearchCV`.

Da vores datasæt er meget lille, vil vi bruge `GridSearchCV`, men alt nedenstående gælder også for en `RandomizedSearchCV`.

Bemærk

Da krydsvalidering er mere stabil end et enkelt train-test split, er målet at opnå den **højeste krydsvalideringsscore**.
`GridSearchCV` søger blandt hyperparametre og finder dem, der maksimerer denne score. Den bedste score gemmes i `.best_score_`.

Hyperparametre, der fungerer bedst for ét datasæt, **generaliserer muligvis ikke**, når nye data tilføjes.
Derfor kan `.best_score_` være højere end modellens præstation på **helt usete** data.

En almindelig arbejdsgang: opdel i trænings- og testdatasæt; udfør krydsvalidering på **træningsdatasættet** for at justere modellen; evaluer derefter den optimerede model på **testdatasættet** for at måle præstation i virkeligheden.

For at opsummere:

1. Forbehandling af data;
2. Opdeling i trænings- og testdatasæt;
3. Brug af krydsvalidering på træningsdatasættet for at finde den bedste konfiguration;
4. Evaluering på testdatasættet.

Det tredje trin indebærer normalt afprøvning af **flere algoritmer** og justering af deres hyperparametre for at identificere den bedste mulighed. For enkelhedens skyld blev kun én algoritme anvendt i dette kursus.


Læs mere

Krydsvalidering er ikke altid den bedste løsning. For store datasæt bliver beregning af CV-scorer dyrt, mens en trænings-test-opdeling bliver mere stabil takket være det store testdatasæt.

Store datasæt opdeles ofte i **træningssæt**, **valideringssæt** og **test-sæt**.
Hyperparametre vælges baseret på præstationen på **valideringssættet**.
Til sidst evalueres den valgte model på **test-sættet** for at verificere, hvor godt den generaliserer.

**Penguins dataset** er lille med kun 342 eksempler. På grund af denne begrænsede størrelse vil krydsvalideringsscoren blive brugt til evaluering i næste kapitel.


Hvorfor er krydsvalidering særligt værdifuldt til tuning af hyperparametre i mindre datasæt, i modsætning til større datasæt hvor trænings- og testopdelinger ofte foretrækkes?

Maskinlæring anvendes nu overalt. Vil du lære det selv? Dette kursus er en introduktion til maskinlæringens verden, hvor du lærer grundlæggende begreber, arbejder med Scikit-learn – det mest populære bibliotek til ML – og bygger dit første maskinlæringsprojekt.
Dette kursus er tiltænkt studerende med grundlæggende kendskab til Python, Pandas og Numpy.

Lær om maskinlæringskoncepter og arbejdsgangen i et ML-projekt.

Forbehandling er sandsynligvis den vigtigste fase i et ML-projekt. Dette kapitel dækker de forbehandlingsskridt, der er nødvendige for næsten ethvert datasæt.

En pipeline er en elegant måde at kombinere alle forbehandlingsskridt samt en model. Pipelines gør det meget nemmere at træne og anvende en model.

Modellering er den mest underholdende fase i et ML-projekt. Lad os lære at opbygge, finjustere og evaluere modellen!

Modeling Summary