Summary  
This chapter introduces how to structure a modular machine learning pipeline—covering data ingestion, preprocessing (cleaning, exploratory analysis, feature engineering), model selection and tuning, evaluation, and deployment.  

General domain of usage  
Healthcare

Lad os se på arbejdsgangen, du ville følge for at opbygge et succesfuldt maskinlæringsprojekt.

## Trin 1. Indsamling af data

Definér problemet, vælg en præstationsmåling, og afgør, hvad der kvalificerer som et godt resultat. Indsaml derefter de nødvendige data fra tilgængelige kilder og bring dem i et format, der er klar til Python.
Hvis dataene allerede findes i en CSV-fil, kan forbehandling begynde med det samme.

### Eksempel

Et hospital samler patientjournaler og demografiske oplysninger i en CSV-fil. Målet er at **forudsige genindlæggelser** med en målsætning om **over 80% nøjagtighed**.

## Trin 2. Forbehandling af data

Dette trin omfatter:

* **Datavask**: håndtering af manglende værdier og ikke-numeriske input;
* **EDA**: analyse og visualisering af data for at forstå relationer og opdage problemer;
* **Feature engineering**: udvælgelse eller oprettelse af features, der forbedrer modellens ydeevne.

### Eksempel

Manglende værdier (f.eks. blodtryk) udfyldes, og kategoriske features (f.eks. race) konverteres til numerisk form.

## Trin 3. Modellering

Denne fase omfatter:

* **Valg af model** baseret på problemtype og eksperimenter;
* **Justering af hyperparametre** for at forbedre ydeevnen;
* **Modelvurdering** på usete data.



Hyperparametre fungerer som justerbare kontroller, der definerer, hvordan modellen trænes—såsom træningsvarighed eller modelkompleksitet.

Læs mere

### Eksempel

En **klassifikationsmodel** vælges til at forudsige genindlæggelse (ja/nej). Efter justering evalueres den på et **validerings-/test**-sæt for at vurdere generalisering.

## Trin 4. Implementering

Når en model præsterer godt, bliver den **implementeret** i virkelige systemer. Modellen skal overvåges, opdateres med nye data og forbedres over tid, hvilket ofte betyder, at processen starter forfra fra **Trin 1**.

### Eksempel

Modellen integreres i hospitalsystemet for at markere højrisikopatienter ved indlæggelse, hvilket hjælper personalet med at handle tidligt.

Nogle af de begreber, der nævnes her, kan virke ukendte, men vi gennemgår dem mere detaljeret senere i dette kursus.

Bemærk

Datapræbehandling og modellering kan udføres med `scikit-learn`. De næste kapitler introducerer præbehandlings-workflows og pipelines, efterfulgt af modellering ved brug af **k-nearest neighbors** (`KNeighborsClassifier`), inklusive træning, tuning og evaluering.

Hvad er det primære formål med "Hent data"-trinnet i et maskinlæringsprojekt?

Hvilket af følgende beskriver bedst vigtigheden af "Datapræbehandling"-trinnet i et maskinlæringsprojekt?

Maskinlæring anvendes nu overalt. Vil du lære det selv? Dette kursus er en introduktion til maskinlæringens verden, hvor du lærer grundlæggende begreber, arbejder med Scikit-learn – det mest populære bibliotek til ML – og bygger dit første maskinlæringsprojekt.
Dette kursus er tiltænkt studerende med grundlæggende kendskab til Python, Pandas og Numpy.

Lær om maskinlæringskoncepter og arbejdsgangen i et ML-projekt.

Forbehandling er sandsynligvis den vigtigste fase i et ML-projekt. Dette kapitel dækker de forbehandlingsskridt, der er nødvendige for næsten ethvert datasæt.

En pipeline er en elegant måde at kombinere alle forbehandlingsskridt samt en model. Pipelines gør det meget nemmere at træne og anvende en model.

Modellering er den mest underholdende fase i et ML-projekt. Lad os lære at opbygge, finjustere og evaluere modellen!

Arbejdsgang for Maskinlæring

Trin 1. Indsamling af data

Eksempel

Trin 2. Forbehandling af data

Eksempel

Trin 3. Modellering

Eksempel

Trin 4. Implementering

Eksempel

1. Hvad er det primære formål med "Hent data"-trinnet i et maskinlæringsprojekt?

2. Hvilket af følgende beskriver bedst vigtigheden af "Datapræbehandling"-trinnet i et maskinlæringsprojekt?