Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Workflow voor Machine Learning | Machine Learning Concepten
ML-Introductie met Scikit-learn

bookWorkflow voor Machine Learning

Laten we kijken naar de workflow die je zou doorlopen om een succesvol machine learning-project op te zetten.

Stap 1. Verzamelen van de data

Begin met het definiëren van het probleem en het vaststellen welke data nodig is. Selecteer een metriek om de prestaties te evalueren en bepaal welk resultaat als voldoende wordt beschouwd.

Verzamel vervolgens de data, vaak uit meerdere bronnen zoals databases, en breng deze in een formaat dat geschikt is voor verwerking in Python.

Als de data al beschikbaar is in een .csv-bestand, kan de preprocessing direct beginnen en kan deze stap worden overgeslagen.

Voorbeeld

Een ziekenhuis levert historische patiëntendossiers uit zijn database, samen met demografische informatie uit een nationale gezondheidsdatabase, samengevoegd in een CSV-bestand. De taak is om heropnames van patiënten te voorspellen, waarbij een nauwkeurigheid van meer dan 80% als doelstelling voor voldoende prestatie wordt gehanteerd.

Stap 2. Data preprocessen

Deze stap bestaat uit:

  • Data opschonen: omgaan met ontbrekende waarden, niet-numerieke data, enzovoort;
  • Exploratieve data-analyse (EDA): analyseren en visualiseren van de dataset om patronen en relaties tussen kenmerken te vinden en in het algemeen inzicht te krijgen in hoe de trainingsset kan worden verbeterd;
  • Feature engineering: selecteren, transformeren of creëren van nieuwe kenmerken op basis van EDA-inzichten om de prestaties van het model te verbeteren.

Voorbeeld

In de ziekenhuisdataset kunnen ontbrekende waarden voor belangrijke metingen zoals bloeddruk worden ingevuld, en categorische variabelen zoals ras kunnen worden omgezet in numerieke codes voor analyse.

Stap 3. Modelleren

Deze stap omvat:

  • Modelkeuze: het selecteren van één of meerdere modellen die het meest geschikt zijn voor het probleem, gebaseerd op de eigenschappen van het algoritme en experimentele resultaten;
  • Hyperparameterafstemming: het aanpassen van hyperparameters om de best mogelijke prestaties te bereiken.
Note
Meer leren

Beschouw hyperparameters als de knoppen en draaiknoppen op een machine die je kunt aanpassen om te bepalen hoe deze werkt. In machine learning zijn deze "knoppen en draaiknoppen" instellingen (waarden) die een data scientist voorafgaand aan het trainen van het model aanpast. Bijvoorbeeld, hyperparameters kunnen bepalen hoe lang het model getraind wordt of hoe gedetailleerd de training moet zijn.

  • Evaluatie van het model: het meten van de prestaties op niet eerder geziene data.

Voorbeeld

Een classificatiemodel wordt geselecteerd om heropnames van patiënten te voorspellen, wat geschikt is voor binaire uitkomsten (wel of niet heropgenomen). De hyperparameters worden afgestemd om de prestaties te optimaliseren. Tot slot wordt de evaluatie uitgevoerd op een aparte validatie- of testset om te controleren hoe goed het model generaliseert buiten de trainingsdata.

Stap 4. Implementatie

Na het verkrijgen van een fijn afgesteld model met bevredigende prestaties, is de volgende stap implementatie. Het geïmplementeerde model moet continu worden gemonitord, waar nodig worden verbeterd en worden bijgewerkt met nieuwe data zodra deze beschikbaar komt. Dit proces leidt vaak terug naar Stap 1.

Voorbeeld

Zodra het model heropnames nauwkeurig voorspelt, wordt het geïntegreerd in het databasesysteem van het ziekenhuis om het personeel bij opname te waarschuwen voor risicopatiënten, wat de patiëntenzorg verbetert.

Note
Opmerking

Sommige van de hier genoemde termen klinken mogelijk onbekend, maar we zullen deze later in deze cursus uitgebreider bespreken.

Gegevensvoorbewerking en modellering kunnen worden uitgevoerd met de scikit-learn bibliotheek (geïmporteerd als sklearn). De volgende hoofdstukken richten zich op basisstappen van voorbewerking en het opzetten van pipelines. De modelleringsfase wordt vervolgens geïntroduceerd met het k-nearest neighbors algoritme (KNeighborsClassifier in sklearn) als voorbeeld. Dit omvat het bouwen van het model, het afstemmen van hyperparameters en het evalueren van de prestaties.

1. Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning project?

2. Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in de workflow van een machine learning project?

question mark

Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning project?

Select the correct answer

question mark

Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in de workflow van een machine learning project?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 5

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 3.13

bookWorkflow voor Machine Learning

Veeg om het menu te tonen

Laten we kijken naar de workflow die je zou doorlopen om een succesvol machine learning-project op te zetten.

Stap 1. Verzamelen van de data

Begin met het definiëren van het probleem en het vaststellen welke data nodig is. Selecteer een metriek om de prestaties te evalueren en bepaal welk resultaat als voldoende wordt beschouwd.

Verzamel vervolgens de data, vaak uit meerdere bronnen zoals databases, en breng deze in een formaat dat geschikt is voor verwerking in Python.

Als de data al beschikbaar is in een .csv-bestand, kan de preprocessing direct beginnen en kan deze stap worden overgeslagen.

Voorbeeld

Een ziekenhuis levert historische patiëntendossiers uit zijn database, samen met demografische informatie uit een nationale gezondheidsdatabase, samengevoegd in een CSV-bestand. De taak is om heropnames van patiënten te voorspellen, waarbij een nauwkeurigheid van meer dan 80% als doelstelling voor voldoende prestatie wordt gehanteerd.

Stap 2. Data preprocessen

Deze stap bestaat uit:

  • Data opschonen: omgaan met ontbrekende waarden, niet-numerieke data, enzovoort;
  • Exploratieve data-analyse (EDA): analyseren en visualiseren van de dataset om patronen en relaties tussen kenmerken te vinden en in het algemeen inzicht te krijgen in hoe de trainingsset kan worden verbeterd;
  • Feature engineering: selecteren, transformeren of creëren van nieuwe kenmerken op basis van EDA-inzichten om de prestaties van het model te verbeteren.

Voorbeeld

In de ziekenhuisdataset kunnen ontbrekende waarden voor belangrijke metingen zoals bloeddruk worden ingevuld, en categorische variabelen zoals ras kunnen worden omgezet in numerieke codes voor analyse.

Stap 3. Modelleren

Deze stap omvat:

  • Modelkeuze: het selecteren van één of meerdere modellen die het meest geschikt zijn voor het probleem, gebaseerd op de eigenschappen van het algoritme en experimentele resultaten;
  • Hyperparameterafstemming: het aanpassen van hyperparameters om de best mogelijke prestaties te bereiken.
Note
Meer leren

Beschouw hyperparameters als de knoppen en draaiknoppen op een machine die je kunt aanpassen om te bepalen hoe deze werkt. In machine learning zijn deze "knoppen en draaiknoppen" instellingen (waarden) die een data scientist voorafgaand aan het trainen van het model aanpast. Bijvoorbeeld, hyperparameters kunnen bepalen hoe lang het model getraind wordt of hoe gedetailleerd de training moet zijn.

  • Evaluatie van het model: het meten van de prestaties op niet eerder geziene data.

Voorbeeld

Een classificatiemodel wordt geselecteerd om heropnames van patiënten te voorspellen, wat geschikt is voor binaire uitkomsten (wel of niet heropgenomen). De hyperparameters worden afgestemd om de prestaties te optimaliseren. Tot slot wordt de evaluatie uitgevoerd op een aparte validatie- of testset om te controleren hoe goed het model generaliseert buiten de trainingsdata.

Stap 4. Implementatie

Na het verkrijgen van een fijn afgesteld model met bevredigende prestaties, is de volgende stap implementatie. Het geïmplementeerde model moet continu worden gemonitord, waar nodig worden verbeterd en worden bijgewerkt met nieuwe data zodra deze beschikbaar komt. Dit proces leidt vaak terug naar Stap 1.

Voorbeeld

Zodra het model heropnames nauwkeurig voorspelt, wordt het geïntegreerd in het databasesysteem van het ziekenhuis om het personeel bij opname te waarschuwen voor risicopatiënten, wat de patiëntenzorg verbetert.

Note
Opmerking

Sommige van de hier genoemde termen klinken mogelijk onbekend, maar we zullen deze later in deze cursus uitgebreider bespreken.

Gegevensvoorbewerking en modellering kunnen worden uitgevoerd met de scikit-learn bibliotheek (geïmporteerd als sklearn). De volgende hoofdstukken richten zich op basisstappen van voorbewerking en het opzetten van pipelines. De modelleringsfase wordt vervolgens geïntroduceerd met het k-nearest neighbors algoritme (KNeighborsClassifier in sklearn) als voorbeeld. Dit omvat het bouwen van het model, het afstemmen van hyperparameters en het evalueren van de prestaties.

1. Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning project?

2. Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in de workflow van een machine learning project?

question mark

Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning project?

Select the correct answer

question mark

Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in de workflow van een machine learning project?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 5
some-alt