Workflow voor Machine Learning
Laten we kijken naar de workflow die je zou doorlopen om een succesvol machine learning-project op te zetten.
Stap 1. Verzamelen van de data
Begin met het definiëren van het probleem en het vaststellen welke data nodig is. Selecteer een metriek om de prestaties te evalueren en bepaal welk resultaat als voldoende wordt beschouwd.
Verzamel vervolgens de data, vaak uit meerdere bronnen zoals databases, en breng deze in een formaat dat geschikt is voor verwerking in Python.
Als de data al beschikbaar is in een .csv
-bestand, kan de preprocessing direct beginnen en kan deze stap worden overgeslagen.
Voorbeeld
Een ziekenhuis levert historische patiëntendossiers uit zijn database, samen met demografische informatie uit een nationale gezondheidsdatabase, samengevoegd in een CSV-bestand. De taak is om heropnames van patiënten te voorspellen, waarbij een nauwkeurigheid van meer dan 80% als doelstelling voor voldoende prestatie wordt gehanteerd.
Stap 2. Data preprocessen
Deze stap bestaat uit:
- Data opschonen: omgaan met ontbrekende waarden, niet-numerieke data, enzovoort;
- Exploratieve data-analyse (EDA): analyseren en visualiseren van de dataset om patronen en relaties tussen kenmerken te vinden en in het algemeen inzicht te krijgen in hoe de trainingsset kan worden verbeterd;
- Feature engineering: selecteren, transformeren of creëren van nieuwe kenmerken op basis van EDA-inzichten om de prestaties van het model te verbeteren.
Voorbeeld
In de ziekenhuisdataset kunnen ontbrekende waarden voor belangrijke metingen zoals bloeddruk worden ingevuld, en categorische variabelen zoals ras kunnen worden omgezet in numerieke codes voor analyse.
Stap 3. Modelleren
Deze stap omvat:
- Modelkeuze: het selecteren van één of meerdere modellen die het meest geschikt zijn voor het probleem, gebaseerd op de eigenschappen van het algoritme en experimentele resultaten;
- Hyperparameterafstemming: het aanpassen van hyperparameters om de best mogelijke prestaties te bereiken.
Beschouw hyperparameters als de knoppen en draaiknoppen op een machine die je kunt aanpassen om te bepalen hoe deze werkt. In machine learning zijn deze "knoppen en draaiknoppen" instellingen (waarden) die een data scientist voorafgaand aan het trainen van het model aanpast. Bijvoorbeeld, hyperparameters kunnen bepalen hoe lang het model getraind wordt of hoe gedetailleerd de training moet zijn.
- Evaluatie van het model: het meten van de prestaties op niet eerder geziene data.
Voorbeeld
Een classificatiemodel wordt geselecteerd om heropnames van patiënten te voorspellen, wat geschikt is voor binaire uitkomsten (wel of niet heropgenomen). De hyperparameters worden afgestemd om de prestaties te optimaliseren. Tot slot wordt de evaluatie uitgevoerd op een aparte validatie- of testset om te controleren hoe goed het model generaliseert buiten de trainingsdata.
Stap 4. Implementatie
Na het verkrijgen van een fijn afgesteld model met bevredigende prestaties, is de volgende stap implementatie. Het geïmplementeerde model moet continu worden gemonitord, waar nodig worden verbeterd en worden bijgewerkt met nieuwe data zodra deze beschikbaar komt. Dit proces leidt vaak terug naar Stap 1.
Voorbeeld
Zodra het model heropnames nauwkeurig voorspelt, wordt het geïntegreerd in het databasesysteem van het ziekenhuis om het personeel bij opname te waarschuwen voor risicopatiënten, wat de patiëntenzorg verbetert.
Sommige van de hier genoemde termen klinken mogelijk onbekend, maar we zullen deze later in deze cursus uitgebreider bespreken.
Gegevensvoorbewerking en modellering kunnen worden uitgevoerd met de scikit-learn
bibliotheek (geïmporteerd als sklearn
). De volgende hoofdstukken richten zich op basisstappen van voorbewerking en het opzetten van pipelines. De modelleringsfase wordt vervolgens geïntroduceerd met het k-nearest neighbors algoritme (KNeighborsClassifier
in sklearn
) als voorbeeld. Dit omvat het bouwen van het model, het afstemmen van hyperparameters en het evalueren van de prestaties.
1. Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning project?
2. Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in de workflow van een machine learning project?
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 3.13
Workflow voor Machine Learning
Veeg om het menu te tonen
Laten we kijken naar de workflow die je zou doorlopen om een succesvol machine learning-project op te zetten.
Stap 1. Verzamelen van de data
Begin met het definiëren van het probleem en het vaststellen welke data nodig is. Selecteer een metriek om de prestaties te evalueren en bepaal welk resultaat als voldoende wordt beschouwd.
Verzamel vervolgens de data, vaak uit meerdere bronnen zoals databases, en breng deze in een formaat dat geschikt is voor verwerking in Python.
Als de data al beschikbaar is in een .csv
-bestand, kan de preprocessing direct beginnen en kan deze stap worden overgeslagen.
Voorbeeld
Een ziekenhuis levert historische patiëntendossiers uit zijn database, samen met demografische informatie uit een nationale gezondheidsdatabase, samengevoegd in een CSV-bestand. De taak is om heropnames van patiënten te voorspellen, waarbij een nauwkeurigheid van meer dan 80% als doelstelling voor voldoende prestatie wordt gehanteerd.
Stap 2. Data preprocessen
Deze stap bestaat uit:
- Data opschonen: omgaan met ontbrekende waarden, niet-numerieke data, enzovoort;
- Exploratieve data-analyse (EDA): analyseren en visualiseren van de dataset om patronen en relaties tussen kenmerken te vinden en in het algemeen inzicht te krijgen in hoe de trainingsset kan worden verbeterd;
- Feature engineering: selecteren, transformeren of creëren van nieuwe kenmerken op basis van EDA-inzichten om de prestaties van het model te verbeteren.
Voorbeeld
In de ziekenhuisdataset kunnen ontbrekende waarden voor belangrijke metingen zoals bloeddruk worden ingevuld, en categorische variabelen zoals ras kunnen worden omgezet in numerieke codes voor analyse.
Stap 3. Modelleren
Deze stap omvat:
- Modelkeuze: het selecteren van één of meerdere modellen die het meest geschikt zijn voor het probleem, gebaseerd op de eigenschappen van het algoritme en experimentele resultaten;
- Hyperparameterafstemming: het aanpassen van hyperparameters om de best mogelijke prestaties te bereiken.
Beschouw hyperparameters als de knoppen en draaiknoppen op een machine die je kunt aanpassen om te bepalen hoe deze werkt. In machine learning zijn deze "knoppen en draaiknoppen" instellingen (waarden) die een data scientist voorafgaand aan het trainen van het model aanpast. Bijvoorbeeld, hyperparameters kunnen bepalen hoe lang het model getraind wordt of hoe gedetailleerd de training moet zijn.
- Evaluatie van het model: het meten van de prestaties op niet eerder geziene data.
Voorbeeld
Een classificatiemodel wordt geselecteerd om heropnames van patiënten te voorspellen, wat geschikt is voor binaire uitkomsten (wel of niet heropgenomen). De hyperparameters worden afgestemd om de prestaties te optimaliseren. Tot slot wordt de evaluatie uitgevoerd op een aparte validatie- of testset om te controleren hoe goed het model generaliseert buiten de trainingsdata.
Stap 4. Implementatie
Na het verkrijgen van een fijn afgesteld model met bevredigende prestaties, is de volgende stap implementatie. Het geïmplementeerde model moet continu worden gemonitord, waar nodig worden verbeterd en worden bijgewerkt met nieuwe data zodra deze beschikbaar komt. Dit proces leidt vaak terug naar Stap 1.
Voorbeeld
Zodra het model heropnames nauwkeurig voorspelt, wordt het geïntegreerd in het databasesysteem van het ziekenhuis om het personeel bij opname te waarschuwen voor risicopatiënten, wat de patiëntenzorg verbetert.
Sommige van de hier genoemde termen klinken mogelijk onbekend, maar we zullen deze later in deze cursus uitgebreider bespreken.
Gegevensvoorbewerking en modellering kunnen worden uitgevoerd met de scikit-learn
bibliotheek (geïmporteerd als sklearn
). De volgende hoofdstukken richten zich op basisstappen van voorbewerking en het opzetten van pipelines. De modelleringsfase wordt vervolgens geïntroduceerd met het k-nearest neighbors algoritme (KNeighborsClassifier
in sklearn
) als voorbeeld. Dit omvat het bouwen van het model, het afstemmen van hyperparameters en het evalueren van de prestaties.
1. Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning project?
2. Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in de workflow van een machine learning project?
Bedankt voor je feedback!