Trainingset
In zowel supervised als unsupervised learning wordt de trainingsset meestal gepresenteerd in een tabelvorm.
Een voorbeeld hiervan is de diabetesdataset, die wordt gebruikt om te voorspellen of een persoon diabetes heeft. Deze bevat gegevens van 768 vrouwen met parameters zoals leeftijd, body mass index en bloeddruk. Deze parameters worden features genoemd.
De dataset bevat ook een 'Outcome'
-kolom die aangeeft of de persoon diabetes heeft. Dit is de target-variabele.
Elke rij in de tabel is een instance (ook wel datapunt of sample genoemd), die informatie over een individueel persoon weergeeft.
De tabel (trainingsset) bevat een targetkolom, wat betekent dat deze gelabeld is.
De taak is om het ML-model te trainen op deze trainingsset, zodat het na training voor andere personen (nieuwe instances) kan voorspellen of zij diabetes hebben op basis van alleen de features.
Deze trainingsset is een voorbeeld van een biased dataset, omdat deze uitsluitend informatie bevat over vrouwen van minimaal 21 jaar oud. Hierdoor kan het model minder nauwkeurige voorspellingen doen voor mannen of voor vrouwen jonger dan 21 jaar, aangezien het niet op deze groepen is getraind.
Tijdens het coderen worden feature-kolommen meestal toegewezen aan X
en target-kolommen toegewezen als y
.
En kenmerken van nieuwe instanties worden toegewezen als X_new
.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 3.13
Trainingset
Veeg om het menu te tonen
In zowel supervised als unsupervised learning wordt de trainingsset meestal gepresenteerd in een tabelvorm.
Een voorbeeld hiervan is de diabetesdataset, die wordt gebruikt om te voorspellen of een persoon diabetes heeft. Deze bevat gegevens van 768 vrouwen met parameters zoals leeftijd, body mass index en bloeddruk. Deze parameters worden features genoemd.
De dataset bevat ook een 'Outcome'
-kolom die aangeeft of de persoon diabetes heeft. Dit is de target-variabele.
Elke rij in de tabel is een instance (ook wel datapunt of sample genoemd), die informatie over een individueel persoon weergeeft.
De tabel (trainingsset) bevat een targetkolom, wat betekent dat deze gelabeld is.
De taak is om het ML-model te trainen op deze trainingsset, zodat het na training voor andere personen (nieuwe instances) kan voorspellen of zij diabetes hebben op basis van alleen de features.
Deze trainingsset is een voorbeeld van een biased dataset, omdat deze uitsluitend informatie bevat over vrouwen van minimaal 21 jaar oud. Hierdoor kan het model minder nauwkeurige voorspellingen doen voor mannen of voor vrouwen jonger dan 21 jaar, aangezien het niet op deze groepen is getraind.
Tijdens het coderen worden feature-kolommen meestal toegewezen aan X
en target-kolommen toegewezen als y
.
En kenmerken van nieuwe instanties worden toegewezen als X_new
.
Bedankt voor je feedback!