Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Modellen | Modellering
ML-Introductie Met Scikit-Learn

bookModellen

De basisprincipes van gegevensvoorbewerking en het opzetten van pipelines zijn nu behandeld. De volgende stap is modelleren.

Een model in Scikit-learn is een schatter die de methoden .predict() en .score() biedt, samen met .fit() die wordt geërfd van alle schatters.

.fit()

Zodra de gegevens zijn voorbewerkt en klaar zijn voor het model, is de eerste stap bij het bouwen van een model het trainen van een model. Dit gebeurt met behulp van .fit(X, y).

Note
Opmerking

Voor het trainen van een model dat een supervised learning taak uitvoert (bijvoorbeeld regressie, classificatie), moeten zowel X als y worden doorgegeven aan de .fit()-methode.

Bij een unsupervised learning taak (bijvoorbeeld clustering) is gelabelde data niet vereist, dus kan alleen de X-variabele worden doorgegeven, .fit(X). Het gebruik van .fit(X, y) zal echter geen foutmelding geven. Het model zal de y-variabele gewoon negeren.

Tijdens de training leert een model alles wat nodig is om voorspellingen te doen. Wat het model leert en de duur van de training hangen af van het gekozen algoritme. Voor elke taak zijn er verschillende modellen beschikbaar, gebaseerd op verschillende algoritmen. Sommige trainen langzamer, andere sneller.

Toch is training over het algemeen het meest tijdrovende aspect van machine learning. Als de trainingsset groot is, kan het trainen van een model minuten, uren of zelfs dagen duren.

.predict()

Zodra het model is getraind met de .fit()-methode, kan het voorspellingen doen. Voorspellen is eenvoudig door de .predict()-methode aan te roepen:

model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction

Meestal wordt een doelvariabele voorspeld voor nieuwe instanties, X_new.

.score()

De .score()-methode wordt gebruikt om de prestaties van een getraind model te meten. Gewoonlijk wordt dit berekend op de testset (de volgende hoofdstukken leggen uit wat dit is). Hier is de syntaxis:

model.fit(X, y) # Training the model
model.score(X_test, y_test)

De .score()-methode vereist werkelijke doelwaarden (y_test in het voorbeeld). Het berekent de voorspelling voor X_test-instanties en vergelijkt deze voorspelling met het ware doel (y_test) met behulp van een bepaalde metriek. Standaard is deze metriek nauwkeurigheid voor classificatie.

Note
Opmerking

X_test verwijst naar de subset van de dataset, bekend als de testset, die wordt gebruikt om de prestaties van een model na training te evalueren. Het bevat de kenmerken (invoergegevens). y_test is de bijbehorende subset van ware labels voor X_test. Samen beoordelen ze hoe goed het model nieuwe, ongeziene data voorspelt.

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 1

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain more about what an estimator is in Scikit-learn?

What are some common algorithms used for modeling in Scikit-learn?

How does the .score() method differ for regression and classification tasks?

Awesome!

Completion rate improved to 3.13

bookModellen

Veeg om het menu te tonen

De basisprincipes van gegevensvoorbewerking en het opzetten van pipelines zijn nu behandeld. De volgende stap is modelleren.

Een model in Scikit-learn is een schatter die de methoden .predict() en .score() biedt, samen met .fit() die wordt geërfd van alle schatters.

.fit()

Zodra de gegevens zijn voorbewerkt en klaar zijn voor het model, is de eerste stap bij het bouwen van een model het trainen van een model. Dit gebeurt met behulp van .fit(X, y).

Note
Opmerking

Voor het trainen van een model dat een supervised learning taak uitvoert (bijvoorbeeld regressie, classificatie), moeten zowel X als y worden doorgegeven aan de .fit()-methode.

Bij een unsupervised learning taak (bijvoorbeeld clustering) is gelabelde data niet vereist, dus kan alleen de X-variabele worden doorgegeven, .fit(X). Het gebruik van .fit(X, y) zal echter geen foutmelding geven. Het model zal de y-variabele gewoon negeren.

Tijdens de training leert een model alles wat nodig is om voorspellingen te doen. Wat het model leert en de duur van de training hangen af van het gekozen algoritme. Voor elke taak zijn er verschillende modellen beschikbaar, gebaseerd op verschillende algoritmen. Sommige trainen langzamer, andere sneller.

Toch is training over het algemeen het meest tijdrovende aspect van machine learning. Als de trainingsset groot is, kan het trainen van een model minuten, uren of zelfs dagen duren.

.predict()

Zodra het model is getraind met de .fit()-methode, kan het voorspellingen doen. Voorspellen is eenvoudig door de .predict()-methode aan te roepen:

model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction

Meestal wordt een doelvariabele voorspeld voor nieuwe instanties, X_new.

.score()

De .score()-methode wordt gebruikt om de prestaties van een getraind model te meten. Gewoonlijk wordt dit berekend op de testset (de volgende hoofdstukken leggen uit wat dit is). Hier is de syntaxis:

model.fit(X, y) # Training the model
model.score(X_test, y_test)

De .score()-methode vereist werkelijke doelwaarden (y_test in het voorbeeld). Het berekent de voorspelling voor X_test-instanties en vergelijkt deze voorspelling met het ware doel (y_test) met behulp van een bepaalde metriek. Standaard is deze metriek nauwkeurigheid voor classificatie.

Note
Opmerking

X_test verwijst naar de subset van de dataset, bekend als de testset, die wordt gebruikt om de prestaties van een model na training te evalueren. Het bevat de kenmerken (invoergegevens). y_test is de bijbehorende subset van ware labels voor X_test. Samen beoordelen ze hoe goed het model nieuwe, ongeziene data voorspelt.

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 1
some-alt