Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Uitdaging: Alles Samenbrengen | Modellering
ML-Introductie Met Scikit-Learn

bookUitdaging: Alles Samenbrengen

In deze uitdaging wordt de volledige workflow toegepast die in de cursus is behandeld — van gegevensvoorbewerking tot en met training en modelbeoordeling.

Taak

Swipe to start coding

Je werkt met een dataset van pinguïns. Het doel is om een volledige machine learning-pijplijn te bouwen die pinguïnsoorten classificeert met behulp van een K-Nearest Neighbors (KNN)-model. De pijplijn moet categorische codering, ontbrekende waarden, feature scaling en parameterafstemming verwerken.

  1. Codeer de doelvariabele y met behulp van de klasse LabelEncoder.
  2. Splits de dataset in trainings- en testsets met train_test_split() en test_size=0.33.
  3. Maak een ColumnTransformer genaamd ct die een OneHotEncoder toepast op de kolommen 'island' en 'sex', waarbij alle andere kolommen onveranderd blijven (remainder='passthrough').
  4. Definieer een parametergrid param_grid met de volgende waarden voor n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25], en voeg 'weights' ('uniform', 'distance') en 'p' (1, 2) toe.
  5. Maak een GridSearchCV-object met KNeighborsClassifier() als estimator en param_grid als parametergrid.
  6. Bouw een pijplijn die de volgende stappen in volgorde bevat:
  • De ColumnTransformer (ct);
  • Een SimpleImputer met de strategie 'most_frequent';
  • Een StandardScaler voor feature scaling;
    • Het GridSearchCV-object als laatste stap.
  1. Train de pijplijn op de trainingsdata (X_train, y_train) met de .fit()-methode.
  2. Evalueer de modelprestatie door de testscore af te drukken met .score(X_test, y_test).
  3. Genereer voorspellingen op de testdata en druk de eerste 5 gedecodeerde klassenamen af met label_enc.inverse_transform().
  4. Druk de beste estimator gevonden door GridSearchCV af met het attribuut .best_estimator_.

Oplossing

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 10
single

single

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain the steps involved in the full workflow shown here?

What is the purpose of each tool or method depicted in the images?

Can you provide a summary of how these components work together in a machine learning project?

close

Awesome!

Completion rate improved to 3.13

bookUitdaging: Alles Samenbrengen

Veeg om het menu te tonen

In deze uitdaging wordt de volledige workflow toegepast die in de cursus is behandeld — van gegevensvoorbewerking tot en met training en modelbeoordeling.

Taak

Swipe to start coding

Je werkt met een dataset van pinguïns. Het doel is om een volledige machine learning-pijplijn te bouwen die pinguïnsoorten classificeert met behulp van een K-Nearest Neighbors (KNN)-model. De pijplijn moet categorische codering, ontbrekende waarden, feature scaling en parameterafstemming verwerken.

  1. Codeer de doelvariabele y met behulp van de klasse LabelEncoder.
  2. Splits de dataset in trainings- en testsets met train_test_split() en test_size=0.33.
  3. Maak een ColumnTransformer genaamd ct die een OneHotEncoder toepast op de kolommen 'island' en 'sex', waarbij alle andere kolommen onveranderd blijven (remainder='passthrough').
  4. Definieer een parametergrid param_grid met de volgende waarden voor n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25], en voeg 'weights' ('uniform', 'distance') en 'p' (1, 2) toe.
  5. Maak een GridSearchCV-object met KNeighborsClassifier() als estimator en param_grid als parametergrid.
  6. Bouw een pijplijn die de volgende stappen in volgorde bevat:
  • De ColumnTransformer (ct);
  • Een SimpleImputer met de strategie 'most_frequent';
  • Een StandardScaler voor feature scaling;
    • Het GridSearchCV-object als laatste stap.
  1. Train de pijplijn op de trainingsdata (X_train, y_train) met de .fit()-methode.
  2. Evalueer de modelprestatie door de testscore af te drukken met .score(X_test, y_test).
  3. Genereer voorspellingen op de testdata en druk de eerste 5 gedecodeerde klassenamen af met label_enc.inverse_transform().
  4. Druk de beste estimator gevonden door GridSearchCV af met het attribuut .best_estimator_.

Oplossing

Switch to desktopSchakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 10
single

single

some-alt