Uitdaging: Alles Samenbrengen
In deze uitdaging wordt de volledige workflow toegepast die in de cursus is behandeld — van gegevensvoorbewerking tot en met training en modelbeoordeling.
Swipe to start coding
Je krijgt een dataset met pinguïns. Het doel is om een machine learning-pijplijn te bouwen die pinguïnsoorten classificeert met behulp van een K-Nearest Neighbors (KNN)-model, waarbij correcte verwerking van codering, ontbrekende waarden en parameteroptimalisatie wordt toegepast.
- Codeer de doelvariabele met 
LabelEncoder. - Splits de dataset in trainings- en testsets met 
test_size=0.33. - Maak een ColumnTransformer (
ct) die alleen de kolommen'island'en'sex'codeert met een geschikte encoder voor nominale data (OneHotEncoder) en de overige kolommen ongemoeid laat. - Definieer een parameterrooster (
param_grid) met de volgende waarden voorn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25]. - Maak een 
GridSearchCV-object metKNeighborsClassifierals basisestimator enparam_gridals parameters. - Bouw een pijplijn bestaande uit:
 
- de 
ColumnTransformer(ct); - een 
SimpleImputer(strategie ='most_frequent'); - een 
StandardScaler; - en de 
GridSearchCVals laatste stap. 
- Train de pijplijn met de trainingsdata (
X_train,y_train). - Evalueer het model op de testdata door de 
.score(X_test, y_test)af te drukken. - Voorspel op de testset en druk de eerste 5 gedecodeerde voorspellingen af met 
label_enc.inverse_transform(). - Druk tot slot de beste estimator af die door 
GridSearchCVis gevonden. 
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 3.13
Uitdaging: Alles Samenbrengen
Veeg om het menu te tonen
In deze uitdaging wordt de volledige workflow toegepast die in de cursus is behandeld — van gegevensvoorbewerking tot en met training en modelbeoordeling.
Swipe to start coding
Je krijgt een dataset met pinguïns. Het doel is om een machine learning-pijplijn te bouwen die pinguïnsoorten classificeert met behulp van een K-Nearest Neighbors (KNN)-model, waarbij correcte verwerking van codering, ontbrekende waarden en parameteroptimalisatie wordt toegepast.
- Codeer de doelvariabele met 
LabelEncoder. - Splits de dataset in trainings- en testsets met 
test_size=0.33. - Maak een ColumnTransformer (
ct) die alleen de kolommen'island'en'sex'codeert met een geschikte encoder voor nominale data (OneHotEncoder) en de overige kolommen ongemoeid laat. - Definieer een parameterrooster (
param_grid) met de volgende waarden voorn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25]. - Maak een 
GridSearchCV-object metKNeighborsClassifierals basisestimator enparam_gridals parameters. - Bouw een pijplijn bestaande uit:
 
- de 
ColumnTransformer(ct); - een 
SimpleImputer(strategie ='most_frequent'); - een 
StandardScaler; - en de 
GridSearchCVals laatste stap. 
- Train de pijplijn met de trainingsdata (
X_train,y_train). - Evalueer het model op de testdata door de 
.score(X_test, y_test)af te drukken. - Voorspel op de testset en druk de eerste 5 gedecodeerde voorspellingen af met 
label_enc.inverse_transform(). - Druk tot slot de beste estimator af die door 
GridSearchCVis gevonden. 
Oplossing
Bedankt voor je feedback!
single