Uitdaging: Alles Samenbrengen
In deze uitdaging wordt de volledige workflow toegepast die in de cursus is behandeld — van gegevensvoorbewerking tot en met training en modelbeoordeling.
Swipe to start coding
Je werkt met een dataset van pinguïns. Het doel is om een volledige machine learning-pijplijn te bouwen die pinguïnsoorten classificeert met behulp van een K-Nearest Neighbors (KNN)-model. De pijplijn moet categorische codering, ontbrekende waarden, feature scaling en parameterafstemming verwerken.
- Codeer de doelvariabele
ymet behulp van de klasseLabelEncoder. - Splits de dataset in trainings- en testsets met
train_test_split()entest_size=0.33. - Maak een
ColumnTransformergenaamdctdie eenOneHotEncodertoepast op de kolommen'island'en'sex', waarbij alle andere kolommen onveranderd blijven (remainder='passthrough'). - Definieer een parametergrid
param_gridmet de volgende waarden voorn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], en voeg'weights'('uniform','distance') en'p'(1,2) toe. - Maak een
GridSearchCV-object metKNeighborsClassifier()als estimator enparam_gridals parametergrid. - Bouw een pijplijn die de volgende stappen in volgorde bevat:
- De
ColumnTransformer(ct); - Een
SimpleImputermet de strategie'most_frequent'; - Een
StandardScalervoor feature scaling;- Het
GridSearchCV-object als laatste stap.
- Het
- Train de pijplijn op de trainingsdata (
X_train,y_train) met de.fit()-methode. - Evalueer de modelprestatie door de testscore af te drukken met
.score(X_test, y_test). - Genereer voorspellingen op de testdata en druk de eerste 5 gedecodeerde klassenamen af met
label_enc.inverse_transform(). - Druk de beste estimator gevonden door
GridSearchCVaf met het attribuut.best_estimator_.
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you explain the steps involved in the full workflow shown here?
What is the purpose of each tool or method depicted in the images?
Can you provide a summary of how these components work together in a machine learning project?
Awesome!
Completion rate improved to 3.13
Uitdaging: Alles Samenbrengen
Veeg om het menu te tonen
In deze uitdaging wordt de volledige workflow toegepast die in de cursus is behandeld — van gegevensvoorbewerking tot en met training en modelbeoordeling.
Swipe to start coding
Je werkt met een dataset van pinguïns. Het doel is om een volledige machine learning-pijplijn te bouwen die pinguïnsoorten classificeert met behulp van een K-Nearest Neighbors (KNN)-model. De pijplijn moet categorische codering, ontbrekende waarden, feature scaling en parameterafstemming verwerken.
- Codeer de doelvariabele
ymet behulp van de klasseLabelEncoder. - Splits de dataset in trainings- en testsets met
train_test_split()entest_size=0.33. - Maak een
ColumnTransformergenaamdctdie eenOneHotEncodertoepast op de kolommen'island'en'sex', waarbij alle andere kolommen onveranderd blijven (remainder='passthrough'). - Definieer een parametergrid
param_gridmet de volgende waarden voorn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], en voeg'weights'('uniform','distance') en'p'(1,2) toe. - Maak een
GridSearchCV-object metKNeighborsClassifier()als estimator enparam_gridals parametergrid. - Bouw een pijplijn die de volgende stappen in volgorde bevat:
- De
ColumnTransformer(ct); - Een
SimpleImputermet de strategie'most_frequent'; - Een
StandardScalervoor feature scaling;- Het
GridSearchCV-object als laatste stap.
- Het
- Train de pijplijn op de trainingsdata (
X_train,y_train) met de.fit()-methode. - Evalueer de modelprestatie door de testscore af te drukken met
.score(X_test, y_test). - Genereer voorspellingen op de testdata en druk de eerste 5 gedecodeerde klassenamen af met
label_enc.inverse_transform(). - Druk de beste estimator gevonden door
GridSearchCVaf met het attribuut.best_estimator_.
Oplossing
Bedankt voor je feedback!
single