Utfordring: Sette Alt Sammen
I denne utfordringen skal du anvende hele arbeidsflyten du har lært i kurset — fra dataprosessering via trening til modelevaluering.
Swipe to start coding
Du har fått et datasett med pingviner. Målet ditt er å bygge en maskinlærings-pipeline som klassifiserer pingvinarter ved hjelp av en K-Nearest Neighbors (KNN)-modell, samtidig som du håndterer koding, manglende verdier og parameteroptimalisering på riktig måte.
- Krypter målvariabelen ved å bruke
LabelEncoder. - Del datasettet i trenings- og testsett med
test_size=0.33. - Lag en ColumnTransformer (
ct) som kun koder kolonnene'island'og'sex'ved hjelp av en passende koder for nominale data (OneHotEncoder), og lar de andre kolonnene være uberørt. - Definer et parametergrid (
param_grid) som inkluderer følgende verdier forn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25]. - Lag et
GridSearchCV-objekt medKNeighborsClassifiersom baseestimator ogparam_gridsom parametere. - Bygg en pipeline bestående av:
ColumnTransformer(ct);- en
SimpleImputer(strategi ='most_frequent'); - en
StandardScaler; - og
GridSearchCVsom siste steg.
- Tren pipelinen ved å bruke treningsdataene (
X_train,y_train). - Evaluer modellen på testdataene ved å skrive ut
.score(X_test, y_test). - Predikér på testsettet og skriv ut de 5 første dekodede prediksjonene ved hjelp av
label_enc.inverse_transform(). - Til slutt, skriv ut beste estimator funnet av
GridSearchCV.
Løsning
Takk for tilbakemeldingene dine!
single
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain the steps involved in the full workflow shown here?
What is the purpose of each tool or method depicted in the images?
Can you provide a summary of how these components work together in a machine learning project?
Awesome!
Completion rate improved to 3.13
Utfordring: Sette Alt Sammen
Sveip for å vise menyen
I denne utfordringen skal du anvende hele arbeidsflyten du har lært i kurset — fra dataprosessering via trening til modelevaluering.
Swipe to start coding
Du har fått et datasett med pingviner. Målet ditt er å bygge en maskinlærings-pipeline som klassifiserer pingvinarter ved hjelp av en K-Nearest Neighbors (KNN)-modell, samtidig som du håndterer koding, manglende verdier og parameteroptimalisering på riktig måte.
- Krypter målvariabelen ved å bruke
LabelEncoder. - Del datasettet i trenings- og testsett med
test_size=0.33. - Lag en ColumnTransformer (
ct) som kun koder kolonnene'island'og'sex'ved hjelp av en passende koder for nominale data (OneHotEncoder), og lar de andre kolonnene være uberørt. - Definer et parametergrid (
param_grid) som inkluderer følgende verdier forn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25]. - Lag et
GridSearchCV-objekt medKNeighborsClassifiersom baseestimator ogparam_gridsom parametere. - Bygg en pipeline bestående av:
ColumnTransformer(ct);- en
SimpleImputer(strategi ='most_frequent'); - en
StandardScaler; - og
GridSearchCVsom siste steg.
- Tren pipelinen ved å bruke treningsdataene (
X_train,y_train). - Evaluer modellen på testdataene ved å skrive ut
.score(X_test, y_test). - Predikér på testsettet og skriv ut de 5 første dekodede prediksjonene ved hjelp av
label_enc.inverse_transform(). - Til slutt, skriv ut beste estimator funnet av
GridSearchCV.
Løsning
Takk for tilbakemeldingene dine!
single