Udfordring: Implementering af en Random Forest
I sklearn
implementeres klassifikationsversionen af Random Forest ved hjælp af RandomForestClassifier
:
Du vil også beregne krydsvalideringsnøjagtigheden ved hjælp af funktionen cross_val_score()
:
Til sidst udskrives vigtigheden af hver feature. Attributten feature_importances_
returnerer et array med vigtighedsscorer – disse scorer repræsenterer, hvor meget hver feature har bidraget til at reducere Gini-impuritet på tværs af alle beslutningsnoder, hvor denne feature blev brugt. Med andre ord, jo mere en feature hjælper med at opdele dataene på en nyttig måde, desto højere er dens vigtighed.
Dog giver attributten kun scorerne uden featurenavne. For at vise begge kan du parre dem ved hjælp af Pythons zip()
-funktion:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Dette udskriver hvert featurenavn sammen med dets vigtighedsscore, hvilket gør det lettere at forstå, hvilke features modellen har lagt mest vægt på.
Swipe to start coding
Du har fået et Titanic-datasæt, som er gemt som en DataFrame
i variablen df
.
- Initialiser Random Forest-modellen, sæt
random_state=42
, træn den, og gem den trænede model i variablenrandom_forest
. - Beregn krydsvalideringsscorerne for den trænede model ved brug af
10
fold, og gem de resulterende scorer i variablencv_scores
.
Løsning
Tak for dine kommentarer!
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 4.17
Udfordring: Implementering af en Random Forest
Stryg for at vise menuen
I sklearn
implementeres klassifikationsversionen af Random Forest ved hjælp af RandomForestClassifier
:
Du vil også beregne krydsvalideringsnøjagtigheden ved hjælp af funktionen cross_val_score()
:
Til sidst udskrives vigtigheden af hver feature. Attributten feature_importances_
returnerer et array med vigtighedsscorer – disse scorer repræsenterer, hvor meget hver feature har bidraget til at reducere Gini-impuritet på tværs af alle beslutningsnoder, hvor denne feature blev brugt. Med andre ord, jo mere en feature hjælper med at opdele dataene på en nyttig måde, desto højere er dens vigtighed.
Dog giver attributten kun scorerne uden featurenavne. For at vise begge kan du parre dem ved hjælp af Pythons zip()
-funktion:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Dette udskriver hvert featurenavn sammen med dets vigtighedsscore, hvilket gør det lettere at forstå, hvilke features modellen har lagt mest vægt på.
Swipe to start coding
Du har fået et Titanic-datasæt, som er gemt som en DataFrame
i variablen df
.
- Initialiser Random Forest-modellen, sæt
random_state=42
, træn den, og gem den trænede model i variablenrandom_forest
. - Beregn krydsvalideringsscorerne for den trænede model ved brug af
10
fold, og gem de resulterende scorer i variablencv_scores
.
Løsning
Tak for dine kommentarer!
single