Uitdaging: Implementatie van een Random Forest
In sklearn wordt de classificatievariant van Random Forest geïmplementeerd met behulp van de RandomForestClassifier:
De cross-validatie nauwkeurigheid wordt berekend met de functie cross_val_score():
Aan het einde wordt de belangrijkheid van elke feature weergegeven. Het attribuut feature_importances_ retourneert een array met belangrijkheidsscores - deze scores geven aan hoeveel elke feature heeft bijgedragen aan het verminderen van de Gini-onzuiverheid over alle beslissingsknooppunten waar die feature is gebruikt. Met andere woorden, hoe meer een feature helpt om de data op een nuttige manier te splitsen, hoe hoger de belangrijkheid.
Het attribuut geeft echter alleen de scores zonder featurenamen. Om beide weer te geven, kunnen ze worden gekoppeld met de zip() functie van Python:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Hiermee wordt elke featurenaam samen met de belangrijkheidsscore weergegeven, waardoor het eenvoudiger wordt om te begrijpen op welke features het model het meest heeft vertrouwd.
Swipe to start coding
Je krijgt een Titanic-dataset die is opgeslagen als een DataFrame in de variabele df.
- Initialiseer het Random Forest-model, stel
random_state=42in, train het model en sla het getrainde model op in de variabelerandom_forest. - Bereken de cross-validatiescores voor het getrainde model met behulp van
10folds en sla de resulterende scores op in de variabelecv_scores.
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 4.17
Uitdaging: Implementatie van een Random Forest
Veeg om het menu te tonen
In sklearn wordt de classificatievariant van Random Forest geïmplementeerd met behulp van de RandomForestClassifier:
De cross-validatie nauwkeurigheid wordt berekend met de functie cross_val_score():
Aan het einde wordt de belangrijkheid van elke feature weergegeven. Het attribuut feature_importances_ retourneert een array met belangrijkheidsscores - deze scores geven aan hoeveel elke feature heeft bijgedragen aan het verminderen van de Gini-onzuiverheid over alle beslissingsknooppunten waar die feature is gebruikt. Met andere woorden, hoe meer een feature helpt om de data op een nuttige manier te splitsen, hoe hoger de belangrijkheid.
Het attribuut geeft echter alleen de scores zonder featurenamen. Om beide weer te geven, kunnen ze worden gekoppeld met de zip() functie van Python:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Hiermee wordt elke featurenaam samen met de belangrijkheidsscore weergegeven, waardoor het eenvoudiger wordt om te begrijpen op welke features het model het meest heeft vertrouwd.
Swipe to start coding
Je krijgt een Titanic-dataset die is opgeslagen als een DataFrame in de variabele df.
- Initialiseer het Random Forest-model, stel
random_state=42in, train het model en sla het getrainde model op in de variabelerandom_forest. - Bereken de cross-validatiescores voor het getrainde model met behulp van
10folds en sla de resulterende scores op in de variabelecv_scores.
Oplossing
Bedankt voor je feedback!
single