Leer Uitdaging: Implementatie van een Random Forest

In sklearn wordt de classificatievariant van Random Forest geïmplementeerd met behulp van de RandomForestClassifier:

De cross-validatie nauwkeurigheid wordt berekend met de functie cross_val_score():

Aan het einde wordt de belangrijkheid van elke feature weergegeven. Het attribuut feature_importances_ retourneert een array met belangrijkheidsscores - deze scores geven aan hoeveel elke feature heeft bijgedragen aan het verminderen van de Gini-onzuiverheid over alle beslissingsknooppunten waar die feature is gebruikt. Met andere woorden, hoe meer een feature helpt om de data op een nuttige manier te splitsen, hoe hoger de belangrijkheid.

Het attribuut geeft echter alleen de scores zonder featurenamen. Om beide weer te geven, kunnen ze worden gekoppeld met de zip() functie van Python:

for feature, importance in zip(X.columns, model.feature_importances_):
    print(feature, importance)

Hiermee wordt elke featurenaam samen met de belangrijkheidsscore weergegeven, waardoor het eenvoudiger wordt om te begrijpen op welke features het model het meest heeft vertrouwd.

Taak

Swipe to start coding

Je krijgt een Titanic-dataset die is opgeslagen als een DataFrame in de variabele df.

Initialiseer het Random Forest-model, stel random_state=42 in, train het model en sla het getrainde model op in de variabele random_forest.
Bereken de cross-validatiescores voor het getrainde model met behulp van 10 folds en sla de resulterende scores op in de variabele cv_scores.

Oplossing

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 4. Hoofdstuk 3

single

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Veeg om het menu te tonen