Apprendre Défi : Implémentation d'une Forêt Aléatoire

Dans sklearn, la version classification de la Forêt Aléatoire est implémentée à l'aide de RandomForestClassifier :

Vous calculerez également la précision de la validation croisée à l'aide de la fonction cross_val_score() :

À la fin, vous afficherez l’importance de chaque caractéristique. L'attribut feature_importances_ retourne un tableau de scores d'importance — ces scores représentent la contribution de chaque caractéristique à la réduction de l'impureté de Gini à travers tous les nœuds de décision où cette caractéristique a été utilisée. Autrement dit, plus une caractéristique aide à séparer les données de manière pertinente, plus son importance est élevée.

Cependant, cet attribut ne fournit que les scores sans les noms des caractéristiques. Pour afficher les deux, vous pouvez les associer à l'aide de la fonction zip() de Python :

for feature, importance in zip(X.columns, model.feature_importances_):
    print(feature, importance)

Cela affiche chaque nom de caractéristique avec son score d'importance, ce qui facilite la compréhension des caractéristiques les plus utilisées par le modèle.

Tâche

Swipe to start coding

Un jeu de données Titanic vous est fourni, stocké sous forme de DataFrame dans la variable df.

Initialiser le modèle Random Forest, définir random_state=42, l'entraîner, puis stocker le modèle ajusté dans la variable random_forest.
Calculer les scores de validation croisée pour le modèle entraîné en utilisant 10 plis, et stocker les scores obtenus dans la variable cv_scores.

Solution

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 3

single

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 4.17

Glissez pour afficher le menu