Défi : Implémentation d'une Forêt Aléatoire
Dans sklearn, la version classification de la Forêt Aléatoire est implémentée à l'aide de RandomForestClassifier :
Vous calculerez également la précision de la validation croisée à l'aide de la fonction cross_val_score() :
À la fin, vous afficherez l’importance de chaque caractéristique. L'attribut feature_importances_ retourne un tableau de scores d'importance — ces scores représentent la contribution de chaque caractéristique à la réduction de l'impureté de Gini à travers tous les nœuds de décision où cette caractéristique a été utilisée. Autrement dit, plus une caractéristique aide à séparer les données de manière pertinente, plus son importance est élevée.
Cependant, cet attribut ne fournit que les scores sans les noms des caractéristiques. Pour afficher les deux, vous pouvez les associer à l'aide de la fonction zip() de Python :
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Cela affiche chaque nom de caractéristique avec son score d'importance, ce qui facilite la compréhension des caractéristiques les plus utilisées par le modèle.
Swipe to start coding
Un jeu de données Titanic vous est fourni, stocké sous forme de DataFrame dans la variable df.
- Initialiser le modèle Random Forest, définir
random_state=42, l'entraîner, puis stocker le modèle ajusté dans la variablerandom_forest. - Calculer les scores de validation croisée pour le modèle entraîné en utilisant
10plis, et stocker les scores obtenus dans la variablecv_scores.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 4.17
Défi : Implémentation d'une Forêt Aléatoire
Glissez pour afficher le menu
Dans sklearn, la version classification de la Forêt Aléatoire est implémentée à l'aide de RandomForestClassifier :
Vous calculerez également la précision de la validation croisée à l'aide de la fonction cross_val_score() :
À la fin, vous afficherez l’importance de chaque caractéristique. L'attribut feature_importances_ retourne un tableau de scores d'importance — ces scores représentent la contribution de chaque caractéristique à la réduction de l'impureté de Gini à travers tous les nœuds de décision où cette caractéristique a été utilisée. Autrement dit, plus une caractéristique aide à séparer les données de manière pertinente, plus son importance est élevée.
Cependant, cet attribut ne fournit que les scores sans les noms des caractéristiques. Pour afficher les deux, vous pouvez les associer à l'aide de la fonction zip() de Python :
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Cela affiche chaque nom de caractéristique avec son score d'importance, ce qui facilite la compréhension des caractéristiques les plus utilisées par le modèle.
Swipe to start coding
Un jeu de données Titanic vous est fourni, stocké sous forme de DataFrame dans la variable df.
- Initialiser le modèle Random Forest, définir
random_state=42, l'entraîner, puis stocker le modèle ajusté dans la variablerandom_forest. - Calculer les scores de validation croisée pour le modèle entraîné en utilisant
10plis, et stocker les scores obtenus dans la variablecv_scores.
Solution
Merci pour vos commentaires !
single