Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Forêt Aléatoire | Modèles de Bagging Couramment Utilisés
Apprentissage Ensembliste
course content

Contenu du cours

Apprentissage Ensembliste

Apprentissage Ensembliste

1. Principes de Base de la Construction de Modèles d'Ensemble
2. Modèles de Bagging Couramment Utilisés
3. Modèles de Boosting Couramment Utilisés
4. Modèles de Stacking Couramment Utilisés

book
Forêt Aléatoire

Random Forest est un algorithme d'ensemble de bagging utilisé pour les tâches de classification et de régression. L'idée de base derrière Random Forest est de créer une "forêt" d'arbres de décision, où chaque arbre est entraîné sur un sous-ensemble différent des données et fournit sa propre prédiction.

Comment fonctionne Random Forest ?

  1. Bootstrapping et Sous-ensemble de Données : Chaque arbre de la forêt est entraîné en utilisant un sous-ensemble aléatoire tiré du jeu de données original via le bootstrapping. Ce processus implique de sélectionner des points de données avec remplacement, créant des sous-ensembles diversifiés pour chaque arbre ;

  2. Construction de l'Arbre de Décision : Ces sous-ensembles construisent des arbres de décision individuels. Les données sont divisées de manière récursive en utilisant des caractéristiques et des seuils, formant des divisions binaires qui mènent à des nœuds feuilles contenant des prédictions ;

  3. Sélection Aléatoire de Caractéristiques : Au sein de chaque arbre, seul un sous-ensemble aléatoire de caractéristiques est considéré pour créer des divisions. Cette randomisation empêche des caractéristiques uniques de dominer les prédictions et améliore la diversité des arbres ;

  4. Agrégation des Prédictions : Après l'entraînement, chaque arbre prédit pour les points de données. Pour la classification, nous utilisons le vote dur ou souple pour créer une prédiction ; pour la régression, les prédictions sont moyennées pour fournir le résultat final.

Nous pouvons remarquer une caractéristique plutôt intéressante d'un arbre aléatoire : chaque modèle de base est entraîné non seulement sur un sous-ensemble aléatoire du jeu d'entraînement, mais aussi sur un sous-ensemble aléatoire de caractéristiques. En conséquence, nous obtenons des modèles de base plus indépendants et, par conséquent, des prédictions finales plus précises.

Exemple

Résolvons la tâche de classification en utilisant Random Forest sur le jeu de données Iris :

1234567891011121314151617181920212223242526
# Import necessary libraries from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import f1_score # Load the Iris dataset iris = load_iris() X = iris.data # Features y = iris.target # Target variable # Split the dataset into training and testing sets X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Create a Random Forest classifier rf_classifier = RandomForestClassifier(n_estimators=100, n_jobs=-1) # Train the classifier on the training data rf_classifier.fit(X_train, y_train) # Make predictions on the test data y_pred = rf_classifier.predict(X_test) # Calculate the F1 score of the classifier f1 = f1_score(y_test, y_pred, average='weighted') print(f'F1 Score: {f1:.2f}')
copy
Quel modèle est utilisé comme modèle de base dans la Forêt Aléatoire ?

Quel modèle est utilisé comme modèle de base dans la Forêt Aléatoire ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 5
We're sorry to hear that something went wrong. What happened?
some-alt