Apprendre Forêt Aléatoire | Modèles de Bagging Couramment Utilisés

Random Forest est un algorithme d'ensemble de bagging utilisé pour les tâches de classification et de régression. L'idée de base derrière Random Forest est de créer une "forêt" d'arbres de décision, où chaque arbre est entraîné sur un sous-ensemble différent des données et fournit sa propre prédiction.

Comment fonctionne Random Forest ?

Bootstrapping et Sous-ensemble de Données : Chaque arbre de la forêt est entraîné en utilisant un sous-ensemble aléatoire tiré du jeu de données original via le bootstrapping. Ce processus implique de sélectionner des points de données avec remplacement, créant des sous-ensembles diversifiés pour chaque arbre ;
Construction de l'Arbre de Décision : Ces sous-ensembles construisent des arbres de décision individuels. Les données sont divisées de manière récursive en utilisant des caractéristiques et des seuils, formant des divisions binaires qui mènent à des nœuds feuilles contenant des prédictions ;
Sélection Aléatoire de Caractéristiques : Au sein de chaque arbre, seul un sous-ensemble aléatoire de caractéristiques est considéré pour créer des divisions. Cette randomisation empêche des caractéristiques uniques de dominer les prédictions et améliore la diversité des arbres ;
Agrégation des Prédictions : Après l'entraînement, chaque arbre prédit pour les points de données. Pour la classification, nous utilisons le vote dur ou souple pour créer une prédiction ; pour la régression, les prédictions sont moyennées pour fournir le résultat final.

Nous pouvons remarquer une caractéristique plutôt intéressante d'un arbre aléatoire : chaque modèle de base est entraîné non seulement sur un sous-ensemble aléatoire du jeu d'entraînement, mais aussi sur un sous-ensemble aléatoire de caractéristiques. En conséquence, nous obtenons des modèles de base plus indépendants et, par conséquent, des prédictions finales plus précises.

Exemple

Résolvons la tâche de classification en utilisant Random Forest sur le jeu de données Iris :


              1234567891011121314151617181920212223242526
            
# Import necessary libraries
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score

# Load the Iris dataset
iris = load_iris()
X = iris.data  # Features
y = iris.target  # Target variable

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Create a Random Forest classifier
rf_classifier = RandomForestClassifier(n_estimators=100, n_jobs=-1)

# Train the classifier on the training data
rf_classifier.fit(X_train, y_train)

# Make predictions on the test data
y_pred = rf_classifier.predict(X_test)

# Calculate the F1 score of the classifier
f1 = f1_score(y_test, y_pred, average='weighted')
print(f'F1 Score: {f1:.2f}')

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 5

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Posez-moi des questions sur ce sujet

Résumer ce chapitre

Afficher des exemples du monde réel

Glissez pour afficher le menu