Résumé de la Forêt Aléatoire

Examinons les particularités de la Forêt Aléatoire :

Aucune préparation des données n'est requise.
Étant donné que la Forêt Aléatoire est un ensemble d'Arbres de Décision, le prétraitement nécessaire pour la Forêt Aléatoire est le même que pour les Arbres de Décision, ce qui est très peu ;
Fournit des importances des caractéristiques.
Tout comme l'Arbre de Décision, la Forêt Aléatoire fournit également des importances des caractéristiques que vous pouvez accéder en utilisant l'attribut .feature_importances_ ;
La Forêt Aléatoire est relativement lente.
Étant donné que la Forêt Aléatoire entraîne beaucoup d'Arbres de Décision (100 par défaut) pendant l'entraînement, elle peut devenir assez lente pour les grands ensembles de données. Et pour faire une prédiction, une nouvelle instance doit également passer par tous les arbres, donc les prédictions peuvent également devenir lentes si de nombreux arbres sont utilisés ;
Gère bien les ensembles de données avec de nombreuses caractéristiques.
Grâce à l'échantillonnage des caractéristiques, le temps d'entraînement de la Forêt Aléatoire ne souffre pas beaucoup d'un grand nombre de caractéristiques. De plus, le modèle peut facilement ignorer les caractéristiques inutiles simplement parce qu'une meilleure caractéristique sera choisie à chaque nœud de décision. Donc les caractéristiques inutiles n'aggravent pas le modèle à moins qu'il n'y en ait trop ;
Adapté aux tâches complexes.
Un Arbre de Décision peut construire des frontières de décision complexes, mais elles ne sont pas lisses et très susceptibles de surajuster. En revanche, la Forêt Aléatoire produit des frontières de décision plus lisses qui généralisent mieux, donc la Forêt Aléatoire est beaucoup moins susceptible de surajuster. Et contrairement à un seul Arbre de Décision, la Forêt Aléatoire est stable, ce qui signifie qu'elle ne change pas radicalement avec des modifications mineures de l'ensemble de données ou des hyperparamètres.

Et voici un petit résumé :

Avantages	Inconvénients
Pas de surajustement	Lent
Gère bien les ensembles de données avec de nombreuses caractéristiques	Non interprétable
Stable
Pas de mise à l'échelle des caractéristiques requise
Fournit des importances des caractéristiques
Habituellement robuste aux valeurs aberrantes
Adapté aux tâches complexes

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 4