Contenu du cours
Classification Avec Python
Classification Avec Python
5. Comparer les Modèles
Résumé de la Forêt Aléatoire
Examinons les particularités de la Forêt Aléatoire :
- Aucune préparation des données n'est requise.
Étant donné que la Forêt Aléatoire est un ensemble d'Arbres de Décision, le prétraitement nécessaire pour la Forêt Aléatoire est le même que pour les Arbres de Décision, ce qui est très peu ; - Fournit des importances des caractéristiques.
Tout comme l'Arbre de Décision, la Forêt Aléatoire fournit également des importances des caractéristiques que vous pouvez accéder en utilisant l'attribut.feature_importances_
; - La Forêt Aléatoire est relativement lente.
Étant donné que la Forêt Aléatoire entraîne beaucoup d'Arbres de Décision (100 par défaut) pendant l'entraînement, elle peut devenir assez lente pour les grands ensembles de données. Et pour faire une prédiction, une nouvelle instance doit également passer par tous les arbres, donc les prédictions peuvent également devenir lentes si de nombreux arbres sont utilisés ; - Gère bien les ensembles de données avec de nombreuses caractéristiques.
Grâce à l'échantillonnage des caractéristiques, le temps d'entraînement de la Forêt Aléatoire ne souffre pas beaucoup d'un grand nombre de caractéristiques. De plus, le modèle peut facilement ignorer les caractéristiques inutiles simplement parce qu'une meilleure caractéristique sera choisie à chaque nœud de décision. Donc les caractéristiques inutiles n'aggravent pas le modèle à moins qu'il n'y en ait trop ; - Adapté aux tâches complexes.
Un Arbre de Décision peut construire des frontières de décision complexes, mais elles ne sont pas lisses et très susceptibles de surajuster. En revanche, la Forêt Aléatoire produit des frontières de décision plus lisses qui généralisent mieux, donc la Forêt Aléatoire est beaucoup moins susceptible de surajuster. Et contrairement à un seul Arbre de Décision, la Forêt Aléatoire est stable, ce qui signifie qu'elle ne change pas radicalement avec des modifications mineures de l'ensemble de données ou des hyperparamètres.
Et voici un petit résumé :
Avantages | Inconvénients |
---|---|
Pas de surajustement | Lent |
Gère bien les ensembles de données avec de nombreuses caractéristiques | Non interprétable |
Stable | |
Pas de mise à l'échelle des caractéristiques requise | |
Fournit des importances des caractéristiques | |
Habituellement robuste aux valeurs aberrantes | |
Adapté aux tâches complexes |
Tout était clair ?
Merci pour vos commentaires !
Section 4. Chapitre 4