Contenu du cours
Classification Avec Python
Classification Avec Python
5. Comparer les Modèles
Résumé de l'Arbre de Décision
Regardons maintenant quelques-unes des particularités de l'arbre de décision.
- Interprétabilité.
Contrairement à la plupart des algorithmes d'apprentissage automatique, les arbres de décision sont faciles à visualiser et à interpréter; - Aucune préparation des données requise.
L'arbre de décision nécessite peu ou pas de préparation des données. Il n'a pas besoin de mise à l'échelle/normalisation. Il peut également gérer les valeurs manquantes et ne souffre pas beaucoup des valeurs aberrantes; - Fournit l'importance des caractéristiques.
Lors de l'entraînement, un arbre de décision calcule l'importance des caractéristiques qui représentent l'impact de chaque caractéristique pour former l'arbre. Vous pouvez obtenir l'importance des caractéristiques en utilisant l'attribut.feature_importances_
; - Complexité computationnelle.
Supposons que m soit le nombre de caractéristiques et n le nombre d'instances d'entraînement. La complexité de l'entraînement d'un arbre de décision est O(n·m·log(m)), donc l'entraînement est assez rapide sauf s'il y a un grand nombre de caractéristiques. De plus, la complexité de la prédiction est O(log(n)), donc les prédictions sont rapides; - Pas adapté aux grands ensembles de données.
Bien que les arbres de décision puissent bien fonctionner pour de petits ensembles, ils ne fonctionnent généralement pas bien pour les grands ensembles de données. L'utilisation de la forêt aléatoire est préférable pour les grands ensembles de données; - Les arbres de décision sont instables.
De petits changements dans les hyperparamètres ou les données peuvent entraîner un arbre très différent. Bien que ce soit un inconvénient pour un seul arbre, cela nous sera bénéfique dans une forêt aléatoire, comme vous le verrez dans la section suivante.
Et voici un petit résumé :
Avantages | Inconvénients |
---|---|
Interprétable | Surapprentissage |
Entraînement rapide | Instable |
Prédictions rapides | Pas adapté aux grands ensembles de données |
Pas de mise à l'échelle des caractéristiques requise | |
Fournit des importances de caractéristiques | |
Habituellement robuste aux valeurs aberrantes |
Tout était clair ?
Merci pour vos commentaires !
Section 3. Chapitre 5