Contenu du cours
Classification Avec Python
Classification Avec Python
Qu'est-ce Que la Forêt Aléatoire
Random Forest est un algorithme largement utilisé dans les problèmes de Classification et de Régression. Il construit de nombreux arbres de décision différents et prend leur vote majoritaire pour la classification et la moyenne dans le cas de la régression.
Au lieu d'utiliser le meilleur arbre, la Forêt Aléatoire construit beaucoup d'arbres moins bons. Pourquoi ferions-nous des arbres que nous savons être moins bons ?
Eh bien, supposons que vous ayez une tâche complexe et que vous la donniez à un professeur - un expert dans ce domaine. Vous pouvez faire confiance à sa réponse, mais il reste humain et peut faire des erreurs. Peut-être que si vous donniez la tâche à 100 bons étudiants et choisissiez la réponse la plus fréquente, le résultat serait plus fiable.
En pratique, combiner de nombreux Arbres de Décision plus faibles en une seule Forêt Aléatoire forte fonctionne très bien, surpassant largement un Arbre de Décision unique ajusté sur de grands ensembles de données.
La frontière de décision d'une Forêt Aléatoire est plus lisse et se généralise mieux aux nouvelles données que l'Arbre de Décision, donc la Forêt Aléatoire ne souffre pas autant de surapprentissage.
Cependant, la précision ne s'améliorera pas si nous combinons de nombreux modèles qui font les mêmes erreurs. Pour que tout cela fonctionne, nous devrions choisir des modèles aussi différents les uns des autres que possible afin qu'ils produisent des erreurs différentes.
Le prochain chapitre éclairera pourquoi la Forêt est Aléatoire et comment nous produisons de nombreux modèles différents en utilisant uniquement l'algorithme de l'Arbre de Décision.
Merci pour vos commentaires !