Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Modèles de Bagging | Principes de Base de la Construction de Modèles d'Ensemble
Apprentissage Ensembliste
course content

Contenu du cours

Apprentissage Ensembliste

Apprentissage Ensembliste

1. Principes de Base de la Construction de Modèles d'Ensemble
2. Modèles de Bagging Couramment Utilisés
3. Modèles de Boosting Couramment Utilisés
4. Modèles de Stacking Couramment Utilisés

book
Modèles de Bagging

Modèle de Bagging (bootstrap aggregating) - un modèle d'apprentissage ensembliste qui se compose de modèles de base identiques et agrège leurs résultats en utilisant le vote. Le vote, dans ce cas, signifie que l'ensemble donnera la valeur de résultat pour laquelle la majorité des apprenants faibles votent. Plus en détail, nous discuterons de deux types de vote, vote souple et vote dur.

Vote Dur

Supposons que nous résolvons un problème de classification binaire en utilisant un certain nombre d'apprenants faibles (par exemple, régression logistique ou SVM). Dans ce scénario, nous considérerons que la prédiction finale est la classe qui reçoit la majorité des votes des apprenants faibles.

Pourquoi cette approche est-elle meilleure que l'utilisation d'un seul modèle ?

  1. Tout d'abord, considérons un scénario où un modèle simple produit le résultat correct 51 pour cent du temps. Un tel résultat est seulement légèrement meilleur que de deviner au hasard.
  2. Calculons la probabilité d'obtenir le résultat correct en utilisant un ensemble de 1000 de ces modèles faibles. Si nous utilisons le vote dur, la probabilité d'obtenir le résultat correct est équivalente à la probabilité que plus de 500 modèles donnent le résultat correct.

En supposant que les résultats de tous les apprenants faibles sont indépendants, nous pouvons utiliser le Théorème Central Limite pour calculer la probabilité d'obtenir la bonne réponse (vous pouvez vous familiariser avec le Théorème Central Limite dans ces chapitres : Chapitre 1 , Chapitre 2 :

ξi - le résultat du classificateur binaire i. Ce résultat est 1 avec une probabilité 0.51 et est 0 avec une probabilité 0.49. En utilisant le TCL, nous pouvons calculer la probabilité d'obtenir plus de 500 résultats corrects parmi 1000 modèles comme suit :

Quelle conclusion pouvons-nous tirer de ces calculs ?

Nous arrivons donc à une conclusion assez étonnante : en utilisant un modèle faible, nous obtenons la réponse correcte seulement 51 % du temps, tandis qu'en utilisant les résultats de milliers de ces modèles et en agrégeant leurs résultats par vote dur, nous atteignons une précision de plus de 90 % !

Cependant, il y a une nuance significative à considérer. Toutes les conclusions mentionnées ci-dessus ne sont valables que si les résultats de chaque modèle spécifique sont indépendants des résultats des autres modèles. En pratique, cette condition pose souvent des défis substantiels. Lorsque nous entraînons plusieurs modèles sur les mêmes données, ils ont tendance à produire des résultats identiques et, par conséquent, perdent leur indépendance.

Qu'est-ce que le Bootstrap ?

La technologie Bootstrap est utilisée pour surmonter ce problème lors de l'entraînement d'ensembles en utilisant la méthode de bagging.
L'idée principale de la méthode réside dans l'entraînement de chaque modèle faible individuel non pas sur l'ensemble du jeu de données d'entraînement, mais sur un sous-échantillon aléatoire des données d'entraînement. En conséquence, nous obtenons un ensemble de modèles, chacun entraîné sur un sous-ensemble différent de données, qui peut être considéré comme indépendant des autres.

Vote Mou

Le vote mou est une technique d'agrégation où les prédictions des modèles de base sont combinées en tenant compte des probabilités (niveaux de confiance) attribuées à chaque étiquette de classe plutôt que de simplement considérer le vote majoritaire.
Voici comment fonctionne le vote mou :

  1. Pour chaque modèle de base dans l'ensemble, le modèle attribue des probabilités de classe à chaque étiquette de classe possible pour un échantillon d'entrée donné. Ces probabilités représentent la confiance du modèle dans ses prédictions.
  2. Pour faire une prédiction finale en utilisant le vote mou, l'ensemble prend la moyenne des probabilités prédites pour chaque étiquette de classe à travers tous les modèles de base.
  3. L'étiquette de classe avec la probabilité moyenne la plus élevée est ensuite choisie comme prédiction finale pour l'ensemble.

Note

La technique d'agrégation par vote mou ne peut être appliquée que pour les estimateurs de base qui ont la méthode .predict_proba().

Dans le vote pondéré, la prédiction finale est basée sur :

Dans le vote pondéré, la prédiction finale est basée sur :

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 2
We're sorry to hear that something went wrong. What happened?
some-alt