Contenu du cours
Classification Avec Python
Classification Avec Python
Trouver les Paramètres
La régression logistique nécessite seulement que l'ordinateur apprenne les meilleurs paramètres β. Pour cela, nous devons définir ce que signifie "meilleurs paramètres". Rappelons comment fonctionne le modèle, il prédit la probabilité p d'appartenir à la classe 1.
Évidemment, le modèle avec de bons paramètres est celui qui prédit une p élevée (proche de 1) pour les instances qui sont effectivement de la classe 1 et une p basse (proche de 0) pour les instances de la classe réelle 0.
Pour mesurer à quel point le modèle est mauvais ou bon, nous utilisons une fonction de coût. Dans la régression linéaire, nous avons utilisé SSR comme fonction de coût. Cette fois, une fonction différente est utilisée :
Ici, p est la probabilité d'appartenir à la classe 1, prédite par le modèle, et y est la valeur cible réelle.
Cette fonction non seulement pénalise les prédictions incorrectes mais prend également en compte la confiance du modèle dans sa prédiction.
Comme vous pouvez le voir sur l'image ci-dessus, si la valeur de p est proche de y (cible réelle), alors la fonction de coût est relativement petite. Cela signifie que le modèle a choisi avec confiance la bonne classe.
Mais si la prédiction est incorrecte, la fonction de coût augmente de manière exponentielle à mesure que la confiance du modèle dans la mauvaise classe augmente.
Nous calculons la fonction de coût pour chaque instance d'entraînement et prenons la moyenne. Cette fonction de coût est appelée Perte d'Entropie Croisée. Ainsi, la Régression Logistique trouve simplement les paramètres β qui minimisent la Perte d'Entropie Croisée.
Merci pour vos commentaires !