Détermination des Paramètres
La régression logistique nécessite uniquement que l’ordinateur apprenne les meilleurs paramètres β. Pour cela, il est nécessaire de définir ce que signifie « meilleurs paramètres ». Rappelons le fonctionnement du modèle : il prédit la probabilité p d’appartenir à la classe 1 :
p=σ(z)=σ(β0+β1x1+...)Où
σ(z)=1+e−z1Évidemment, un modèle avec de bons paramètres est celui qui prédit une valeur élevée (proche de 1) pour p lorsque l’instance appartient réellement à la classe 1, et une valeur faible (proche de 0) pour p lorsque l’instance appartient à la classe 0.
Pour évaluer la qualité du modèle, une fonction de coût est utilisée. En régression linéaire, la fonction de coût utilisée était la MSE (erreur quadratique moyenne). Cette fois-ci, une fonction différente est employée :
Ici, p représente la probabilité d'appartenir à la classe 1, telle que prédite par le modèle, tandis que y désigne la valeur cible réelle.
Cette fonction pénalise non seulement les prédictions incorrectes, mais prend également en compte le degré de confiance du modèle dans ses prédictions. Comme illustré dans l'image ci-dessus, lorsque la valeur de p correspond étroitement à y (la cible réelle), la fonction de coût reste relativement faible, indiquant que le modèle a sélectionné la bonne classe avec confiance. À l'inverse, si la prédiction est incorrecte, la fonction de coût augmente de façon exponentielle à mesure que la confiance du modèle dans la mauvaise classe s'accroît.
Dans le contexte de la classification binaire avec une fonction sigmoïde, la fonction de coût utilisée est spécifiquement appelée perte d'entropie croisée binaire, comme montré ci-dessus. Il est important de noter qu'il existe également une forme générale appelée perte d'entropie croisée (ou entropie croisée catégorielle) utilisée pour les problèmes de classification multiclasse.
La perte d'entropie croisée catégorielle pour un seul exemple d'entraînement se calcule comme suit :
Categorical Cross-Entropy Loss=−i=1∑Cyilog(pi)Où
- C est le nombre de classes ;
- yi est la valeur cible réelle (1 si la classe est la bonne, 0 sinon) ;
- pi est la probabilité prédite que l'exemple appartienne à la classe i.
On calcule la fonction de perte pour chaque exemple d'entraînement et on en prend la moyenne. Cette moyenne est appelée fonction de coût. La régression logistique trouve les paramètres β qui minimisent la fonction de coût.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain why binary cross-entropy is preferred over MSE for logistic regression?
What does the sigmoid function do in logistic regression?
How does the cost function help improve the model's predictions?
Awesome!
Completion rate improved to 4.17
Détermination des Paramètres
Glissez pour afficher le menu
La régression logistique nécessite uniquement que l’ordinateur apprenne les meilleurs paramètres β. Pour cela, il est nécessaire de définir ce que signifie « meilleurs paramètres ». Rappelons le fonctionnement du modèle : il prédit la probabilité p d’appartenir à la classe 1 :
p=σ(z)=σ(β0+β1x1+...)Où
σ(z)=1+e−z1Évidemment, un modèle avec de bons paramètres est celui qui prédit une valeur élevée (proche de 1) pour p lorsque l’instance appartient réellement à la classe 1, et une valeur faible (proche de 0) pour p lorsque l’instance appartient à la classe 0.
Pour évaluer la qualité du modèle, une fonction de coût est utilisée. En régression linéaire, la fonction de coût utilisée était la MSE (erreur quadratique moyenne). Cette fois-ci, une fonction différente est employée :
Ici, p représente la probabilité d'appartenir à la classe 1, telle que prédite par le modèle, tandis que y désigne la valeur cible réelle.
Cette fonction pénalise non seulement les prédictions incorrectes, mais prend également en compte le degré de confiance du modèle dans ses prédictions. Comme illustré dans l'image ci-dessus, lorsque la valeur de p correspond étroitement à y (la cible réelle), la fonction de coût reste relativement faible, indiquant que le modèle a sélectionné la bonne classe avec confiance. À l'inverse, si la prédiction est incorrecte, la fonction de coût augmente de façon exponentielle à mesure que la confiance du modèle dans la mauvaise classe s'accroît.
Dans le contexte de la classification binaire avec une fonction sigmoïde, la fonction de coût utilisée est spécifiquement appelée perte d'entropie croisée binaire, comme montré ci-dessus. Il est important de noter qu'il existe également une forme générale appelée perte d'entropie croisée (ou entropie croisée catégorielle) utilisée pour les problèmes de classification multiclasse.
La perte d'entropie croisée catégorielle pour un seul exemple d'entraînement se calcule comme suit :
Categorical Cross-Entropy Loss=−i=1∑Cyilog(pi)Où
- C est le nombre de classes ;
- yi est la valeur cible réelle (1 si la classe est la bonne, 0 sinon) ;
- pi est la probabilité prédite que l'exemple appartienne à la classe i.
On calcule la fonction de perte pour chaque exemple d'entraînement et on en prend la moyenne. Cette moyenne est appelée fonction de coût. La régression logistique trouve les paramètres β qui minimisent la fonction de coût.
Merci pour vos commentaires !