Résumé de la Modélisation
Vous avez maintenant appris à construire un modèle, à l'intégrer dans un pipeline et à ajuster les hyperparamètres. Deux méthodes d'évaluation ont également été abordées : la séparation train-test et la validation croisée.
L'étape suivante consiste à combiner l'évaluation du modèle avec l'ajustement des hyperparamètres en utilisant GridSearchCV
ou RandomizedSearchCV
.
Étant donné que notre jeu de données est très petit, nous utiliserons le GridSearchCV
, mais tout ce qui est mentionné ci-dessous s'applique également à un RandomizedSearchCV
.
L'objectif est d'obtenir le meilleur score de validation croisée sur le jeu de données, car la validation croisée est plus stable et moins dépendante de la façon dont les données sont séparées que l'approche train-test.
GridSearchCV
est spécialement conçu à cet effet : il identifie les hyperparamètres qui permettent d'obtenir le meilleur score de validation croisée, produisant ainsi un modèle finement ajusté qui offre des performances optimales sur les données d'entraînement.
L'attribut .best_score_
stocke le meilleur score de validation croisée trouvé lors de la recherche.
Les meilleurs hyperparamètres pour un ensemble de données spécifique ne sont pas nécessairement les meilleurs dans l'ensemble. Si de nouvelles données sont ajoutées, les hyperparamètres optimaux peuvent changer.
Par conséquent, le .best_score_
obtenu peut être supérieur à la performance sur des données totalement inédites, car les hyperparamètres peuvent ne pas se généraliser aussi bien au-delà de l'ensemble d'entraînement.
En général, l'ensemble de données est d'abord divisé en ensembles d'entraînement et de test. La validation croisée est ensuite appliquée à l'ensemble d'entraînement pour affiner le modèle et identifier la meilleure configuration. Enfin, le modèle optimisé est évalué sur l'ensemble de test, qui contient uniquement des données inédites, afin d'évaluer sa performance en conditions réelles.
En résumé, le flux de travail complet consiste à :
- Prétraiter les données ;
- Diviser l'ensemble de données en ensembles d'entraînement et de test ;
- Utiliser la validation croisée sur l'ensemble d'entraînement pour trouver le modèle le plus performant ;
- Évaluer ce modèle sur l'ensemble de test.
La troisième étape consiste généralement à tester plusieurs algorithmes et à ajuster leurs hyperparamètres afin d’identifier la meilleure option. Par souci de simplicité, un seul algorithme a été utilisé dans ce cours.
Avant de passer au défi final, il est important de noter que la validation croisée n’est pas la seule méthode pour ajuster les modèles. Lorsque les ensembles de données deviennent plus volumineux, le calcul des scores de validation croisée devient plus chronophage, et la séparation classique train-test offre plus de stabilité grâce à la taille accrue de l’ensemble de test.
Par conséquent, les grands ensembles de données sont souvent divisés en trois ensembles : un ensemble d’entraînement, un ensemble de validation et un ensemble de test. Le modèle est entraîné sur l’ensemble d’entraînement et évalué sur l’ensemble de validation afin de sélectionner le modèle ou les hyperparamètres les plus performants.
Cette sélection utilise les scores de l’ensemble de validation au lieu des scores de validation croisée. Enfin, le modèle choisi est évalué sur l’ensemble de test, qui contient des données totalement inédites, afin de vérifier ses performances.
Le jeu de données des manchots est de petite taille, avec seulement 342 instances. En raison de cette taille limitée, le score de validation croisée sera utilisé pour l'évaluation dans le prochain chapitre.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.13
Résumé de la Modélisation
Glissez pour afficher le menu
Vous avez maintenant appris à construire un modèle, à l'intégrer dans un pipeline et à ajuster les hyperparamètres. Deux méthodes d'évaluation ont également été abordées : la séparation train-test et la validation croisée.
L'étape suivante consiste à combiner l'évaluation du modèle avec l'ajustement des hyperparamètres en utilisant GridSearchCV
ou RandomizedSearchCV
.
Étant donné que notre jeu de données est très petit, nous utiliserons le GridSearchCV
, mais tout ce qui est mentionné ci-dessous s'applique également à un RandomizedSearchCV
.
L'objectif est d'obtenir le meilleur score de validation croisée sur le jeu de données, car la validation croisée est plus stable et moins dépendante de la façon dont les données sont séparées que l'approche train-test.
GridSearchCV
est spécialement conçu à cet effet : il identifie les hyperparamètres qui permettent d'obtenir le meilleur score de validation croisée, produisant ainsi un modèle finement ajusté qui offre des performances optimales sur les données d'entraînement.
L'attribut .best_score_
stocke le meilleur score de validation croisée trouvé lors de la recherche.
Les meilleurs hyperparamètres pour un ensemble de données spécifique ne sont pas nécessairement les meilleurs dans l'ensemble. Si de nouvelles données sont ajoutées, les hyperparamètres optimaux peuvent changer.
Par conséquent, le .best_score_
obtenu peut être supérieur à la performance sur des données totalement inédites, car les hyperparamètres peuvent ne pas se généraliser aussi bien au-delà de l'ensemble d'entraînement.
En général, l'ensemble de données est d'abord divisé en ensembles d'entraînement et de test. La validation croisée est ensuite appliquée à l'ensemble d'entraînement pour affiner le modèle et identifier la meilleure configuration. Enfin, le modèle optimisé est évalué sur l'ensemble de test, qui contient uniquement des données inédites, afin d'évaluer sa performance en conditions réelles.
En résumé, le flux de travail complet consiste à :
- Prétraiter les données ;
- Diviser l'ensemble de données en ensembles d'entraînement et de test ;
- Utiliser la validation croisée sur l'ensemble d'entraînement pour trouver le modèle le plus performant ;
- Évaluer ce modèle sur l'ensemble de test.
La troisième étape consiste généralement à tester plusieurs algorithmes et à ajuster leurs hyperparamètres afin d’identifier la meilleure option. Par souci de simplicité, un seul algorithme a été utilisé dans ce cours.
Avant de passer au défi final, il est important de noter que la validation croisée n’est pas la seule méthode pour ajuster les modèles. Lorsque les ensembles de données deviennent plus volumineux, le calcul des scores de validation croisée devient plus chronophage, et la séparation classique train-test offre plus de stabilité grâce à la taille accrue de l’ensemble de test.
Par conséquent, les grands ensembles de données sont souvent divisés en trois ensembles : un ensemble d’entraînement, un ensemble de validation et un ensemble de test. Le modèle est entraîné sur l’ensemble d’entraînement et évalué sur l’ensemble de validation afin de sélectionner le modèle ou les hyperparamètres les plus performants.
Cette sélection utilise les scores de l’ensemble de validation au lieu des scores de validation croisée. Enfin, le modèle choisi est évalué sur l’ensemble de test, qui contient des données totalement inédites, afin de vérifier ses performances.
Le jeu de données des manchots est de petite taille, avec seulement 342 instances. En raison de cette taille limitée, le score de validation croisée sera utilisé pour l'évaluation dans le prochain chapitre.
Merci pour vos commentaires !