Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Résumé de la Modélisation | Modélisation
Introduction au ML Avec Scikit-Learn

bookRésumé de la Modélisation

Vous avez maintenant appris à construire un modèle, à l'intégrer dans un pipeline et à ajuster les hyperparamètres. Deux méthodes d'évaluation ont également été abordées : la séparation train-test et la validation croisée.

L'étape suivante consiste à combiner l'évaluation du modèle avec l'ajustement des hyperparamètres en utilisant GridSearchCV ou RandomizedSearchCV.

Note
Remarque

Étant donné que notre jeu de données est très petit, nous utiliserons le GridSearchCV, mais tout ce qui est mentionné ci-dessous s'applique également à un RandomizedSearchCV.

L'objectif est d'obtenir le meilleur score de validation croisée sur le jeu de données, car la validation croisée est plus stable et moins dépendante de la façon dont les données sont séparées que l'approche train-test.

GridSearchCV est spécialement conçu à cet effet : il identifie les hyperparamètres qui permettent d'obtenir le meilleur score de validation croisée, produisant ainsi un modèle finement ajusté qui offre des performances optimales sur les données d'entraînement.

L'attribut .best_score_ stocke le meilleur score de validation croisée trouvé lors de la recherche.

Note
Remarque

Les meilleurs hyperparamètres pour un ensemble de données spécifique ne sont pas nécessairement les meilleurs dans l'ensemble. Si de nouvelles données sont ajoutées, les hyperparamètres optimaux peuvent changer.

Par conséquent, le .best_score_ obtenu peut être supérieur à la performance sur des données totalement inédites, car les hyperparamètres peuvent ne pas se généraliser aussi bien au-delà de l'ensemble d'entraînement.

En général, l'ensemble de données est d'abord divisé en ensembles d'entraînement et de test. La validation croisée est ensuite appliquée à l'ensemble d'entraînement pour affiner le modèle et identifier la meilleure configuration. Enfin, le modèle optimisé est évalué sur l'ensemble de test, qui contient uniquement des données inédites, afin d'évaluer sa performance en conditions réelles.

En résumé, le flux de travail complet consiste à :

  1. Prétraiter les données ;
  2. Diviser l'ensemble de données en ensembles d'entraînement et de test ;
  3. Utiliser la validation croisée sur l'ensemble d'entraînement pour trouver le modèle le plus performant ;
  4. Évaluer ce modèle sur l'ensemble de test.
Note
Approfondir

La troisième étape consiste généralement à tester plusieurs algorithmes et à ajuster leurs hyperparamètres afin d’identifier la meilleure option. Par souci de simplicité, un seul algorithme a été utilisé dans ce cours.

Avant de passer au défi final, il est important de noter que la validation croisée n’est pas la seule méthode pour ajuster les modèles. Lorsque les ensembles de données deviennent plus volumineux, le calcul des scores de validation croisée devient plus chronophage, et la séparation classique train-test offre plus de stabilité grâce à la taille accrue de l’ensemble de test.

Par conséquent, les grands ensembles de données sont souvent divisés en trois ensembles : un ensemble d’entraînement, un ensemble de validation et un ensemble de test. Le modèle est entraîné sur l’ensemble d’entraînement et évalué sur l’ensemble de validation afin de sélectionner le modèle ou les hyperparamètres les plus performants.

Cette sélection utilise les scores de l’ensemble de validation au lieu des scores de validation croisée. Enfin, le modèle choisi est évalué sur l’ensemble de test, qui contient des données totalement inédites, afin de vérifier ses performances.

Le jeu de données des manchots est de petite taille, avec seulement 342 instances. En raison de cette taille limitée, le score de validation croisée sera utilisé pour l'évaluation dans le prochain chapitre.

question mark

Pourquoi la validation croisée est-elle particulièrement précieuse pour l'ajustement des hyperparamètres dans les petits jeux de données, contrairement aux jeux de données plus volumineux où une séparation train-test pourrait être privilégiée ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 9

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 3.13

bookRésumé de la Modélisation

Glissez pour afficher le menu

Vous avez maintenant appris à construire un modèle, à l'intégrer dans un pipeline et à ajuster les hyperparamètres. Deux méthodes d'évaluation ont également été abordées : la séparation train-test et la validation croisée.

L'étape suivante consiste à combiner l'évaluation du modèle avec l'ajustement des hyperparamètres en utilisant GridSearchCV ou RandomizedSearchCV.

Note
Remarque

Étant donné que notre jeu de données est très petit, nous utiliserons le GridSearchCV, mais tout ce qui est mentionné ci-dessous s'applique également à un RandomizedSearchCV.

L'objectif est d'obtenir le meilleur score de validation croisée sur le jeu de données, car la validation croisée est plus stable et moins dépendante de la façon dont les données sont séparées que l'approche train-test.

GridSearchCV est spécialement conçu à cet effet : il identifie les hyperparamètres qui permettent d'obtenir le meilleur score de validation croisée, produisant ainsi un modèle finement ajusté qui offre des performances optimales sur les données d'entraînement.

L'attribut .best_score_ stocke le meilleur score de validation croisée trouvé lors de la recherche.

Note
Remarque

Les meilleurs hyperparamètres pour un ensemble de données spécifique ne sont pas nécessairement les meilleurs dans l'ensemble. Si de nouvelles données sont ajoutées, les hyperparamètres optimaux peuvent changer.

Par conséquent, le .best_score_ obtenu peut être supérieur à la performance sur des données totalement inédites, car les hyperparamètres peuvent ne pas se généraliser aussi bien au-delà de l'ensemble d'entraînement.

En général, l'ensemble de données est d'abord divisé en ensembles d'entraînement et de test. La validation croisée est ensuite appliquée à l'ensemble d'entraînement pour affiner le modèle et identifier la meilleure configuration. Enfin, le modèle optimisé est évalué sur l'ensemble de test, qui contient uniquement des données inédites, afin d'évaluer sa performance en conditions réelles.

En résumé, le flux de travail complet consiste à :

  1. Prétraiter les données ;
  2. Diviser l'ensemble de données en ensembles d'entraînement et de test ;
  3. Utiliser la validation croisée sur l'ensemble d'entraînement pour trouver le modèle le plus performant ;
  4. Évaluer ce modèle sur l'ensemble de test.
Note
Approfondir

La troisième étape consiste généralement à tester plusieurs algorithmes et à ajuster leurs hyperparamètres afin d’identifier la meilleure option. Par souci de simplicité, un seul algorithme a été utilisé dans ce cours.

Avant de passer au défi final, il est important de noter que la validation croisée n’est pas la seule méthode pour ajuster les modèles. Lorsque les ensembles de données deviennent plus volumineux, le calcul des scores de validation croisée devient plus chronophage, et la séparation classique train-test offre plus de stabilité grâce à la taille accrue de l’ensemble de test.

Par conséquent, les grands ensembles de données sont souvent divisés en trois ensembles : un ensemble d’entraînement, un ensemble de validation et un ensemble de test. Le modèle est entraîné sur l’ensemble d’entraînement et évalué sur l’ensemble de validation afin de sélectionner le modèle ou les hyperparamètres les plus performants.

Cette sélection utilise les scores de l’ensemble de validation au lieu des scores de validation croisée. Enfin, le modèle choisi est évalué sur l’ensemble de test, qui contient des données totalement inédites, afin de vérifier ses performances.

Le jeu de données des manchots est de petite taille, avec seulement 342 instances. En raison de cette taille limitée, le score de validation croisée sera utilisé pour l'évaluation dans le prochain chapitre.

question mark

Pourquoi la validation croisée est-elle particulièrement précieuse pour l'ajustement des hyperparamètres dans les petits jeux de données, contrairement aux jeux de données plus volumineux où une séparation train-test pourrait être privilégiée ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 9
some-alt