Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Flux de Travail en Apprentissage Automatique | Concepts de l'Apprentissage Automatique
Introduction au ML Avec Scikit-Learn

bookFlux de Travail en Apprentissage Automatique

Examinons le flux de travail à suivre pour mener à bien un projet d'apprentissage automatique.

Étape 1. Obtenir les données

Commencer par définir le problème et identifier les données nécessaires. Sélectionner une métrique pour évaluer la performance et déterminer le résultat qui sera considéré comme satisfaisant.

Ensuite, collecter les données, souvent issues de plusieurs sources telles que des bases de données, et les mettre dans un format adapté au traitement sous Python.

Si les données sont déjà disponibles dans un fichier .csv, le prétraitement peut commencer immédiatement et cette étape peut être omise.

Exemple

Un hôpital fournit des dossiers patients historiques issus de sa base de données ainsi que des informations démographiques provenant d'une base de données nationale de santé, compilées dans un fichier CSV. La tâche consiste à prédire les réadmissions de patients, avec une précision supérieure à 80 % définie comme métrique cible pour une performance satisfaisante.

Étape 2. Prétraiter les données

Cette étape comprend :

  • Nettoyage des données : gestion des valeurs manquantes, des données non numériques, etc. ;
  • Analyse exploratoire des données (EDA) : analyse et visualisation du jeu de données pour identifier des motifs et des relations entre les variables, et, de manière générale, obtenir des informations sur la façon d'améliorer l'ensemble d'entraînement ;
  • Ingénierie des caractéristiques : sélection, transformation ou création de nouvelles variables à partir des résultats de l'EDA pour améliorer la performance du modèle.

Exemple

Dans le jeu de données de l'hôpital, les valeurs manquantes pour des indicateurs clés tels que la pression artérielle peuvent être complétées, et les variables catégorielles comme la race peuvent être converties en codes numériques pour l'analyse.

Étape 3. Modélisation

Cette étape comprend :

  • Choix du modèle : sélection d’un ou plusieurs modèles les plus adaptés au problème, en fonction des caractéristiques de l’algorithme et des résultats expérimentaux ;
  • Ajustement des hyperparamètres : modification des hyperparamètres afin d’obtenir les meilleures performances possibles.
Note
Approfondir

Considérer les hyperparamètres comme les boutons et molettes d’une machine que l’on peut régler pour contrôler son fonctionnement. En apprentissage automatique, ces « boutons et molettes » sont des paramètres (valeurs) qu’un data scientist ajuste avant de commencer l’entraînement du modèle. Par exemple, les hyperparamètres peuvent inclure la durée d’entraînement du modèle ou le niveau de détail de l’entraînement.

  • Évaluation du modèle : mesure des performances sur des données non vues.

Exemple

Un modèle de classification est sélectionné pour prédire les réadmissions de patients, ce qui convient aux résultats binaires (réadmis ou non). Ses hyperparamètres sont ajustés pour optimiser les performances. Enfin, l’évaluation est réalisée sur un ensemble de validation ou de test distinct afin de vérifier la capacité de généralisation du modèle au-delà des données d’entraînement.

Étape 4. Déploiement

Après avoir obtenu un modèle ajusté avec des performances satisfaisantes, l'étape suivante est le déploiement. Le modèle déployé doit être surveillé en continu, amélioré si nécessaire et mis à jour avec de nouvelles données dès qu'elles sont disponibles. Ce processus ramène souvent à la première étape.

Exemple

Une fois que le modèle prédit précisément les réadmissions, il est intégré au système de base de données de l'hôpital afin d'alerter le personnel sur les patients à haut risque lors de l'admission, améliorant ainsi la prise en charge des patients.

Note
Remarque

Certains des termes mentionnés ici peuvent sembler inconnus, mais nous les aborderons plus en détail plus loin dans ce cours.

La prétraitement des données et la modélisation peuvent être réalisés avec la bibliothèque scikit-learn (importée sous le nom de sklearn). Les chapitres suivants se concentrent sur les étapes de prétraitement de base et la construction de pipelines. La phase de modélisation est ensuite introduite en utilisant l’algorithme des k plus proches voisins (KNeighborsClassifier dans sklearn) comme exemple. Cela couvre la construction du modèle, l’ajustement des hyperparamètres et l’évaluation des performances.

1. Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

2. Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?

question mark

Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

Select the correct answer

question mark

Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 5

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 3.13

bookFlux de Travail en Apprentissage Automatique

Glissez pour afficher le menu

Examinons le flux de travail à suivre pour mener à bien un projet d'apprentissage automatique.

Étape 1. Obtenir les données

Commencer par définir le problème et identifier les données nécessaires. Sélectionner une métrique pour évaluer la performance et déterminer le résultat qui sera considéré comme satisfaisant.

Ensuite, collecter les données, souvent issues de plusieurs sources telles que des bases de données, et les mettre dans un format adapté au traitement sous Python.

Si les données sont déjà disponibles dans un fichier .csv, le prétraitement peut commencer immédiatement et cette étape peut être omise.

Exemple

Un hôpital fournit des dossiers patients historiques issus de sa base de données ainsi que des informations démographiques provenant d'une base de données nationale de santé, compilées dans un fichier CSV. La tâche consiste à prédire les réadmissions de patients, avec une précision supérieure à 80 % définie comme métrique cible pour une performance satisfaisante.

Étape 2. Prétraiter les données

Cette étape comprend :

  • Nettoyage des données : gestion des valeurs manquantes, des données non numériques, etc. ;
  • Analyse exploratoire des données (EDA) : analyse et visualisation du jeu de données pour identifier des motifs et des relations entre les variables, et, de manière générale, obtenir des informations sur la façon d'améliorer l'ensemble d'entraînement ;
  • Ingénierie des caractéristiques : sélection, transformation ou création de nouvelles variables à partir des résultats de l'EDA pour améliorer la performance du modèle.

Exemple

Dans le jeu de données de l'hôpital, les valeurs manquantes pour des indicateurs clés tels que la pression artérielle peuvent être complétées, et les variables catégorielles comme la race peuvent être converties en codes numériques pour l'analyse.

Étape 3. Modélisation

Cette étape comprend :

  • Choix du modèle : sélection d’un ou plusieurs modèles les plus adaptés au problème, en fonction des caractéristiques de l’algorithme et des résultats expérimentaux ;
  • Ajustement des hyperparamètres : modification des hyperparamètres afin d’obtenir les meilleures performances possibles.
Note
Approfondir

Considérer les hyperparamètres comme les boutons et molettes d’une machine que l’on peut régler pour contrôler son fonctionnement. En apprentissage automatique, ces « boutons et molettes » sont des paramètres (valeurs) qu’un data scientist ajuste avant de commencer l’entraînement du modèle. Par exemple, les hyperparamètres peuvent inclure la durée d’entraînement du modèle ou le niveau de détail de l’entraînement.

  • Évaluation du modèle : mesure des performances sur des données non vues.

Exemple

Un modèle de classification est sélectionné pour prédire les réadmissions de patients, ce qui convient aux résultats binaires (réadmis ou non). Ses hyperparamètres sont ajustés pour optimiser les performances. Enfin, l’évaluation est réalisée sur un ensemble de validation ou de test distinct afin de vérifier la capacité de généralisation du modèle au-delà des données d’entraînement.

Étape 4. Déploiement

Après avoir obtenu un modèle ajusté avec des performances satisfaisantes, l'étape suivante est le déploiement. Le modèle déployé doit être surveillé en continu, amélioré si nécessaire et mis à jour avec de nouvelles données dès qu'elles sont disponibles. Ce processus ramène souvent à la première étape.

Exemple

Une fois que le modèle prédit précisément les réadmissions, il est intégré au système de base de données de l'hôpital afin d'alerter le personnel sur les patients à haut risque lors de l'admission, améliorant ainsi la prise en charge des patients.

Note
Remarque

Certains des termes mentionnés ici peuvent sembler inconnus, mais nous les aborderons plus en détail plus loin dans ce cours.

La prétraitement des données et la modélisation peuvent être réalisés avec la bibliothèque scikit-learn (importée sous le nom de sklearn). Les chapitres suivants se concentrent sur les étapes de prétraitement de base et la construction de pipelines. La phase de modélisation est ensuite introduite en utilisant l’algorithme des k plus proches voisins (KNeighborsClassifier dans sklearn) comme exemple. Cela couvre la construction du modèle, l’ajustement des hyperparamètres et l’évaluation des performances.

1. Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

2. Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?

question mark

Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?

Select the correct answer

question mark

Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 5
some-alt