Flux de Travail en Apprentissage Automatique
Examinons le flux de travail à suivre pour mener à bien un projet d'apprentissage automatique.
Étape 1. Collecte des données
Définition du problème, choix d'une métrique de performance et détermination des critères de réussite. Collecte des données nécessaires à partir des sources disponibles et mise en forme adaptée à Python. Si les données existent déjà dans un fichier CSV, le prétraitement peut commencer immédiatement.
Exemple
Un hôpital compile les dossiers et données démographiques des patients dans un fichier CSV. L'objectif est de prédire les réadmissions, avec un objectif de plus de 80% de précision.
Étape 2. Prétraitement des données
Cette étape comprend :
- Nettoyage des données : gestion des valeurs manquantes et des entrées non numériques ;
- EDA : analyse et visualisation des données pour comprendre les relations et détecter les problèmes ;
- Ingénierie des caractéristiques : sélection ou création de variables améliorant la performance du modèle.
Exemple
Les valeurs manquantes (par exemple, la pression artérielle) sont complétées et les variables catégorielles (par exemple, la race) sont converties en format numérique.
Étape 3. Modélisation
Cette étape comprend :
- Choix d’un modèle en fonction du type de problème et des expérimentations ;
- Ajustement des hyperparamètres pour améliorer la performance ;
- Évaluation du modèle sur des données non vues.
Les hyperparamètres sont comme des réglages ajustables qui définissent la manière dont le modèle s’entraîne—tels que la durée d’entraînement ou la complexité du modèle.
Exemple
Un modèle de classification est sélectionné pour prédire la réadmission (oui/non). Après ajustement, il est évalué sur un ensemble de validation/test afin d’évaluer la généralisation.
Étape 4. Déploiement
Une fois qu’un modèle offre de bonnes performances, il est déployé dans des systèmes réels. Le modèle doit être surveillé, mis à jour avec de nouvelles données et amélioré au fil du temps, ce qui implique souvent de recommencer le cycle à partir de l’étape 1.
Exemple
Le modèle est intégré au système hospitalier pour signaler les patients à haut risque lors de l’admission, aidant ainsi le personnel à intervenir rapidement.
Certains des termes mentionnés ici peuvent sembler inconnus, mais nous les aborderons plus en détail plus loin dans ce cours.
Le prétraitement des données et la modélisation peuvent être réalisés avec scikit-learn. Les prochains chapitres présentent les workflows de prétraitement et les pipelines, suivis de la modélisation avec k-nearest neighbors (KNeighborsClassifier), incluant l’entraînement, l’ajustement et l’évaluation.
1. Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?
2. Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain more about data preprocessing steps?
What is feature engineering and why is it important?
How does KNeighborsClassifier work in machine learning?
Génial!
Completion taux amélioré à 3.13
Flux de Travail en Apprentissage Automatique
Glissez pour afficher le menu
Examinons le flux de travail à suivre pour mener à bien un projet d'apprentissage automatique.
Étape 1. Collecte des données
Définition du problème, choix d'une métrique de performance et détermination des critères de réussite. Collecte des données nécessaires à partir des sources disponibles et mise en forme adaptée à Python. Si les données existent déjà dans un fichier CSV, le prétraitement peut commencer immédiatement.
Exemple
Un hôpital compile les dossiers et données démographiques des patients dans un fichier CSV. L'objectif est de prédire les réadmissions, avec un objectif de plus de 80% de précision.
Étape 2. Prétraitement des données
Cette étape comprend :
- Nettoyage des données : gestion des valeurs manquantes et des entrées non numériques ;
- EDA : analyse et visualisation des données pour comprendre les relations et détecter les problèmes ;
- Ingénierie des caractéristiques : sélection ou création de variables améliorant la performance du modèle.
Exemple
Les valeurs manquantes (par exemple, la pression artérielle) sont complétées et les variables catégorielles (par exemple, la race) sont converties en format numérique.
Étape 3. Modélisation
Cette étape comprend :
- Choix d’un modèle en fonction du type de problème et des expérimentations ;
- Ajustement des hyperparamètres pour améliorer la performance ;
- Évaluation du modèle sur des données non vues.
Les hyperparamètres sont comme des réglages ajustables qui définissent la manière dont le modèle s’entraîne—tels que la durée d’entraînement ou la complexité du modèle.
Exemple
Un modèle de classification est sélectionné pour prédire la réadmission (oui/non). Après ajustement, il est évalué sur un ensemble de validation/test afin d’évaluer la généralisation.
Étape 4. Déploiement
Une fois qu’un modèle offre de bonnes performances, il est déployé dans des systèmes réels. Le modèle doit être surveillé, mis à jour avec de nouvelles données et amélioré au fil du temps, ce qui implique souvent de recommencer le cycle à partir de l’étape 1.
Exemple
Le modèle est intégré au système hospitalier pour signaler les patients à haut risque lors de l’admission, aidant ainsi le personnel à intervenir rapidement.
Certains des termes mentionnés ici peuvent sembler inconnus, mais nous les aborderons plus en détail plus loin dans ce cours.
Le prétraitement des données et la modélisation peuvent être réalisés avec scikit-learn. Les prochains chapitres présentent les workflows de prétraitement et les pipelines, suivis de la modélisation avec k-nearest neighbors (KNeighborsClassifier), incluant l’entraînement, l’ajustement et l’évaluation.
1. Quel est l'objectif principal de l'étape « Obtenir les données » dans un projet d'apprentissage automatique ?
2. Laquelle des propositions suivantes décrit le mieux l'importance de l'étape « Prétraitement des données » dans le flux de travail d'un projet d'apprentissage automatique ?
Merci pour vos commentaires !