Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Modèles | Modélisation
Introduction au ML Avec Scikit-Learn

bookModèles

Les bases du prétraitement des données et de la construction de pipelines ont maintenant été abordées. L'étape suivante est la modélisation.

Un modèle dans Scikit-learn est un estimateur qui fournit les méthodes .predict() et .score(), ainsi que .fit() héritée de tous les estimateurs.

.fit()

Une fois les données prétraitées et prêtes à être utilisées par le modèle, la première étape de la construction d'un modèle est l'entraînement du modèle. Cela se fait à l'aide de .fit(X, y).

Note
Remarque

Pour entraîner un modèle effectuant une tâche d’apprentissage supervisé (par exemple, régression, classification), il est nécessaire de fournir à la méthode X à la fois y et .fit().

Dans le cas d’une tâche d’apprentissage non supervisé (par exemple, clustering), il n’est pas nécessaire d’avoir des données étiquetées, il suffit donc de passer uniquement la variable X, .fit(X). Cependant, utiliser .fit(X, y) ne générera pas d’erreur. Le modèle va simplement ignorer la variable y.

Lors de l’entraînement, un modèle apprend tout ce dont il a besoin pour effectuer des prédictions. Ce que le modèle apprend et la durée de l’entraînement dépendent de l’algorithme choisi. Pour chaque tâche, de nombreux modèles sont disponibles, basés sur différents algorithmes. Certains s’entraînent plus lentement, d’autres plus rapidement.

Cependant, l’entraînement constitue généralement l’aspect le plus chronophage de l’apprentissage automatique. Si l’ensemble d’entraînement est volumineux, un modèle peut nécessiter plusieurs minutes, heures, voire jours pour s’entraîner.

.predict()

Une fois le modèle entraîné à l’aide de la méthode .fit(), il peut effectuer des prédictions. Prédire est aussi simple que d’appeler la méthode .predict() :

model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction

En général, il s’agit de prédire une cible pour de nouvelles instances, X_new.

.score()

La méthode .score() est utilisée pour mesurer la performance d’un modèle entraîné. Elle est généralement calculée sur le jeu de test (les chapitres suivants expliqueront ce que c’est). Voici la syntaxe :

model.fit(X, y) # Training the model
model.score(X_test, y_test)

La méthode .score() nécessite les valeurs cibles réelles (y_test dans l’exemple). Elle calcule la prédiction pour les instances X_test et compare cette prédiction avec la véritable cible (y_test) à l’aide d’une métrique. Par défaut, cette métrique est la précision pour la classification.

Note
Remarque

X_test fait référence à la sous-partie du jeu de données, appelée jeu de test, utilisée pour évaluer la performance d’un modèle après l’entraînement. Elle contient les caractéristiques (données d’entrée). y_test est la sous-partie correspondante des vraies étiquettes pour X_test. Ensemble, ils permettent d’évaluer la capacité du modèle à prédire de nouvelles données non vues.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 3.13

bookModèles

Glissez pour afficher le menu

Les bases du prétraitement des données et de la construction de pipelines ont maintenant été abordées. L'étape suivante est la modélisation.

Un modèle dans Scikit-learn est un estimateur qui fournit les méthodes .predict() et .score(), ainsi que .fit() héritée de tous les estimateurs.

.fit()

Une fois les données prétraitées et prêtes à être utilisées par le modèle, la première étape de la construction d'un modèle est l'entraînement du modèle. Cela se fait à l'aide de .fit(X, y).

Note
Remarque

Pour entraîner un modèle effectuant une tâche d’apprentissage supervisé (par exemple, régression, classification), il est nécessaire de fournir à la méthode X à la fois y et .fit().

Dans le cas d’une tâche d’apprentissage non supervisé (par exemple, clustering), il n’est pas nécessaire d’avoir des données étiquetées, il suffit donc de passer uniquement la variable X, .fit(X). Cependant, utiliser .fit(X, y) ne générera pas d’erreur. Le modèle va simplement ignorer la variable y.

Lors de l’entraînement, un modèle apprend tout ce dont il a besoin pour effectuer des prédictions. Ce que le modèle apprend et la durée de l’entraînement dépendent de l’algorithme choisi. Pour chaque tâche, de nombreux modèles sont disponibles, basés sur différents algorithmes. Certains s’entraînent plus lentement, d’autres plus rapidement.

Cependant, l’entraînement constitue généralement l’aspect le plus chronophage de l’apprentissage automatique. Si l’ensemble d’entraînement est volumineux, un modèle peut nécessiter plusieurs minutes, heures, voire jours pour s’entraîner.

.predict()

Une fois le modèle entraîné à l’aide de la méthode .fit(), il peut effectuer des prédictions. Prédire est aussi simple que d’appeler la méthode .predict() :

model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction

En général, il s’agit de prédire une cible pour de nouvelles instances, X_new.

.score()

La méthode .score() est utilisée pour mesurer la performance d’un modèle entraîné. Elle est généralement calculée sur le jeu de test (les chapitres suivants expliqueront ce que c’est). Voici la syntaxe :

model.fit(X, y) # Training the model
model.score(X_test, y_test)

La méthode .score() nécessite les valeurs cibles réelles (y_test dans l’exemple). Elle calcule la prédiction pour les instances X_test et compare cette prédiction avec la véritable cible (y_test) à l’aide d’une métrique. Par défaut, cette métrique est la précision pour la classification.

Note
Remarque

X_test fait référence à la sous-partie du jeu de données, appelée jeu de test, utilisée pour évaluer la performance d’un modèle après l’entraînement. Elle contient les caractéristiques (données d’entrée). y_test est la sous-partie correspondante des vraies étiquettes pour X_test. Ensemble, ils permettent d’évaluer la capacité du modèle à prédire de nouvelles données non vues.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 1
some-alt