Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Modèles | Modélisation
Introduction à l'Apprentissage Automatique avec Python

bookModèles

Les bases du prétraitement des données et de la construction de pipelines ont maintenant été abordées. L'étape suivante est la modélisation.

Un modèle dans Scikit-learn est un estimateur qui fournit les méthodes .predict() et .score(), ainsi que .fit() héritée de tous les estimateurs.

.fit()

Une fois les données prétraitées et prêtes à être utilisées par le modèle, la première étape de la construction d'un modèle est l'entraînement du modèle. Cela se fait à l'aide de .fit(X, y).

Note
Remarque

Pour l'apprentissage supervisé (régression, classification), .fit() nécessite à la fois X et y. Pour l'apprentissage non supervisé (par exemple, le clustering), il suffit d'appeler .fit(X). Passer y ne provoque pas d'erreur — il est simplement ignoré.

Pendant l'entraînement, le modèle apprend les motifs nécessaires à la prédiction. Ce qu'il apprend et la durée de l'entraînement dépendent de l'algorithme. L'entraînement est souvent la phase la plus lente de l'apprentissage automatique, en particulier avec de grands ensembles de données.

.predict()

Après l'entraînement, utiliser .predict() pour générer des prédictions :

model.fit(X, y)
y_pred = model.predict(X_new)

.score()

.score() évalue un modèle entraîné, généralement sur un jeu de test :

model.fit(X, y)
model.score(X_test, y_test)

Il compare les prédictions aux vraies cibles. Par défaut, la métrique utilisée est la précision pour la classification.

Note
Remarque

X_test désigne la partie du jeu de données, appelée jeu de test, utilisée pour évaluer la performance d’un modèle après l’entraînement. Elle contient les caractéristiques (données d’entrée). y_test est la partie correspondante des vraies étiquettes pour X_test. Ensemble, ils permettent d’évaluer la capacité du modèle à prédire de nouvelles données non vues.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

What are some common algorithms used for modeling in Scikit-learn?

Can you explain the difference between `.fit()`, `.predict()`, and `.score()` in more detail?

How do I choose which metric to use for evaluating my model?

bookModèles

Glissez pour afficher le menu

Les bases du prétraitement des données et de la construction de pipelines ont maintenant été abordées. L'étape suivante est la modélisation.

Un modèle dans Scikit-learn est un estimateur qui fournit les méthodes .predict() et .score(), ainsi que .fit() héritée de tous les estimateurs.

.fit()

Une fois les données prétraitées et prêtes à être utilisées par le modèle, la première étape de la construction d'un modèle est l'entraînement du modèle. Cela se fait à l'aide de .fit(X, y).

Note
Remarque

Pour l'apprentissage supervisé (régression, classification), .fit() nécessite à la fois X et y. Pour l'apprentissage non supervisé (par exemple, le clustering), il suffit d'appeler .fit(X). Passer y ne provoque pas d'erreur — il est simplement ignoré.

Pendant l'entraînement, le modèle apprend les motifs nécessaires à la prédiction. Ce qu'il apprend et la durée de l'entraînement dépendent de l'algorithme. L'entraînement est souvent la phase la plus lente de l'apprentissage automatique, en particulier avec de grands ensembles de données.

.predict()

Après l'entraînement, utiliser .predict() pour générer des prédictions :

model.fit(X, y)
y_pred = model.predict(X_new)

.score()

.score() évalue un modèle entraîné, généralement sur un jeu de test :

model.fit(X, y)
model.score(X_test, y_test)

Il compare les prédictions aux vraies cibles. Par défaut, la métrique utilisée est la précision pour la classification.

Note
Remarque

X_test désigne la partie du jeu de données, appelée jeu de test, utilisée pour évaluer la performance d’un modèle après l’entraînement. Elle contient les caractéristiques (données d’entrée). y_test est la partie correspondante des vraies étiquettes pour X_test. Ensemble, ils permettent d’évaluer la capacité du modèle à prédire de nouvelles données non vues.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 1
some-alt