Glissez pour afficher le menu

Les principes fondamentaux du prétraitement des données et de la construction de pipelines ont maintenant été abordés. L'étape suivante est la modélisation.

Un modèle dans Scikit-learn est un estimateur qui fournit les méthodes .predict() et .score(), ainsi que .fit() héritée de tous les estimateurs.

.fit()

Une fois que les données sont prétraitées et prêtes à être utilisées par le modèle, la première étape de la construction d’un modèle est l’entraînement du modèle. Cela se fait à l’aide de la méthode .fit(X, y).

Remarque

Pour l’apprentissage supervisé (régression, classification), .fit() nécessite à la fois X et y. Pour l’apprentissage non supervisé (par exemple, le clustering), il suffit d’appeler .fit(X). Passer y ne provoque pas d’erreur — il est simplement ignoré.

Pendant l’entraînement, le modèle apprend les motifs nécessaires à la prédiction. Ce qu’il apprend et la durée de l’entraînement dépendent de l’algorithme utilisé. L’entraînement est souvent la partie la plus lente du machine learning, en particulier avec de grands ensembles de données.

.predict()

Après l'entraînement, utilisation de .predict() pour générer des prédictions :

model.fit(X, y)
y_pred = model.predict(X_new)

.score()

.score() évalue un modèle entraîné, généralement sur un jeu de test :

model.fit(X, y)
model.score(X_test, y_test)

Comparaison des prédictions avec les vraies cibles. Par défaut, la métrique est la précision pour la classification.

Remarque

X_test fait référence à la sous-partie du jeu de données, appelée jeu de test, utilisée pour évaluer la performance d'un modèle après l'entraînement. Elle contient les caractéristiques (données d'entrée). y_test est la sous-partie correspondante des vraies étiquettes pour X_test. Ensemble, ils permettent d'évaluer la capacité du modèle à prédire de nouvelles données non vues.

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Modèles

Les principes fondamentaux du prétraitement des données et de la construction de pipelines ont maintenant été abordés. L'étape suivante est la modélisation.

Un modèle dans Scikit-learn est un estimateur qui fournit les méthodes .predict() et .score(), ainsi que .fit() héritée de tous les estimateurs.

.fit()

Remarque

.predict()

Après l'entraînement, utilisation de .predict() pour générer des prédictions :

model.fit(X, y)
y_pred = model.predict(X_new)

.score()

.score() évalue un modèle entraîné, généralement sur un jeu de test :

model.fit(X, y)
model.score(X_test, y_test)

Comparaison des prédictions avec les vraies cibles. Par défaut, la métrique est la précision pour la classification.

Remarque

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 1