Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Types de Données | Concepts de l'Apprentissage Automatique
Introduction au ML Avec Scikit-Learn

bookTypes de Données

Chaque colonne (caractéristique) dans un ensemble d'entraînement possède un type de données qui lui est associé. Ces types de données peuvent être regroupés en numériques, catégoriques et date et/ou heure.

La plupart des algorithmes de ML fonctionnent efficacement uniquement avec des données numériques, il est donc nécessaire de convertir les valeurs catégoriques et de date/heure en nombres.

Pour les données de date et d'heure, des caractéristiques telles que 'year', 'month' et similaires peuvent être extraites, selon la tâche. Ce sont déjà des valeurs numériques, elles peuvent donc être utilisées directement.

Les données catégoriques sont un peu plus complexes à traiter.

Types de données catégorielles

Les données catégorielles sont classées en deux types :

  • Données ordinales : type de données catégorielles dans lesquelles les catégories suivent un ordre naturel. Par exemple, le niveau d'éducation (de l'école primaire au doctorat) ou les évaluations (de très mauvais à très bon), etc. ;

  • Données nominales : type de données catégorielles qui ne suivent aucun ordre naturel. Par exemple, le nom, le genre, le pays d'origine, etc.

La conversion des types de données ordinales et nominales en valeurs numériques nécessite des approches différentes, elles doivent donc être traitées séparément.

Note
Approfondir

Il existe de meilleures méthodes pour convertir les dates en valeurs numériques, mais elles dépassent le cadre de ce cours d'introduction. Par exemple, si l'on utilise uniquement la caractéristique 'month', cela ne prend pas en compte que le 12e mois est en réalité plus proche du 1er que du 9e.

question-icon

Associer la caractéristique à son type de donnée.

Price (100, 235) –
Color (blue, orange) –

Academic grades (A, B, C, and so on) –

Click or drag`n`drop items and fill in the blanks

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain how to convert ordinal data into numerical values?

What are the common methods for encoding nominal data?

Why do machine learning algorithms require numerical data?

Awesome!

Completion rate improved to 3.13

bookTypes de Données

Glissez pour afficher le menu

Chaque colonne (caractéristique) dans un ensemble d'entraînement possède un type de données qui lui est associé. Ces types de données peuvent être regroupés en numériques, catégoriques et date et/ou heure.

La plupart des algorithmes de ML fonctionnent efficacement uniquement avec des données numériques, il est donc nécessaire de convertir les valeurs catégoriques et de date/heure en nombres.

Pour les données de date et d'heure, des caractéristiques telles que 'year', 'month' et similaires peuvent être extraites, selon la tâche. Ce sont déjà des valeurs numériques, elles peuvent donc être utilisées directement.

Les données catégoriques sont un peu plus complexes à traiter.

Types de données catégorielles

Les données catégorielles sont classées en deux types :

  • Données ordinales : type de données catégorielles dans lesquelles les catégories suivent un ordre naturel. Par exemple, le niveau d'éducation (de l'école primaire au doctorat) ou les évaluations (de très mauvais à très bon), etc. ;

  • Données nominales : type de données catégorielles qui ne suivent aucun ordre naturel. Par exemple, le nom, le genre, le pays d'origine, etc.

La conversion des types de données ordinales et nominales en valeurs numériques nécessite des approches différentes, elles doivent donc être traitées séparément.

Note
Approfondir

Il existe de meilleures méthodes pour convertir les dates en valeurs numériques, mais elles dépassent le cadre de ce cours d'introduction. Par exemple, si l'on utilise uniquement la caractéristique 'month', cela ne prend pas en compte que le 12e mois est en réalité plus proche du 1er que du 9e.

question-icon

Associer la caractéristique à son type de donnée.

Price (100, 235) –
Color (blue, orange) –

Academic grades (A, B, C, and so on) –

Click or drag`n`drop items and fill in the blanks

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 4
some-alt