Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Types de Données | Concepts de l'Apprentissage Automatique
Introduction au ML avec Scikit-learn

bookTypes de Données

Chaque colonne (caractéristique) dans un ensemble d'entraînement possède un type de données qui lui est associé. Ces types de données peuvent être regroupés en numériques, catégoriques et date et/ou heure.

La plupart des algorithmes d'apprentissage automatique fonctionnent efficacement uniquement avec des données numériques, il est donc nécessaire de convertir les valeurs catégoriques et de type date/heure en nombres.

Pour les données de date et d'heure, il est possible d'extraire des caractéristiques telles que 'year', 'month' et similaires, selon la tâche. Celles-ci sont déjà des valeurs numériques et peuvent donc être utilisées directement.

Les données catégoriques sont un peu plus complexes à traiter.

Types de données catégorielles

Les données catégorielles sont classées en deux types :

  • Données ordinales : type de données catégorielles dans lesquelles les catégories suivent un ordre naturel. Par exemple, niveau d'éducation (de l'école primaire au doctorat) ou évaluations (de très mauvais à très bon), etc. ;

  • Données nominales : type de données catégorielles qui ne suivent aucun ordre naturel. Par exemple, nom, genre, pays d'origine, etc.

La conversion des types de données ordinales et nominales en valeurs numériques nécessite des approches différentes, il convient donc de les traiter séparément.

Note
Approfondir

Il existe de meilleures méthodes pour convertir les dates en valeurs numériques, qui dépassent le cadre de ce cours d'introduction. Par exemple, si l'on utilise uniquement la caractéristique 'month', cela ne prend pas en compte que le 12e mois est en réalité plus proche du 1er que du 9e.

question-icon

Associer la caractéristique à son type de donnée.

Price (100, 235) –
Color (blue, orange) –

Academic grades (A, B, C, and so on) –

Click or drag`n`drop items and fill in the blanks

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain how to convert ordinal data into numerical values?

What are the common methods for encoding nominal data?

Why do machine learning algorithms require numerical data?

Awesome!

Completion rate improved to 3.13

bookTypes de Données

Glissez pour afficher le menu

Chaque colonne (caractéristique) dans un ensemble d'entraînement possède un type de données qui lui est associé. Ces types de données peuvent être regroupés en numériques, catégoriques et date et/ou heure.

La plupart des algorithmes d'apprentissage automatique fonctionnent efficacement uniquement avec des données numériques, il est donc nécessaire de convertir les valeurs catégoriques et de type date/heure en nombres.

Pour les données de date et d'heure, il est possible d'extraire des caractéristiques telles que 'year', 'month' et similaires, selon la tâche. Celles-ci sont déjà des valeurs numériques et peuvent donc être utilisées directement.

Les données catégoriques sont un peu plus complexes à traiter.

Types de données catégorielles

Les données catégorielles sont classées en deux types :

  • Données ordinales : type de données catégorielles dans lesquelles les catégories suivent un ordre naturel. Par exemple, niveau d'éducation (de l'école primaire au doctorat) ou évaluations (de très mauvais à très bon), etc. ;

  • Données nominales : type de données catégorielles qui ne suivent aucun ordre naturel. Par exemple, nom, genre, pays d'origine, etc.

La conversion des types de données ordinales et nominales en valeurs numériques nécessite des approches différentes, il convient donc de les traiter séparément.

Note
Approfondir

Il existe de meilleures méthodes pour convertir les dates en valeurs numériques, qui dépassent le cadre de ce cours d'introduction. Par exemple, si l'on utilise uniquement la caractéristique 'month', cela ne prend pas en compte que le 12e mois est en réalité plus proche du 1er que du 9e.

question-icon

Associer la caractéristique à son type de donnée.

Price (100, 235) –
Color (blue, orange) –

Academic grades (A, B, C, and so on) –

Click or drag`n`drop items and fill in the blanks

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 4
some-alt