Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Gestion des Doublons et des Valeurs Aberrantes | Principes Essentiels du Nettoyage des Données
Prétraitement des Données et Ingénierie des Variables

bookGestion des Doublons et des Valeurs Aberrantes

Lors de l'utilisation de jeux de données réels, il est fréquent de rencontrer des enregistrements dupliqués et des valeurs aberrantes. Ces deux éléments peuvent avoir un impact significatif sur l'analyse des données et la performance des modèles d'apprentissage automatique. Les doublons peuvent augmenter artificiellement l'importance de certains motifs, entraînant des résultats biaisés, tandis que les valeurs aberrantes peuvent fausser les résumés statistiques et les prédictions des modèles. L'identification et le traitement appropriés de ces problèmes constituent une étape essentielle du nettoyage des données.

1234567891011121314151617
import pandas as pd import seaborn as sns # Load the Titanic dataset from seaborn df = sns.load_dataset("titanic") # Find duplicate rows in the Titanic dataset duplicates = df.duplicated() print("Duplicate row indicators:") print(duplicates.value_counts()) # Show how many duplicates exist # Remove duplicate rows df_no_duplicates = df.drop_duplicates() print("\nNumber of rows before removing duplicates:") print(len(df)) print("Number of rows after removing duplicates:") print(len(df_no_duplicates))
copy
Note
Définition

Les valeurs aberrantes sont des points de données qui s'écartent de manière significative de la majorité d'un jeu de données. Les méthodes courantes pour détecter les valeurs aberrantes incluent les visualisations (telles que les boîtes à moustaches), les mesures statistiques (comme le Z-score), et la méthode de l'étendue interquartile (IQR).

Z-score et intervalle interquartile (IQR) sont deux mesures statistiques courantes utilisées pour identifier les valeurs aberrantes dans un ensemble de données :

  • Z-score :
    • Mesure le nombre d'écarts-types qui séparent une valeur de la moyenne ;
    • Un Z-score est calculé à l'aide de la formule : (valeur - moyenne) / écart-type ;
    • Les points de données avec des Z-scores supérieurs à 3 ou inférieurs à -3 sont souvent considérés comme des valeurs aberrantes, car ils sont éloignés de la valeur moyenne.
  • Intervalle interquartile (IQR) :
    • Représente l'intervalle entre le premier quartile (Q1, 25e centile) et le troisième quartile (Q3, 75e centile) ;
    • L'IQR est calculé comme Q3 - Q1 ;
    • Les valeurs aberrantes sont généralement définies comme les points de données inférieurs à Q1 - 1,5 * IQR ou supérieurs à Q3 + 1,5 * IQR, ce qui signifie qu'ils se situent en dehors de la dispersion typique des 50 % centraux des données.

Les deux méthodes permettent de mesurer l'écart des valeurs par rapport à l'intervalle attendu. Le Z-score se concentre sur la distance à la moyenne, tandis que l'IQR identifie les valeurs en dehors de la partie centrale de l'ensemble de données.

12345678910111213141516171819202122
import seaborn as sns import pandas as pd # Load the Titanic dataset from seaborn df = sns.load_dataset("titanic") # Drop rows with missing 'fare' values df_fare = df.dropna(subset=["fare"]) # Calculate Q1 and Q3 for the 'fare' column Q1 = df_fare["fare"].quantile(0.25) Q3 = df_fare["fare"].quantile(0.75) IQR = Q3 - Q1 # Define outlier bounds lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Detect outliers in 'fare' outliers = df_fare[(df_fare["fare"] < lower_bound) | (df_fare["fare"] > upper_bound)] print("Outliers detected in 'fare' using IQR method:") print(outliers[["fare"]])
copy
Note
Remarque

Lors du traitement des valeurs aberrantes, il est possible de les supprimer ou de les transformer (par exemple, en plafonnant les valeurs extrêmes ou en appliquant une transformation log). La meilleure approche dépend de votre ensemble de données et des objectifs de votre analyse.

question mark

Lesquelles des affirmations suivantes sont vraies concernant la gestion des doublons et des valeurs aberrantes dans un jeu de données ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 3

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 8.33

bookGestion des Doublons et des Valeurs Aberrantes

Glissez pour afficher le menu

Lors de l'utilisation de jeux de données réels, il est fréquent de rencontrer des enregistrements dupliqués et des valeurs aberrantes. Ces deux éléments peuvent avoir un impact significatif sur l'analyse des données et la performance des modèles d'apprentissage automatique. Les doublons peuvent augmenter artificiellement l'importance de certains motifs, entraînant des résultats biaisés, tandis que les valeurs aberrantes peuvent fausser les résumés statistiques et les prédictions des modèles. L'identification et le traitement appropriés de ces problèmes constituent une étape essentielle du nettoyage des données.

1234567891011121314151617
import pandas as pd import seaborn as sns # Load the Titanic dataset from seaborn df = sns.load_dataset("titanic") # Find duplicate rows in the Titanic dataset duplicates = df.duplicated() print("Duplicate row indicators:") print(duplicates.value_counts()) # Show how many duplicates exist # Remove duplicate rows df_no_duplicates = df.drop_duplicates() print("\nNumber of rows before removing duplicates:") print(len(df)) print("Number of rows after removing duplicates:") print(len(df_no_duplicates))
copy
Note
Définition

Les valeurs aberrantes sont des points de données qui s'écartent de manière significative de la majorité d'un jeu de données. Les méthodes courantes pour détecter les valeurs aberrantes incluent les visualisations (telles que les boîtes à moustaches), les mesures statistiques (comme le Z-score), et la méthode de l'étendue interquartile (IQR).

Z-score et intervalle interquartile (IQR) sont deux mesures statistiques courantes utilisées pour identifier les valeurs aberrantes dans un ensemble de données :

  • Z-score :
    • Mesure le nombre d'écarts-types qui séparent une valeur de la moyenne ;
    • Un Z-score est calculé à l'aide de la formule : (valeur - moyenne) / écart-type ;
    • Les points de données avec des Z-scores supérieurs à 3 ou inférieurs à -3 sont souvent considérés comme des valeurs aberrantes, car ils sont éloignés de la valeur moyenne.
  • Intervalle interquartile (IQR) :
    • Représente l'intervalle entre le premier quartile (Q1, 25e centile) et le troisième quartile (Q3, 75e centile) ;
    • L'IQR est calculé comme Q3 - Q1 ;
    • Les valeurs aberrantes sont généralement définies comme les points de données inférieurs à Q1 - 1,5 * IQR ou supérieurs à Q3 + 1,5 * IQR, ce qui signifie qu'ils se situent en dehors de la dispersion typique des 50 % centraux des données.

Les deux méthodes permettent de mesurer l'écart des valeurs par rapport à l'intervalle attendu. Le Z-score se concentre sur la distance à la moyenne, tandis que l'IQR identifie les valeurs en dehors de la partie centrale de l'ensemble de données.

12345678910111213141516171819202122
import seaborn as sns import pandas as pd # Load the Titanic dataset from seaborn df = sns.load_dataset("titanic") # Drop rows with missing 'fare' values df_fare = df.dropna(subset=["fare"]) # Calculate Q1 and Q3 for the 'fare' column Q1 = df_fare["fare"].quantile(0.25) Q3 = df_fare["fare"].quantile(0.75) IQR = Q3 - Q1 # Define outlier bounds lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # Detect outliers in 'fare' outliers = df_fare[(df_fare["fare"] < lower_bound) | (df_fare["fare"] > upper_bound)] print("Outliers detected in 'fare' using IQR method:") print(outliers[["fare"]])
copy
Note
Remarque

Lors du traitement des valeurs aberrantes, il est possible de les supprimer ou de les transformer (par exemple, en plafonnant les valeurs extrêmes ou en appliquant une transformation log). La meilleure approche dépend de votre ensemble de données et des objectifs de votre analyse.

question mark

Lesquelles des affirmations suivantes sont vraies concernant la gestion des doublons et des valeurs aberrantes dans un jeu de données ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 3
some-alt