Apprendre Gestion des Doublons et des Valeurs Aberrantes | Principes Essentiels du Nettoyage des Données

Lors de l'utilisation de jeux de données réels, il est fréquent de rencontrer des enregistrements dupliqués et des valeurs aberrantes. Ces deux éléments peuvent avoir un impact significatif sur l'analyse des données et la performance des modèles d'apprentissage automatique. Les doublons peuvent augmenter artificiellement l'importance de certains motifs, entraînant des résultats biaisés, tandis que les valeurs aberrantes peuvent fausser les résumés statistiques et les prédictions des modèles. L'identification et le traitement appropriés de ces problèmes constituent une étape essentielle du nettoyage des données.


              1234567891011121314151617
            
import pandas as pd
import seaborn as sns

# Load the Titanic dataset from seaborn
df = sns.load_dataset("titanic")

# Find duplicate rows in the Titanic dataset
duplicates = df.duplicated()
print("Duplicate row indicators:")
print(duplicates.value_counts())  # Show how many duplicates exist

# Remove duplicate rows
df_no_duplicates = df.drop_duplicates()
print("\nNumber of rows before removing duplicates:")
print(len(df))
print("Number of rows after removing duplicates:")
print(len(df_no_duplicates))

Définition

Les valeurs aberrantes sont des points de données qui s'écartent de manière significative de la majorité d'un jeu de données. Les méthodes courantes pour détecter les valeurs aberrantes incluent les visualisations (telles que les boîtes à moustaches), les mesures statistiques (comme le Z-score), et la méthode de l'étendue interquartile (IQR).

Z-score et intervalle interquartile (IQR) sont deux mesures statistiques courantes utilisées pour identifier les valeurs aberrantes dans un ensemble de données :

Z-score :
- Mesure le nombre d'écarts-types qui séparent une valeur de la moyenne ;
- Un Z-score est calculé à l'aide de la formule : (valeur - moyenne) / écart-type ;
- Les points de données avec des Z-scores supérieurs à 3 ou inférieurs à -3 sont souvent considérés comme des valeurs aberrantes, car ils sont éloignés de la valeur moyenne.
Intervalle interquartile (IQR) :
- Représente l'intervalle entre le premier quartile (Q1, 25e centile) et le troisième quartile (Q3, 75e centile) ;
- L'IQR est calculé comme Q3 - Q1 ;
- Les valeurs aberrantes sont généralement définies comme les points de données inférieurs à Q1 - 1,5 * IQR ou supérieurs à Q3 + 1,5 * IQR, ce qui signifie qu'ils se situent en dehors de la dispersion typique des 50 % centraux des données.

Les deux méthodes permettent de mesurer l'écart des valeurs par rapport à l'intervalle attendu. Le Z-score se concentre sur la distance à la moyenne, tandis que l'IQR identifie les valeurs en dehors de la partie centrale de l'ensemble de données.


              12345678910111213141516171819202122
            
import seaborn as sns
import pandas as pd

# Load the Titanic dataset from seaborn
df = sns.load_dataset("titanic")

# Drop rows with missing 'fare' values
df_fare = df.dropna(subset=["fare"])

# Calculate Q1 and Q3 for the 'fare' column
Q1 = df_fare["fare"].quantile(0.25)
Q3 = df_fare["fare"].quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Detect outliers in 'fare'
outliers = df_fare[(df_fare["fare"] < lower_bound) | (df_fare["fare"] > upper_bound)]
print("Outliers detected in 'fare' using IQR method:")
print(outliers[["fare"]])

Remarque

Lors du traitement des valeurs aberrantes, il est possible de les supprimer ou de les transformer (par exemple, en plafonnant les valeurs extrêmes ou en appliquant une transformation log). La meilleure approche dépend de votre ensemble de données et des objectifs de votre analyse.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu


              1234567891011121314151617
            
import pandas as pd
import seaborn as sns

# Load the Titanic dataset from seaborn
df = sns.load_dataset("titanic")

# Find duplicate rows in the Titanic dataset
duplicates = df.duplicated()
print("Duplicate row indicators:")
print(duplicates.value_counts())  # Show how many duplicates exist

# Remove duplicate rows
df_no_duplicates = df.drop_duplicates()
print("\nNumber of rows before removing duplicates:")
print(len(df))
print("Number of rows after removing duplicates:")
print(len(df_no_duplicates))