Apprendre Suppression des Valeurs Aberrantes à l'Aide de la Méthode du Score Z

Une méthode courante pour détecter et supprimer les valeurs aberrantes est la méthode du score z. Cette technique identifie à quelle distance un point de données se situe de la moyenne en termes d'écarts-types. Si un point de données dépasse un certain seuil (généralement ±3), il est considéré comme une valeur aberrante.

Qu'est-ce qu'un score z ?

Un score z (également appelé score standardisé) est calculé à l'aide de la formule :

Z = \frac{X - \mu}{\sigma}

Où :

$X$ : la valeur d'origine du point de données ;
$\mu$ : la moyenne de l'ensemble de données ;
$\sigma$ : l'écart-type de l'ensemble de données.

Calcul du score z

Le calcul du score z peut être effectué manuellement en suivant la formule :

mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa

Ou en utilisant la fonction intégrée :

df$cgpa_zscore <- scale(df$cgpa)

Identification des valeurs aberrantes

Après avoir calculé les z-scores, il est possible de choisir un seuil (±3 dans ce cas) et d'appliquer une opération de filtrage simple pour sélectionner toutes les entrées en dehors de cette plage :

thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]

Ou il est possible de sélectionner toutes les entrées à l'intérieur de la plage afin de créer un jeu de données sans valeurs aberrantes :

df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 3

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu