Glissez pour afficher le menu

Les valeurs aberrantes sont des points de données inhabituels qui diffèrent de manière significative de la majorité des données. Elles peuvent survenir en raison d'erreurs de saisie, de variations naturelles ou d'événements rares mais importants. Les valeurs aberrantes peuvent avoir un impact considérable sur les résumés statistiques et la modélisation.

Par exemple, une seule valeur aberrante importante peut augmenter la moyenne ou fausser l'échelle des visualisations, conduisant à des conclusions trompeuses.

Comprendre et détecter les valeurs aberrantes constitue une étape essentielle dans le prétraitement des données. Selon l'objectif de l'analyse, il est possible de conserver, transformer ou supprimer complètement les valeurs aberrantes.

Visualisation des valeurs aberrantes avec des graphiques de densité

Un graphique de densité fournit une courbe lisse qui montre la distribution d'une variable. Les pics indiquent où les données sont concentrées, tandis que les longues queues ou les bosses isolées peuvent indiquer la présence de valeurs aberrantes ou d'asymétrie.

ggplot(df, aes(x = placement_exam_marks)) +
  geom_density(fill = "lightgreen", alpha = 0.7) +
  labs(title = "Density Plot Of Placement Exam Marks",
       x = "Placement",
       y = "Density") +
  theme_minimal()

Mesure de l'asymétrie

L'asymétrie mesure le degré de symétrie ou d'asymétrie d'une distribution. Cela permet de détecter si une variable présente des valeurs aberrantes d'un côté de la distribution.

skewness(df$placement_exam_marks)

Interprétation de l'asymétrie

Asymétrie ≈ 0 : distribution approximativement symétrique ;
Asymétrie > 0 : distribution asymétrique à droite ;
Asymétrie < 0 : distribution asymétrique à gauche ;
Asymétrie > 1 : distribution fortement asymétrique à droite ;
Asymétrie < -1 : distribution fortement asymétrique à gauche.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 2

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Introduction aux valeurs aberrantes