Veeg om het menu te tonen

Uitschieters zijn ongebruikelijke datapunten die aanzienlijk afwijken van het merendeel van de gegevens. Ze kunnen ontstaan door invoerfouten, natuurlijke variatie of zeldzame maar belangrijke gebeurtenissen. Uitschieters kunnen een aanzienlijke invloed hebben op statistische samenvattingen en modellering.

Een enkel grote uitschieter kan bijvoorbeeld het gemiddelde verhogen of de schaal van visualisaties verstoren, wat kan leiden tot misleidende conclusies.

Het begrijpen en detecteren van uitschieters is een cruciale stap in de gegevensvoorbewerking. Afhankelijk van het doel van de analyse kun je ervoor kiezen om uitschieters te behouden, te transformeren of volledig te verwijderen.

Uitschieters visualiseren met dichtheidsplots

Een dichtheidsplot geeft een vloeiende curve weer die de verdeling van een variabele toont. Piekpunten geven aan waar gegevens geconcentreerd zijn, terwijl lange staarten of geïsoleerde bulten kunnen wijzen op uitschieters of scheefheid.

ggplot(df, aes(x = placement_exam_marks)) +
  geom_density(fill = "lightgreen", alpha = 0.7) +
  labs(title = "Density Plot Of Placement Exam Marks",
       x = "Placement",
       y = "Density") +
  theme_minimal()

Scheefheid meten

Scheefheid meet de mate van symmetrie of asymmetrie in een verdeling. Dit helpt vast te stellen of een variabele uitschieters aan één kant van de verdeling heeft.

skewness(df$placement_exam_marks)

Interpretatie van scheefheid

Scheefheid ≈ 0: ongeveer symmetrische verdeling;
Scheefheid > 0: rechts-scheve verdeling;
Scheefheid < 0: links-scheve verdeling;
Scheefheid > 1: sterk rechts-scheve verdeling;
Scheefheid < -1: sterk links-scheve verdeling.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 2

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Introductie tot Uitschieters