Uitschieters Verwijderen Met Behulp van de IQR-Methode
Een andere effectieve methode om uitschieters te detecteren en te verwijderen is door gebruik te maken van de interkwartielafstand (IQR)-methode.
Wat is IQR?
De interkwartielafstand (IQR) is een maat voor statistische spreiding en wordt als volgt berekend:
IQR=Q3−Q1Waarbij:
- Q1: 25e percentiel (eerste kwartiel);
- Q3: 75e percentiel (derde kwartiel).
Waarden die lager zijn dan Q1−1.5×IQR of hoger dan Q3+1.5×IQR worden doorgaans als uitschieters beschouwd.
IQR berekenen
Om de IQR-waarde te berekenen en uitschieters te detecteren, moet je eerst de waarden van het 25e en 75e percentiel weten. Deze kunnen worden verkregen met de functie quantile(). Vervolgens kun je de IQR-waarde berekenen volgens de formule.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identificeren van uitschieters
Net als bij de z-score methode moet je de onder- en bovengrenzen bepalen:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Daarna kun je alle uitschieters selecteren om deze te analyseren:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Of een dataset zonder uitschieters creëren:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you explain why the IQR method is preferred for non-normally distributed data?
How do I interpret the results after removing outliers using IQR?
What should I do if my dataset has outliers on both the lower and upper boundaries?
Awesome!
Completion rate improved to 4
Uitschieters Verwijderen Met Behulp van de IQR-Methode
Veeg om het menu te tonen
Een andere effectieve methode om uitschieters te detecteren en te verwijderen is door gebruik te maken van de interkwartielafstand (IQR)-methode.
Wat is IQR?
De interkwartielafstand (IQR) is een maat voor statistische spreiding en wordt als volgt berekend:
IQR=Q3−Q1Waarbij:
- Q1: 25e percentiel (eerste kwartiel);
- Q3: 75e percentiel (derde kwartiel).
Waarden die lager zijn dan Q1−1.5×IQR of hoger dan Q3+1.5×IQR worden doorgaans als uitschieters beschouwd.
IQR berekenen
Om de IQR-waarde te berekenen en uitschieters te detecteren, moet je eerst de waarden van het 25e en 75e percentiel weten. Deze kunnen worden verkregen met de functie quantile(). Vervolgens kun je de IQR-waarde berekenen volgens de formule.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identificeren van uitschieters
Net als bij de z-score methode moet je de onder- en bovengrenzen bepalen:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Daarna kun je alle uitschieters selecteren om deze te analyseren:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Of een dataset zonder uitschieters creëren:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Bedankt voor je feedback!