Fjernelse af Outliers ved Hjælp af IQR-Metoden
En anden effektiv metode til at identificere og fjerne outliers er ved at anvende interkvartilafstanden (IQR)-metoden.
Hvad er IQR?
Interkvartilafstanden (IQR) er et mål for statistisk spredning og beregnes som:
IQR=Q3−Q1Hvor:
- Q1: 25. percentil (første kvartil);
- Q3: 75. percentil (tredje kvartil).
Værdier, der ligger under Q1−1.5×IQR eller over Q3+1.5×IQR, betragtes typisk som outliers.
Beregning af IQR
For at beregne IQR-værdien og identificere outliers skal du først kende værdierne for 25. og 75. percentil. Disse kan opnås med funktionen quantile(). Derefter kan du beregne IQR-værdien ved at følge formlen.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identifikation af outliers
Ligesom med z-score metoden skal du identificere de nedre og øvre grænser:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Derefter kan du enten vælge alle outliers for at analysere dem:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Eller oprette et datasæt uden outliers:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain why the IQR method is preferred for non-normally distributed data?
How do I interpret the results after removing outliers using IQR?
What should I do if my dataset has outliers on both the lower and upper boundaries?
Awesome!
Completion rate improved to 4
Fjernelse af Outliers ved Hjælp af IQR-Metoden
Stryg for at vise menuen
En anden effektiv metode til at identificere og fjerne outliers er ved at anvende interkvartilafstanden (IQR)-metoden.
Hvad er IQR?
Interkvartilafstanden (IQR) er et mål for statistisk spredning og beregnes som:
IQR=Q3−Q1Hvor:
- Q1: 25. percentil (første kvartil);
- Q3: 75. percentil (tredje kvartil).
Værdier, der ligger under Q1−1.5×IQR eller over Q3+1.5×IQR, betragtes typisk som outliers.
Beregning af IQR
For at beregne IQR-værdien og identificere outliers skal du først kende værdierne for 25. og 75. percentil. Disse kan opnås med funktionen quantile(). Derefter kan du beregne IQR-værdien ved at følge formlen.
q1_placement <- quantile(df$placement_exam_marks, 0.25)
q3_placement <- quantile(df$placement_exam_marks, 0.75)
iqr_placement <- q3_placement - q1_placement
Identifikation af outliers
Ligesom med z-score metoden skal du identificere de nedre og øvre grænser:
Thresh_hold <- 1.5
upper_boundary <- q3_placement + (Thresh_hold * iqr_placement)
lower_boundary <- q1_placement - (Thresh_hold * iqr_placement)
Derefter kan du enten vælge alle outliers for at analysere dem:
df[df$placement_exam_marks > upper_boundary | df$placement_exam_marks < lower_boundary,]
Eller oprette et datasæt uden outliers:
df2 <- df[df$placement_exam_marks <= upper_boundary & df$placement_exam_marks >= lower_boundary,]
Tak for dine kommentarer!