Summary  
This chapter demonstrates how to calculate z-scores for numeric data fields and filter rows that exceed a configurable threshold to identify and remove outliers.

General domain of usage  
Data preprocessing

En vanlig metod för att upptäcka och ta bort avvikare är **z-score-metoden**. Denna teknik identifierar hur långt en datapunkt är från medelvärdet i termer av standardavvikelser. Om en datapunkt ligger utanför en viss tröskel (vanligtvis ±3), betraktas den som en avvikare.

## Vad är ett Z-värde?
Ett z-värde (även känt som standardpoäng) beräknas med formeln:

$$
Z = \frac{X - \mu}{\sigma}
$$

Där:
- $$X$$: det ursprungliga datavärdet;
- $$\mu$$: medelvärdet för datamängden;
- $$\sigma$$: standardavvikelsen för datamängden.

## Beräkning av z-värden
Du kan antingen beräkna z-värden manuellt genom att följa formeln:
```
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
```

Eller använda den inbyggda funktionen:
```
df$cgpa_zscore <- scale(df$cgpa)
```

## Identifiera avvikare
Efter att ha beräknat z-poängen kan du välja en tröskelvärde (±3 i detta fall) och använda en enkel filtreringsoperation för att välja alla poster utanför intervallet:
```
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
```

Eller så kan du välja alla poster inom intervallet för att skapa en dataset utan avvikare:
```
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
```

Vad händer med värden med z-poäng utanför ±3?


Få praktisk erfarenhet av dataanalys med R genom att lära dig att rensa, transformera och visualisera dataset. Utforska viktiga arbetsflöden såsom att välja och filtrera data, hantera saknade värden och sammanfatta resultat. Bygg upp förtroende i att förbereda data för insikter, rapportering och djupare statistisk analys.

Utforska grunderna i dataanalys med R. Lär dig att installera verktyg, ladda och inspektera dataset, välja och filtrera information, sortera och transformera data, hantera saknade värden samt sammanfatta resultat för djupare insikter.

Lär dig att skapa övertygande visualiseringar med ggplot2. Skapa stapeldiagram, histogram, täthetsdiagram och spridningsdiagram, och anpassa samt förfina dem med stilinställningar och facettering för att avslöja djupare insikter i dina data.

Förstärk din förståelse för statistik inom dataanalys. Använd beskrivande mått, identifiera och hantera avvikare samt tillämpa korrelationstekniker med visuella verktyg såsom värmekartor och spridningsdiagram för att upptäcka meningsfulla samband.

Ta Bort Avvikare Med Hjälp Av Z-Score-Metoden

Vad är ett Z-värde?

Beräkning av z-värden

Identifiera avvikare