Summary  
This chapter demonstrates how to calculate z-scores for a dataset—either manually via the standard formula or using a built-in scaling function—and then apply conditional filtering on those scores to identify and remove outliers beyond a chosen threshold.

General domain of usage  
Data preprocessing in statistical analysis

En almindelig metode til at opdage og fjerne outliers er **z-score metoden**. Denne teknik identificerer, hvor langt et datapunkt er fra gennemsnittet målt i standardafvigelser. Hvis et datapunkt ligger uden for en bestemt grænse (typisk ±3), betragtes det som en outlier.

## Hvad er en Z-score?
En z-score (også kendt som en standard score) beregnes ved hjælp af følgende formel:

$$
Z = \frac{X - \mu}{\sigma}
$$

Hvor:
- $$X$$: det oprindelige datapunkt;
- $$\mu$$: gennemsnittet af datasættet;
- $$\sigma$$: standardafvigelsen for datasættet.

## Beregning af z-scores
Du kan enten beregne z-scores manuelt ved at følge formlen:
```
mean_cgpa <- mean(df$cgpa)
sd_cgpa <- sd(df$cgpa)
df$cgpa_zscore <- (df$cgpa - mean_cgpa) / sd_cgpa
```

Eller du kan bruge den indbyggede funktion:
```
df$cgpa_zscore <- scale(df$cgpa)
```

## Identifikation af outliers
Efter beregning af z-scorer kan du vælge en tærskelværdi (±3 i dette tilfælde) og anvende en simpel filtreringsoperation for at vælge alle poster uden for intervallet:
```
thresh_hold <- 3
outliers <- df[df$cgpa_zscore > thresh_hold | df$cgpa_zscore < -thresh_hold, ]
```

Eller du kan vælge alle poster inden for intervallet for at oprette et datasæt uden outliers:
```
df2 <- df[df$cgpa_zscore < thresh_hold & df$cgpa_zscore > -thresh_hold, ]
```

Download datasæt

Download kapitelkode

Hvad sker der med værdier med z-scorer ud over ±3?


Opnå praktisk erfaring med dataanalyse i R ved at lære at rense, transformere og visualisere datasæt. Udforsk essentielle arbejdsgange såsom udvælgelse og filtrering af data, håndtering af manglende værdier og opsummering af resultater. Opbyg sikkerhed i at forberede data til indsigt, rapportering og dybere statistisk udforskning.

Udforsk grundlæggende principper for dataanalyse med R. Lær at installere værktøjer, indlæse og inspicere datasæt, udvælge og filtrere information, sortere og transformere data, håndtere manglende værdier samt opsummere resultater for dybere indsigt.

Lær at skabe overbevisende visualiseringer med ggplot2. Opbyg søjlediagrammer, histogrammer, tæthedsplot og spredningsdiagrammer, og tilpas og forfin dem med stylingmuligheder og facettering for at afdække dybere indsigter i dine data.

Styrk din forståelse af statistik til dataanalyse. Anvend beskrivende mål, identificer og håndter outliers, og brug korrelationsteknikker med visuelle værktøjer som varmekort og spredningsdiagrammer for at afdække meningsfulde sammenhænge.

Fjernelse af Outliers ved Hjælp af Z-Score-Metoden

Hvad er en Z-score?

Beregning af z-scores

Identifikation af outliers