Summary  
This chapter covers detecting and characterizing outliers by visualizing data distributions with density plots and computing skewness to distinguish between symmetric and skewed datasets.

General domain of usage  
Academic performance data analysis

**Outliers** er usædvanlige datapunkter, der adskiller sig markant fra størstedelen af dataene. De kan opstå på grund af indtastningsfejl, naturlig variation eller sjældne, men vigtige hændelser. Outliers kan have en væsentlig indflydelse på statistiske sammenfatninger og modellering.

For eksempel kan en enkelt stor outlier forøge gennemsnittet eller forvride skalaen i visualiseringer, hvilket kan føre til vildledende konklusioner.

Forståelse og **detektion af outliers** er et kritisk trin i datapreprocessering. Afhængigt af formålet med analysen kan du vælge at beholde, transformere eller helt fjerne outliers.

## Visualisering af outliers med tæthedsplots
Et tæthedsplot giver en glat kurve, der viser fordelingen af en variabel. Toppe indikerer, hvor data er koncentreret, mens lange haler eller isolerede bump kan antyde outliers eller skævhed.

```
ggplot(df, aes(x = placement_exam_marks)) +
  geom_density(fill = "lightgreen", alpha = 0.7) +
  labs(title = "Density Plot Of Placement Exam Marks",
       x = "Placement",
       y = "Density") +
  theme_minimal()
```

## Måling af skævhed
Skævhed måler graden af symmetri eller asymmetri i en fordeling. Dette hjælper med at opdage, om en variabel har outliers på den ene side af fordelingen.

```
skewness(df$placement_exam_marks)
```

## Fortolkning af skævhed
- **Skævhed ≈ 0**: omtrent symmetrisk fordeling;
- **Skævhed > 0**: højreskæv fordeling;
- **Skævhed < 0**: venstreskæv fordeling;
- **Skævhed > 1**: kraftigt højreskæv fordeling;
- **Skævhed < -1**: kraftigt venstreskæv fordeling.

Hvis en variabel har en `skewness > 1`, betragtes den som:


Opnå praktisk erfaring med dataanalyse i R ved at lære at rense, transformere og visualisere datasæt. Udforsk essentielle arbejdsgange såsom udvælgelse og filtrering af data, håndtering af manglende værdier og opsummering af resultater. Opbyg sikkerhed i at forberede data til indsigt, rapportering og dybere statistisk udforskning.

Udforsk grundlæggende principper for dataanalyse med R. Lær at installere værktøjer, indlæse og inspicere datasæt, udvælge og filtrere information, sortere og transformere data, håndtere manglende værdier samt opsummere resultater for dybere indsigt.

Lær at skabe overbevisende visualiseringer med ggplot2. Opbyg søjlediagrammer, histogrammer, tæthedsplot og spredningsdiagrammer, og tilpas og forfin dem med stylingmuligheder og facettering for at afdække dybere indsigter i dine data.

Styrk din forståelse af statistik til dataanalyse. Anvend beskrivende mål, identificer og håndter outliers, og brug korrelationsteknikker med visuelle værktøjer som varmekort og spredningsdiagrammer for at afdække meningsfulde sammenhænge.

Introduktion til Outliers

Visualisering af outliers med tæthedsplots

Måling af skævhed

Fortolkning af skævhed

Awesome!

Introduktion til Outliers

Visualisering af outliers med tæthedsplots

Måling af skævhed

Fortolkning af skævhed