Summary  
This chapter covers how to compute and display descriptive statistics for entire datasets, individual columns, and grouped subsets—using both base functions (e.g., summary(), mean(), aggregate()) and dplyr verbs (group_by(), summarise())—while handling missing values and converting data types as needed.

General domain of usage  
Exploratory data analysis

**Opsummering af data** er afgørende for hurtigt at få forståelse for datastrukturen og mønstre.

## Hurtig oversigt over datasættet
Før du udfører en detaljeret analyse, er det nyttigt at generere et hurtigt overblik over datasættet. Dette hjælper med at forstå intervaller, fordelinger og tilstedeværelsen af kategoriske værdier ved første øjekast. Du kan bruge funktionen `summary()` til dette.
```
summary(df)
```

## Sammendrag af statistikker for en enkelt kolonne
Du kan beregne grundlæggende beskrivende statistikker såsom gennemsnit, median og standardafvigelse for individuelle kolonner. For eksempel vises her, hvordan du opsummerer kolonnen `selling_price`.

### Base R
Der findes dedikerede funktioner som `mean()`, `median()` og `sd()`. Argumentet `na.rm = TRUE` sikrer, at manglende værdier ignoreres under beregningen.

```
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
```

### dplyr
Det er muligt at beregne alle tre statistikker i ét trin med funktionen `summarise()`.

```
df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )
```

## Opsummering af flere kolonner efter gruppe

Ofte ønskes det at sammenligne opsummerede statistikker på tværs af forskellige grupper i datasættet. For eksempel kan man beregne den gennemsnitlige salgspris og gennemsnitlige kilometerstand for hver type brændstof.

Før opsummering skal du sikre, at kolonnen `mileage` er numerisk:
```
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
```

### Base R
Funktionen `aggregate()` kan bruges til at beregne grupperede statistikker. Funktionen `cbind()` gør det muligt at opsummere flere numeriske kolonner på én gang.

```
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
```

### dplyr
Gruppering og opsummering kan også udføres med `group_by()` og `summarise()`. Denne tilgang er generelt mere læsbar og lettere at udvide.

```
df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
```

Download datasæt

Download kapitelkode

Funktionen `aggregate()` bruges i base R til at:


Opnå praktisk erfaring med dataanalyse i R ved at lære at rense, transformere og visualisere datasæt. Udforsk essentielle arbejdsgange såsom udvælgelse og filtrering af data, håndtering af manglende værdier og opsummering af resultater. Opbyg sikkerhed i at forberede data til indsigt, rapportering og dybere statistisk udforskning.

Udforsk grundlæggende principper for dataanalyse med R. Lær at installere værktøjer, indlæse og inspicere datasæt, udvælge og filtrere information, sortere og transformere data, håndtere manglende værdier samt opsummere resultater for dybere indsigt.

Lær at skabe overbevisende visualiseringer med ggplot2. Opbyg søjlediagrammer, histogrammer, tæthedsplot og spredningsdiagrammer, og tilpas og forfin dem med stylingmuligheder og facettering for at afdække dybere indsigter i dine data.

Styrk din forståelse af statistik til dataanalyse. Anvend beskrivende mål, identificer og håndter outliers, og brug korrelationsteknikker med visuelle værktøjer som varmekort og spredningsdiagrammer for at afdække meningsfulde sammenhænge.

Opsummering af Data

Hurtig oversigt over datasættet

Sammendrag af statistikker for en enkelt kolonne

Base R

dplyr

Opsummering af flere kolonner efter gruppe

Base R

dplyr