Summary  
This chapter introduces how to generate descriptive statistics for both individual and grouped variables—using built-in functions and dplyr verbs—while handling missing values, converting data types, and summarizing multiple numeric columns by grouping factors.  

General domain of usage  
Exploratory data analysis

**Datan tiivistäminen** on olennaista, jotta saat nopeasti käsityksen sen rakenteesta ja malleista.

## Aineiston nopea yhteenveto
Ennen yksityiskohtaista analyysiä on hyödyllistä luoda nopea yleiskuva aineistosta. Tämä auttaa hahmottamaan arvojen vaihteluvälit, jakaumat ja kategoristen arvojen esiintymisen yhdellä silmäyksellä. Voit käyttää tähän `summary()`-funktiota.
```
summary(df)
```

## Yhteenvetotilastot yhdelle sarakkeelle
Voit laskea peruskuvailevia tilastoja, kuten keskiarvon, mediaanin ja keskihajonnan yksittäisille sarakkeille. Esimerkiksi näin tiivistetään `selling_price`-sarakkeen tiedot.

### Base R
Käytettävissä on omistettuja funktioita kuten `mean()`, `median()` ja `sd()`. Argumentti `na.rm = TRUE` varmistaa, että puuttuvat arvot ohitetaan laskennan aikana.

```
mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)
```

### dplyr
Kaikki kolme tilastoa voidaan laskea yhdellä askeleella käyttämällä `summarise()`-funktiota.

```
df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )
```

## Usean sarakkeen tiivistäminen ryhmittäin

Usein halutaan vertailla yhteenvetotilastoja eri ryhmien välillä aineistossa. Esimerkiksi voidaan laskea keskimääräinen myyntihinta ja keskimääräinen ajokilometrimäärä polttoainetyypeittäin.

Ennen tiivistämistä varmista, että `mileage`-sarake on numeerinen:
```
df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)
```

### Base R
`aggregate()`-funktiota voidaan käyttää ryhmiteltyjen tilastojen laskemiseen. `cbind()`-funktiolla voidaan tiivistää useita numeerisia sarakkeita samanaikaisesti.

```
aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)
```

### dplyr
Ryhmittely ja tiivistäminen voidaan tehdä myös `group_by()`- ja `summarise()`-funktioilla. Tämä lähestymistapa on yleensä luettavampi ja helpompi laajentaa.

```
df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )
```

`aggregate()`-funktiota käytetään base R:ssä seuraavaan:

Hanki käytännön kokemusta datan analysoinnista R:llä oppimalla aineistojen puhdistamista, muokkaamista ja visualisointia. Tutustu keskeisiin työnkulkuihin, kuten datan valintaan ja suodattamiseen, puuttuvien arvojen käsittelyyn sekä tulosten tiivistämiseen. Vahvista osaamistasi datan valmistelussa oivalluksia, raportointia ja syvällisempää tilastollista tarkastelua varten.

Tutustu R:n tietoanalyysin perusteisiin. Opiskele työkalujen asennus, aineistojen lataaminen ja tarkastelu, tietojen valinta ja suodatus, datan lajittelu ja muuntaminen, puuttuvien arvojen käsittely sekä tulosten tiivistäminen syvempien oivallusten saavuttamiseksi.

Opi luomaan vaikuttavia visualisointeja ggplot2:lla. Luo pylväsdiagrammeja, histogrammeja, tiheyskäyriä ja hajontakuvioita sekä mukauta ja viimeistele niitä tyylivalinnoilla ja facetoinnilla syvempien oivallusten löytämiseksi datasta.

Syvennä ymmärrystäsi tilastotieteestä data-analyysissä. Käytä kuvailevia mittareita, tunnista ja käsittele poikkeavia havaintoja sekä hyödynnä korrelaatiotekniikoita visuaalisten työkalujen, kuten lämpökarttojen ja hajontakuvioiden, avulla merkityksellisten yhteyksien löytämiseksi.

Datan Tiivistäminen

Aineiston nopea yhteenveto

Yhteenvetotilastot yhdelle sarakkeelle

Base R

dplyr

Usean sarakkeen tiivistäminen ryhmittäin

Base R

dplyr