Svep för att visa menyn

Sammanfattning av data är avgörande för att snabbt få en förståelse för dess struktur och mönster.

Snabb översikt av datasetet

Innan en detaljerad analys genomförs är det användbart att skapa en snabb översikt av datasetet. Detta hjälper dig att förstå intervall, fördelningar och förekomst av kategoriska värden på ett ögonblick. Du kan använda funktionen summary() för detta.

summary(df)

Sammanfattande statistik för en enskild kolumn

Du kan beräkna grundläggande beskrivande statistik såsom medelvärde, median och standardavvikelse för enskilda kolumner. Här är till exempel hur du sammanfattar kolumnen selling_price.

Base R

Det finns dedikerade funktioner som mean(), median() och sd() tillgängliga. Argumentet na.rm = TRUE säkerställer att saknade värden ignoreras vid beräkningen.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Du kan beräkna alla tre statistiska mått i ett enda steg med funktionen summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Sammanfatta flera kolumner efter grupp

Ofta vill du jämföra sammanfattande statistik mellan olika grupper i din datamängd. Till exempel kan du beräkna genomsnittligt försäljningspris och genomsnittlig körsträcka för varje bränsletyp.

Innan du sammanfattar, säkerställ att kolumnen mileage är numerisk:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Funktionen aggregate() kan användas för att beräkna grupperad statistik. Funktionen cbind() möjliggör summering av flera numeriska kolumner samtidigt.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppering och summering kan också göras med group_by() och summarise(). Detta tillvägagångssätt är generellt mer lättläst och enklare att utöka.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 11

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Sammanfatta Data

Sammanfattning av data är avgörande för att snabbt få en förståelse för dess struktur och mönster.

Snabb översikt av datasetet

summary(df)

Sammanfattande statistik för en enskild kolumn

Du kan beräkna grundläggande beskrivande statistik såsom medelvärde, median och standardavvikelse för enskilda kolumner. Här är till exempel hur du sammanfattar kolumnen selling_price.

Base R

Det finns dedikerade funktioner som mean(), median() och sd() tillgängliga. Argumentet na.rm = TRUE säkerställer att saknade värden ignoreras vid beräkningen.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Du kan beräkna alla tre statistiska mått i ett enda steg med funktionen summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Sammanfatta flera kolumner efter grupp

Innan du sammanfattar, säkerställ att kolumnen mileage är numerisk:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Funktionen aggregate() kan användas för att beräkna grupperad statistik. Funktionen cbind() möjliggör summering av flera numeriska kolumner samtidigt.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppering och summering kan också göras med group_by() och summarise(). Detta tillvägagångssätt är generellt mer lättläst och enklare att utöka.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 11