Lernen Daten Zusammenfassen | Datenmanipulation und -Bereinigung

Datenzusammenfassung ist unerlässlich, um schnell einen Überblick über deren Struktur und Muster zu erhalten.

Schnelle Zusammenfassung des Datensatzes

Vor einer detaillierten Analyse ist es hilfreich, einen schnellen Überblick über den Datensatz zu erhalten. Dies ermöglicht ein Verständnis der Wertebereiche, Verteilungen und das Vorhandensein kategorialer Werte auf einen Blick. Die Funktion summary() kann hierfür verwendet werden.

summary(df)

Zusammenfassende Statistiken für eine einzelne Spalte

Es können grundlegende deskriptive Statistiken wie Mittelwert, Median und Standardabweichung für einzelne Spalten berechnet werden. Zum Beispiel wird hier gezeigt, wie die Spalte selling_price zusammengefasst werden kann.

Base R

Es stehen spezielle Funktionen wie mean(), median() und sd() zur Verfügung. Das Argument na.rm = TRUE stellt sicher, dass fehlende Werte bei der Berechnung ignoriert werden.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle drei Statistiken können in einem Schritt mit der Funktion summarise() berechnet werden.

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Zusammenfassen mehrerer Spalten nach Gruppen

Häufig sollen zusammenfassende Statistiken für verschiedene Gruppen im Datensatz verglichen werden. Beispielsweise kann der durchschnittliche Verkaufspreis und die durchschnittliche Laufleistung für jeden Kraftstofftyp berechnet werden.

Vor der Zusammenfassung sollte sichergestellt werden, dass die Spalte mileage numerisch ist:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Die Funktion aggregate() kann verwendet werden, um gruppierte Statistiken zu berechnen. Mit der Funktion cbind() lassen sich mehrere numerische Spalten gleichzeitig zusammenfassen.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppierung und Zusammenfassung können auch mit group_by() und summarise() durchgeführt werden. Dieser Ansatz ist in der Regel übersichtlicher und leichter zu erweitern.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 11

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4

Swipe um das Menü anzuzeigen

Datenzusammenfassung ist unerlässlich, um schnell einen Überblick über deren Struktur und Muster zu erhalten.

Schnelle Zusammenfassung des Datensatzes

summary(df)

Zusammenfassende Statistiken für eine einzelne Spalte

Base R

Es stehen spezielle Funktionen wie mean(), median() und sd() zur Verfügung. Das Argument na.rm = TRUE stellt sicher, dass fehlende Werte bei der Berechnung ignoriert werden.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Alle drei Statistiken können in einem Schritt mit der Funktion summarise() berechnet werden.

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Zusammenfassen mehrerer Spalten nach Gruppen

Vor der Zusammenfassung sollte sichergestellt werden, dass die Spalte mileage numerisch ist:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

Die Funktion aggregate() kann verwendet werden, um gruppierte Statistiken zu berechnen. Mit der Funktion cbind() lassen sich mehrere numerische Spalten gleichzeitig zusammenfassen.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Gruppierung und Zusammenfassung können auch mit group_by() und summarise() durchgeführt werden. Dieser Ansatz ist in der Regel übersichtlicher und leichter zu erweitern.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 11