Impara Riassumere i Dati | Manipolazione e Pulizia dei Dati

Sintetizzare i dati è fondamentale per ottenere rapidamente una comprensione della loro struttura e dei loro schemi.

Riepilogo rapido del dataset

Prima di eseguire un'analisi dettagliata, è utile generare una panoramica rapida del dataset. Questo aiuta a comprendere a colpo d'occhio gli intervalli, le distribuzioni e la presenza di valori categorici. È possibile utilizzare la funzione summary() per questo scopo.

summary(df)

Statistiche riassuntive per una singola colonna

È possibile calcolare statistiche descrittive di base come media, mediana e deviazione standard per singole colonne. Ad esempio, ecco come sintetizzare la colonna selling_price.

Base R

Sono disponibili funzioni dedicate come mean(), median() e sd(). L'argomento na.rm = TRUE garantisce che i valori mancanti vengano ignorati durante il calcolo.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

È possibile calcolare tutte e tre le statistiche in un unico passaggio utilizzando la funzione summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Sintesi di più colonne per gruppo

Spesso è utile confrontare le statistiche riassuntive tra diversi gruppi nel dataset. Ad esempio, si può calcolare il prezzo medio di vendita e il chilometraggio medio per ciascun tipo di carburante.

Prima di effettuare la sintesi, assicurarsi che la colonna mileage sia numerica:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

La funzione aggregate() può essere utilizzata per calcolare statistiche raggruppate. La funzione cbind() consente di riassumere più colonne numeriche contemporaneamente.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Raggruppamento e sintesi possono essere effettuati anche utilizzando group_by() e summarise(). Questo approccio è generalmente più leggibile e facile da estendere.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 11

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 4

Scorri per mostrare il menu

Sintetizzare i dati è fondamentale per ottenere rapidamente una comprensione della loro struttura e dei loro schemi.

Riepilogo rapido del dataset

summary(df)

Statistiche riassuntive per una singola colonna

È possibile calcolare statistiche descrittive di base come media, mediana e deviazione standard per singole colonne. Ad esempio, ecco come sintetizzare la colonna selling_price.

Base R

Sono disponibili funzioni dedicate come mean(), median() e sd(). L'argomento na.rm = TRUE garantisce che i valori mancanti vengano ignorati durante il calcolo.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

È possibile calcolare tutte e tre le statistiche in un unico passaggio utilizzando la funzione summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Sintesi di più colonne per gruppo

Prima di effettuare la sintesi, assicurarsi che la colonna mileage sia numerica:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

La funzione aggregate() può essere utilizzata per calcolare statistiche raggruppate. La funzione cbind() consente di riassumere più colonne numeriche contemporaneamente.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Raggruppamento e sintesi possono essere effettuati anche utilizzando group_by() e summarise(). Questo approccio è generalmente più leggibile e facile da estendere.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 11