Apprendre Résumé des Données | Manipulation et Nettoyage des Données

Résumer les données est essentiel pour obtenir rapidement une compréhension de leur structure et de leurs tendances.

Résumé rapide du jeu de données

Avant de réaliser une analyse détaillée, il est utile de générer un aperçu rapide du jeu de données. Cela permet de comprendre d’un coup d’œil les plages de valeurs, les distributions et la présence de valeurs catégorielles. Vous pouvez utiliser la fonction summary() pour cela.

summary(df)

Statistiques descriptives pour une seule colonne

Il est possible de calculer des statistiques descriptives de base telles que la moyenne, la médiane et l’écart type pour des colonnes individuelles. Par exemple, voici comment résumer la colonne selling_price.

Base R

Des fonctions dédiées telles que mean(), median() et sd() sont disponibles. L'argument na.rm = TRUE garantit que les valeurs manquantes sont ignorées lors du calcul.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Il est possible de calculer les trois statistiques en une seule étape avec la fonction summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Résumer plusieurs colonnes par groupe

Il est fréquent de vouloir comparer des statistiques de synthèse entre différents groupes dans un jeu de données. Par exemple, il est possible de calculer le prix de vente moyen et le kilométrage moyen pour chaque type de carburant.

Avant de résumer, il convient de s'assurer que la colonne mileage est numérique :

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

La fonction aggregate() peut être utilisée pour calculer des statistiques groupées. La fonction cbind() permet de résumer plusieurs colonnes numériques en même temps.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Le groupement et la synthèse peuvent également être réalisés à l'aide de group_by() et summarise(). Cette approche est généralement plus lisible et plus facile à étendre.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 11

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu

Résumer les données est essentiel pour obtenir rapidement une compréhension de leur structure et de leurs tendances.

Résumé rapide du jeu de données

summary(df)

Statistiques descriptives pour une seule colonne

Base R

Des fonctions dédiées telles que mean(), median() et sd() sont disponibles. L'argument na.rm = TRUE garantit que les valeurs manquantes sont ignorées lors du calcul.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

Il est possible de calculer les trois statistiques en une seule étape avec la fonction summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Résumer plusieurs colonnes par groupe

Avant de résumer, il convient de s'assurer que la colonne mileage est numérique :

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

La fonction aggregate() peut être utilisée pour calculer des statistiques groupées. La fonction cbind() permet de résumer plusieurs colonnes numériques en même temps.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Le groupement et la synthèse peuvent également être réalisés à l'aide de group_by() et summarise(). Cette approche est généralement plus lisible et plus facile à étendre.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 11