Aprenda Resumindo Dados | Manipulação e Limpeza de Dados

Resumir dados é fundamental para obter uma compreensão rápida de sua estrutura e padrões.

Resumo rápido do conjunto de dados

Antes de realizar uma análise detalhada, é útil gerar uma visão geral rápida do conjunto de dados. Isso auxilia na compreensão dos intervalos, distribuições e presença de valores categóricos de forma imediata. É possível utilizar a função summary() para isso.

summary(df)

Estatísticas resumidas para uma única coluna

É possível calcular estatísticas descritivas básicas, como média, mediana e desvio padrão para colunas individuais. Por exemplo, veja como resumir a coluna selling_price.

Base R

Funções dedicadas como mean(), median() e sd() estão disponíveis. O argumento na.rm = TRUE garante que valores ausentes sejam ignorados durante o cálculo.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

É possível calcular todas as três estatísticas em uma única etapa com a função summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Resumindo Múltiplas Colunas por Grupo

Frequentemente, é necessário comparar estatísticas resumidas entre diferentes grupos no conjunto de dados. Por exemplo, pode-se calcular o preço médio de venda e a quilometragem média para cada tipo de combustível.

Antes de resumir, certifique-se de que a coluna mileage seja numérica:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

A função aggregate() pode ser utilizada para calcular estatísticas agrupadas. A função cbind() permite resumir várias colunas numéricas ao mesmo tempo.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Agrupamento e sumarização também podem ser realizados utilizando group_by() e summarise(). Essa abordagem geralmente é mais legível e fácil de expandir.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 11

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Deslize para mostrar o menu

Resumir dados é fundamental para obter uma compreensão rápida de sua estrutura e padrões.

Resumo rápido do conjunto de dados

summary(df)

Estatísticas resumidas para uma única coluna

É possível calcular estatísticas descritivas básicas, como média, mediana e desvio padrão para colunas individuais. Por exemplo, veja como resumir a coluna selling_price.

Base R

Funções dedicadas como mean(), median() e sd() estão disponíveis. O argumento na.rm = TRUE garante que valores ausentes sejam ignorados durante o cálculo.

mean(df$selling_price, na.rm = TRUE)
median(df$selling_price, na.rm = TRUE)
sd(df$selling_price, na.rm = TRUE)

dplyr

É possível calcular todas as três estatísticas em uma única etapa com a função summarise().

df %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    median_price = median(selling_price, na.rm = TRUE),
    sd_price = sd(selling_price, na.rm = TRUE)
  )

Resumindo Múltiplas Colunas por Grupo

Antes de resumir, certifique-se de que a coluna mileage seja numérica:

df$mileage <- as.numeric(gsub(" km.*", "", df$mileage))
str(df$mileage)

Base R

A função aggregate() pode ser utilizada para calcular estatísticas agrupadas. A função cbind() permite resumir várias colunas numéricas ao mesmo tempo.

aggregate(cbind(selling_price, mileage) ~ fuel, data = df, FUN = mean, na.rm = TRUE)

dplyr

Agrupamento e sumarização também podem ser realizados utilizando group_by() e summarise(). Essa abordagem geralmente é mais legível e fácil de expandir.

df %>%
  group_by(fuel) %>%
  summarise(
    mean_price = mean(selling_price, na.rm = TRUE),
    mean_mileage = mean(mileage, na.rm = TRUE)
  )

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 11