Conteúdo do Curso
Desafio de Entrevista em Ciência de Dados
Desafio de Entrevista em Ciência de Dados
Desafio 5: Correlação
Distinguir entre correlação e causalidade é um conceito fundamental em estatísticas. Embora a correlação denote uma relação entre duas variáveis, isso não implica que uma variável causa a outra. A causalidade, por outro lado, sugere uma relação direta onde uma mudança em uma variável resulta em uma mudança em outra.
Por exemplo, considere uma sorveteria que percebe um aumento nas vendas nos meses de verão e uma diminuição no inverno. Enquanto há uma correlação entre a temperatura e as vendas de sorvete, isso não significa que temperaturas mais altas causem um aumento nas vendas. Poderia haver variáveis confundidoras, como as pessoas preferirem tratamentos frios em clima quente. As pessoas não compram sorvete apenas porque a temperatura aumentou; elas compram porque o acham refrescante no calor.
Portanto, embora haja uma correlação clara entre a temperatura e as vendas de sorvete, não podemos dizer definitivamente que temperaturas mais altas causem um aumento nas vendas sem considerar outros fatores. Fazer declarações causais exige um exame mais rigoroso e, idealmente, experimentos controlados para descartar ou considerar possíveis variáveis confundidoras.
Aqui está o conjunto de dados que utilizaremos neste capítulo. Sinta-se à vontade para mergulhar e explorá-lo antes de enfrentar a tarefa.
import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head())
Swipe to show code editor
Utilizando o conjunto de dados tips
do Seaborn, realize as seguintes tarefas:
- Determine o coeficiente de correlação de Pearson entre as colunas
total_bill
etip
, o qual fornece uma medida da associação linear entre as duas variáveis numéricas. - Visualize a relação entre
total_bill
(para o eixo X) etip
(para o eixo Y) com um gráfico de regressão linear, permitindo observar como mudanças nototal_bill
podem prever alterações natip
. - Crie uma matriz de correlações para as variáveis categóricas no conjunto de dados usando o V de Cramér, uma medida baseada na estatística qui-quadrado que quantifica a associação entre duas variáveis categóricas.
Obrigado pelo seu feedback!
Desafio 5: Correlação
Distinguir entre correlação e causalidade é um conceito fundamental em estatísticas. Embora a correlação denote uma relação entre duas variáveis, isso não implica que uma variável causa a outra. A causalidade, por outro lado, sugere uma relação direta onde uma mudança em uma variável resulta em uma mudança em outra.
Por exemplo, considere uma sorveteria que percebe um aumento nas vendas nos meses de verão e uma diminuição no inverno. Enquanto há uma correlação entre a temperatura e as vendas de sorvete, isso não significa que temperaturas mais altas causem um aumento nas vendas. Poderia haver variáveis confundidoras, como as pessoas preferirem tratamentos frios em clima quente. As pessoas não compram sorvete apenas porque a temperatura aumentou; elas compram porque o acham refrescante no calor.
Portanto, embora haja uma correlação clara entre a temperatura e as vendas de sorvete, não podemos dizer definitivamente que temperaturas mais altas causem um aumento nas vendas sem considerar outros fatores. Fazer declarações causais exige um exame mais rigoroso e, idealmente, experimentos controlados para descartar ou considerar possíveis variáveis confundidoras.
Aqui está o conjunto de dados que utilizaremos neste capítulo. Sinta-se à vontade para mergulhar e explorá-lo antes de enfrentar a tarefa.
import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head())
Swipe to show code editor
Utilizando o conjunto de dados tips
do Seaborn, realize as seguintes tarefas:
- Determine o coeficiente de correlação de Pearson entre as colunas
total_bill
etip
, o qual fornece uma medida da associação linear entre as duas variáveis numéricas. - Visualize a relação entre
total_bill
(para o eixo X) etip
(para o eixo Y) com um gráfico de regressão linear, permitindo observar como mudanças nototal_bill
podem prever alterações natip
. - Crie uma matriz de correlações para as variáveis categóricas no conjunto de dados usando o V de Cramér, uma medida baseada na estatística qui-quadrado que quantifica a associação entre duas variáveis categóricas.
Obrigado pelo seu feedback!