Aprende Desafío 5: Correlación

Distinguir entre correlación y causación es un concepto fundamental en estadística. Aunque correlación denota una relación entre dos variables, no implica que una variable sea la causa de la otra. En cambio, la causación sugiere una relación directa en la que un cambio en una variable provoca un cambio en otra.

Por ejemplo, pensemos en una heladería cuyas ventas aumentan en verano y disminuyen en invierno. Aunque existe una correlación entre la temperatura y las ventas de helados, esto no significa que las temperaturas más altas provoquen un aumento de las ventas. Puede haber variables de confusión, como que la gente prefiera los dulces fríos cuando hace calor. La gente no compra helado sólo porque haya subido la temperatura; lo compra porque le resulta refrescante cuando hace calor.

Así pues, aunque existe una clara correlación entre la temperatura y las ventas de helados, no podemos afirmar con rotundidad que el aumento de las temperaturas provoque un incremento de las ventas sin tener en cuenta otros factores. Hacer afirmaciones causales requiere un examen más riguroso e, idealmente, experimentos controlados para descartar o tener en cuenta posibles variables de confusión.

Este es el conjunto de datos que utilizaremos en este capítulo. Siéntete libre de sumergirte y explorarlo antes de abordar la tarea.


              1234567
            
import seaborn as sns

# Load the dataset
data = sns.load_dataset('tips')

# Sample of data
display(data.head())

Tarea

Swipe to start coding

Utilizando el conjunto de datos tips de Seaborn, realice las siguientes tareas:

1. Determinar el coeficiente de correlación de Pearson entre las columnas "factura_total" y "propinas", que proporciona una medida de la asociación lineal entre las dos variables numéricas.
Visualice la relación entre factura_total (para el eje X) y propina (para el eje Y) con un gráfico de regresión lineal, que le permita observar cómo los cambios en la factura_total podrían predecir los cambios en la propina.
1. Cree una matriz de correlaciones para las variables categóricas del conjunto de datos utilizando la V de Cramér, una medida basada en el estadístico chi-cuadrado que cuantifica la asociación entre dos variables categóricas.

Solución

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 6. Capítulo 5

single

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Desliza para mostrar el menú