Contenido del Curso
Desafío de Entrevista en Ciencia de Datos
Desafío de Entrevista en Ciencia de Datos
Desafío 5: Correlación
Distinguir entre correlación y causación es un concepto fundamental en estadística. Aunque correlación denota una relación entre dos variables, no implica que una variable sea la causa de la otra. En cambio, la causación sugiere una relación directa en la que un cambio en una variable provoca un cambio en otra.
Por ejemplo, pensemos en una heladería cuyas ventas aumentan en verano y disminuyen en invierno. Aunque existe una correlación entre la temperatura y las ventas de helados, esto no significa que las temperaturas más altas provoquen un aumento de las ventas. Puede haber variables de confusión, como que la gente prefiera los dulces fríos cuando hace calor. La gente no compra helado sólo porque haya subido la temperatura; lo compra porque le resulta refrescante cuando hace calor.
Así pues, aunque existe una clara correlación entre la temperatura y las ventas de helados, no podemos afirmar con rotundidad que el aumento de las temperaturas provoque un incremento de las ventas sin tener en cuenta otros factores. Hacer afirmaciones causales requiere un examen más riguroso e, idealmente, experimentos controlados para descartar o tener en cuenta posibles variables de confusión.
Este es el conjunto de datos que utilizaremos en este capítulo. Siéntete libre de sumergirte y explorarlo antes de abordar la tarea.
import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head())
Swipe to show code editor
Utilizando el conjunto de datos tips
de Seaborn, realice las siguientes tareas:
-
- Determinar el coeficiente de correlación de Pearson entre las columnas "factura_total" y "propinas", que proporciona una medida de la asociación lineal entre las dos variables numéricas.
- Visualice la relación entre
factura_total
(para el eje X) ypropina
(para el eje Y) con un gráfico de regresión lineal, que le permita observar cómo los cambios en lafactura_total
podrían predecir los cambios en lapropina
. -
- Cree una matriz de correlaciones para las variables categóricas del conjunto de datos utilizando la V de Cramér, una medida basada en el estadístico chi-cuadrado que cuantifica la asociación entre dos variables categóricas.
¡Gracias por tus comentarios!
Desafío 5: Correlación
Distinguir entre correlación y causación es un concepto fundamental en estadística. Aunque correlación denota una relación entre dos variables, no implica que una variable sea la causa de la otra. En cambio, la causación sugiere una relación directa en la que un cambio en una variable provoca un cambio en otra.
Por ejemplo, pensemos en una heladería cuyas ventas aumentan en verano y disminuyen en invierno. Aunque existe una correlación entre la temperatura y las ventas de helados, esto no significa que las temperaturas más altas provoquen un aumento de las ventas. Puede haber variables de confusión, como que la gente prefiera los dulces fríos cuando hace calor. La gente no compra helado sólo porque haya subido la temperatura; lo compra porque le resulta refrescante cuando hace calor.
Así pues, aunque existe una clara correlación entre la temperatura y las ventas de helados, no podemos afirmar con rotundidad que el aumento de las temperaturas provoque un incremento de las ventas sin tener en cuenta otros factores. Hacer afirmaciones causales requiere un examen más riguroso e, idealmente, experimentos controlados para descartar o tener en cuenta posibles variables de confusión.
Este es el conjunto de datos que utilizaremos en este capítulo. Siéntete libre de sumergirte y explorarlo antes de abordar la tarea.
import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head())
Swipe to show code editor
Utilizando el conjunto de datos tips
de Seaborn, realice las siguientes tareas:
-
- Determinar el coeficiente de correlación de Pearson entre las columnas "factura_total" y "propinas", que proporciona una medida de la asociación lineal entre las dos variables numéricas.
- Visualice la relación entre
factura_total
(para el eje X) ypropina
(para el eje Y) con un gráfico de regresión lineal, que le permita observar cómo los cambios en lafactura_total
podrían predecir los cambios en lapropina
. -
- Cree una matriz de correlaciones para las variables categóricas del conjunto de datos utilizando la V de Cramér, una medida basada en el estadístico chi-cuadrado que cuantifica la asociación entre dos variables categóricas.
¡Gracias por tus comentarios!