Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Desafío 5: Correlación | Estadísticas
Desafío de Entrevista en Ciencia de Datos
course content

Contenido del Curso

Desafío de Entrevista en Ciencia de Datos

Desafío de Entrevista en Ciencia de Datos

1. Python
2. NumPy
3. Pandas
4. Matplotlib
5. Seaborn
6. Estadísticas
7. Scikit-learn

book
Desafío 5: Correlación

Distinguir entre correlación y causación es un concepto fundamental en estadística. Aunque correlación denota una relación entre dos variables, no implica que una variable sea la causa de la otra. En cambio, la causación sugiere una relación directa en la que un cambio en una variable provoca un cambio en otra.

Por ejemplo, pensemos en una heladería cuyas ventas aumentan en verano y disminuyen en invierno. Aunque existe una correlación entre la temperatura y las ventas de helados, esto no significa que las temperaturas más altas provoquen un aumento de las ventas. Puede haber variables de confusión, como que la gente prefiera los dulces fríos cuando hace calor. La gente no compra helado sólo porque haya subido la temperatura; lo compra porque le resulta refrescante cuando hace calor.

Así pues, aunque existe una clara correlación entre la temperatura y las ventas de helados, no podemos afirmar con rotundidad que el aumento de las temperaturas provoque un incremento de las ventas sin tener en cuenta otros factores. Hacer afirmaciones causales requiere un examen más riguroso e, idealmente, experimentos controlados para descartar o tener en cuenta posibles variables de confusión.


Este es el conjunto de datos que utilizaremos en este capítulo. Siéntete libre de sumergirte y explorarlo antes de abordar la tarea.

1234567
import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head())
copy
Tarea
test

Swipe to show code editor

Utilizando el conjunto de datos tips de Seaborn, realice las siguientes tareas:

    1. Determinar el coeficiente de correlación de Pearson entre las columnas "factura_total" y "propinas", que proporciona una medida de la asociación lineal entre las dos variables numéricas.
  1. Visualice la relación entre factura_total (para el eje X) y propina (para el eje Y) con un gráfico de regresión lineal, que le permita observar cómo los cambios en la factura_total podrían predecir los cambios en la propina.
    1. Cree una matriz de correlaciones para las variables categóricas del conjunto de datos utilizando la V de Cramér, una medida basada en el estadístico chi-cuadrado que cuantifica la asociación entre dos variables categóricas.
Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 6. Capítulo 5
toggle bottom row

book
Desafío 5: Correlación

Distinguir entre correlación y causación es un concepto fundamental en estadística. Aunque correlación denota una relación entre dos variables, no implica que una variable sea la causa de la otra. En cambio, la causación sugiere una relación directa en la que un cambio en una variable provoca un cambio en otra.

Por ejemplo, pensemos en una heladería cuyas ventas aumentan en verano y disminuyen en invierno. Aunque existe una correlación entre la temperatura y las ventas de helados, esto no significa que las temperaturas más altas provoquen un aumento de las ventas. Puede haber variables de confusión, como que la gente prefiera los dulces fríos cuando hace calor. La gente no compra helado sólo porque haya subido la temperatura; lo compra porque le resulta refrescante cuando hace calor.

Así pues, aunque existe una clara correlación entre la temperatura y las ventas de helados, no podemos afirmar con rotundidad que el aumento de las temperaturas provoque un incremento de las ventas sin tener en cuenta otros factores. Hacer afirmaciones causales requiere un examen más riguroso e, idealmente, experimentos controlados para descartar o tener en cuenta posibles variables de confusión.


Este es el conjunto de datos que utilizaremos en este capítulo. Siéntete libre de sumergirte y explorarlo antes de abordar la tarea.

1234567
import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head())
copy
Tarea
test

Swipe to show code editor

Utilizando el conjunto de datos tips de Seaborn, realice las siguientes tareas:

    1. Determinar el coeficiente de correlación de Pearson entre las columnas "factura_total" y "propinas", que proporciona una medida de la asociación lineal entre las dos variables numéricas.
  1. Visualice la relación entre factura_total (para el eje X) y propina (para el eje Y) con un gráfico de regresión lineal, que le permita observar cómo los cambios en la factura_total podrían predecir los cambios en la propina.
    1. Cree una matriz de correlaciones para las variables categóricas del conjunto de datos utilizando la V de Cramér, una medida basada en el estadístico chi-cuadrado que cuantifica la asociación entre dos variables categóricas.
Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 6. Capítulo 5
Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
We're sorry to hear that something went wrong. What happened?
some-alt