Contenu du cours
Apprendre les Statistiques avec Python
Apprendre les Statistiques avec Python
Covariance
Covariance est une mesure de la variabilité conjointe de deux variables aléatoires.
Les formules pour la covariance d'échantillon et de population diffèrent, mais elles ne seront pas détaillées ici. Ce chapitre se concentre sur les covariances du jeu de données suivant :
Store_ID
: the unique id of the store;Store_Area
: the area of the store;Items_Available
: the number of items that are available in the store;Daily_Customer_Count
: the daily number of customers in the store;Store_Sales
: the number of sales in the store.
Calcul du coefficient de covariance avec Python
Pour calculer la covariance en Python, utilisez la fonction np.cov()
de la bibliothèque NumPy. Elle prend deux paramètres : les séquences de données pour lesquelles vous souhaitez calculer la covariance.
Le résultat se trouve à l'indice [0,1]
. Ce cours ne couvrira pas les autres valeurs de la sortie, veuillez vous référer à l'exemple :
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating covariance cov = np.cov(df['Store_Area'], df['Items_Available'])[0,1] print(round(cov, 2))
Cela indique que les valeurs évoluent dans la même direction. Cela est logique, car une surface de magasin plus grande correspond à un nombre d'articles plus élevé. Un inconvénient majeur de la covariance est que la valeur peut être infinie.
Merci pour vos commentaires !