Зміст курсу
Вивчення Статистики з Використанням Python
Вивчення Статистики з Використанням Python
Коваріація
Коваріація - це міра спільної мінливості двох випадкових величин.
Значення коваріації | Інтерпретація |
---|---|
Додатне | Дві змінні рухаються в одному напрямку |
0 | Дві змінні не мають лінійного зв'язку |
Від'ємне | Дві змінні рухаються в протилежних напрямках |
Формули відрізняються для вибірки та генеральної сукупності, але ми не будемо заглиблюватися в них. У цьому розділі ми розглянемо коваріації наступного набору даних:
Store_ID | Store_Area | Items_Available | Daily_Customer_Count | Store_Sales | |
---|---|---|---|---|---|
0 | 0 | 1659 | 1961 | 530 | 66490 |
1 | 1 | 1461 | 1752 | 210 | 39820 |
2 | 2 | 1340 | 1609 | 720 | 54010 |
3 | 3 | 1451 | 1748 | 620 | 53730 |
4 | 4 | 1770 | 2111 | 450 | 46620 |
Store_ID
- Унікальний ідентифікатор магазину.Store_Area
- Площа магазину.Items_Available
- Кількість товарів, які доступні в магазині.Daily_Customer_Count
- Щоденна кількість покупців у магазині.Store_Sales
- Кількість продажів у магазині.
Обчислення коваріації за допомогою Python
Для обчислення коваріації в Python можна скористатися функцією np.cov()
з бібліотеки NumPy. Вона має два параметри: послідовності даних, для яких ви хочете обчислити коваріацію.
Результатом є значення за індексом [0,1]. У цьому курсі не розглядаються інші значення серед вихідних, подивіться на приклад:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating covariance cov = np.cov(df['Store_Area'], df['Items_Available'])[0,1] print(round(cov, 2))
Це вказує на те, що значення рухаються в одному напрямку. Це логічно, оскільки більша площа магазину відповідає більшій кількості товарів. Одним із суттєвих недоліків коваріації є те, що значення може бути нескінченним.
Дякуємо за ваш відгук!