Зміст курсу
Вивчення Статистики з Використанням Python
Вивчення Статистики з Використанням Python
Кореляція
Кореляція - це статистичний показник, який кількісно вимірює силу зв'язку або відношення між двома змінними. Іншими словами, вона допомагає нам зрозуміти, як дві змінні змінюються по відношенню одна до одної.
Кореляція забезпечує простий спосіб дослідити результат. Значення кореляції знаходиться в діапазоні [-1; 1]. Зверніться до таблиці нижче:
Значення кореляції | Інтерпретація |
1 | Ідеальна додатна кореляція: Коли одне значення зростає, інше також зростає, і навпаки. |
0 | Відсутня кореляція: Між змінними немає видимого зв'язку. |
-1 | Ідеальна від'ємна кореляція: Коли одне значення збільшується, інше зменшується, і навпаки. |
Кореляція з Python
Для обчислення кореляції ми використаємо функцію np.corrcoef()
з NumPy з двома параметрами: послідовності даних, для яких ми хочемо знайти кореляцію. Погляньте на приклад:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating correlation corr = np.corrcoef(df['Store_Area'], df['Items_Available'])[0,1] print(corr)
Тут ми витягли значення за індексом [0, 1], як і у випадку з коваріацією. У попередньому розділі ми отримали значення 74955.85
, і інтерпретувати значення коваріації може бути складно. Однак у даному випадку ми можемо зробити висновок, що значення сильно пов'язані між собою.
Дякуємо за ваш відгук!