Kursusindhold
Lær Statistik med Python
Lær Statistik med Python
Korrelation
Korrelation er et statistisk mål, der kvantificerer graden af sammenhæng eller relation mellem to variable. Med andre ord hjælper det os med at forstå, hvordan to variable har tendens til at bevæge sig i forhold til hinanden.
Korrelation giver en enkel måde at undersøge resultatet på. Korrelationens værdi ligger inden for intervallet [-1, 1]
. Se tabellen nedenfor:
Korrelation med Python
For at beregne korrelation anvendes funktionen np.corrcoef()
fra numpy
, som kræver to parametre: dataserierne, hvor korrelationen skal beregnes. Her er et eksempel:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating correlation corr = np.corrcoef(df['Store_Area'], df['Items_Available'])[0,1] print(corr)
Her udtrak vi værdien ved indeks [0, 1]
, ligesom i tilfældet med kovarians. I det forrige kapitel opnåede vi værdien 74955.85
, og det kan være udfordrende at fortolke resultatet af kovariationsfunktionen. I dette tilfælde kan vi dog konkludere, at værdierne er stærkt relaterede.
Tak for dine kommentarer!