Kursinnhold
Lære Statistikk med Python
Lære Statistikk med Python
Korrelasjon
Korrelasjon er et statistisk mål som kvantifiserer graden av sammenheng eller relasjon mellom to variabler. Med andre ord hjelper det oss å forstå hvordan to variabler har en tendens til å bevege seg i forhold til hverandre.
Korrelasjon gir en enkel måte å undersøke resultatet på. Korrelasjonsverdien ligger innenfor området [-1, 1]
. Se tabellen nedenfor:
Korrelasjon med Python
For å beregne korrelasjon, bruk funksjonen np.corrcoef()
fra numpy
, som krever to parametere: dataseriene det skal beregnes korrelasjon for. Her er et eksempel:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating correlation corr = np.corrcoef(df['Store_Area'], df['Items_Available'])[0,1] print(corr)
Her hentet vi ut verdien på indeks [0, 1]
, akkurat som i tilfellet med kovarians. I forrige kapittel fikk vi verdien 74955.85
, og å tolke resultatet fra kovariasjonsfunksjonen kan være utfordrende. I dette tilfellet kan vi derimot konkludere med at verdiene er sterkt relatert.
Takk for tilbakemeldingene dine!