Contenuti del Corso
Statistica con Python
Statistica con Python
Correlazione
Correlazione è una misura statistica che quantifica il grado di associazione o relazione tra due variabili. In altre parole, aiuta a comprendere come due variabili tendano a muoversi in relazione l'una all'altra.
La correlazione fornisce un modo diretto per esaminare il risultato. Il valore della correlazione rientra nell'intervallo [-1, 1]
. Consulta la tabella sottostante:
Correlazione con Python
Per calcolare la correlazione, utilizzare la funzione np.corrcoef()
di numpy
, che richiede due parametri: le sequenze di dati per cui si desidera calcolare la correlazione. Ecco un esempio:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating correlation corr = np.corrcoef(df['Store_Area'], df['Items_Available'])[0,1] print(corr)
Qui abbiamo estratto il valore all'indice [0, 1]
, proprio come nel caso della covarianza. Nel capitolo precedente, abbiamo ottenuto il valore 74955.85
, e interpretare il risultato della funzione di covarianza può essere complesso. Tuttavia, in questo caso, possiamo concludere che i valori sono fortemente correlati.
Grazie per i tuoi commenti!