Kursinhalt
Statistik Lernen mit Python
Statistik Lernen mit Python
Korrelation
Korrelation ist ein statistisches Maß, das den Grad der Assoziation oder Beziehung zwischen zwei Variablen quantifiziert. Anders ausgedrückt hilft sie dabei zu verstehen, wie zwei Variablen sich zueinander verhalten.
Die Korrelation bietet eine unkomplizierte Möglichkeit, das Ergebnis zu untersuchen. Der Korrelationswert liegt im Bereich von [-1, 1]
. Siehe die Tabelle unten:
Korrelation mit Python
Zur Berechnung der Korrelation wird die Funktion np.corrcoef()
aus numpy
verwendet, die zwei Parameter benötigt: die Datenreihen, für die die Korrelation berechnet werden soll. Hier ein Beispiel:
import pandas as pd import numpy as np df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a849660e-ddfa-4033-80a6-94a1b7772e23/update/Stores.csv') # Calculating correlation corr = np.corrcoef(df['Store_Area'], df['Items_Available'])[0,1] print(corr)
Hier haben wir den Wert an Index [0, 1]
extrahiert, genau wie im Fall der Kovarianz. Im vorherigen Kapitel erhielten wir den Wert 74955.85
, und die Interpretation des Ergebnisses der Kovariationsfunktion kann schwierig sein. In diesem Fall können wir jedoch feststellen, dass die Werte stark miteinander verbunden sind.
Danke für Ihr Feedback!