Kursinhalt
Fortgeschrittene Wahrscheinlichkeitstheorie
Fortgeschrittene Wahrscheinlichkeitstheorie
Konfidenzintervalle für Populationsparameter
In den vorherigen Kapiteln haben wir betrachtet, wie es möglich ist, die Parameter der Population zu schätzen und die Qualität der Schätzungen zu überprüfen. Aber diese Schätzungen waren Punkt: Wir haben einfach den möglichen Wert des Parameters basierend auf den Daten, die wir haben, bestimmt. Aber es gibt einen anderen Ansatz: Wir können ein bestimmtes Intervall konstruieren, das mit einer gewissen Wahrscheinlichkeit den tatsächlichen Wert des gewünschten Parameters abdeckt. Dieses Intervall wird als Konfidenzintervall bezeichnet. Schauen wir uns die Definition an:
Das Prinzip der Konstruktion von Konfidenzintervallen ist dem Prinzip der Konstruktion von Punktschätzungen etwas ähnlich. Wir verwenden auch eine bestimmte Funktion mit unseren Stichproben als Argumente für diese Funktion. Dabei nutzen wir das Verteilungsgesetz dieser Funktion und bauen ein Intervall. Eine strenge mathematische Erklärung dieses Prozesses kann jedoch ziemlich kompliziert sein, daher werden wir nicht näher darauf eingehen.
Hinweis
Es ist erwähnenswert, dass es eine andere Art der Intervallschätzung für Populationsparameter gibt, die als glaubwürdiges Intervall bezeichnet wird und mit dem Bayesschen Theorem konstruiert wird. Diese Intervalle haben unterschiedliche Interpretationen:
Das Konfidenzintervall ist im Wesentlichen ein Intervall mit zufälligen Endpunkten, das mit einer bestimmten Wahrscheinlichkeit den wahren konstanten Wert des Parameters abdeckt;
Im Gegensatz dazu ist das glaubwürdige Intervall ein konstantes Intervall, in dem der zufällige Wert des gewünschten Parameters mit einer bestimmten Wahrscheinlichkeit fällt.
Konfidenzintervall für den Erwartungsparameter der Gaußschen Verteilung
Schauen wir uns an, wie man ein Konfidenzintervall für den Erwartungsparameter der Gaußschen Verteilung erstellt. Wir werden zwei verschiedene Situationen betrachten:
Im obigen Bild haben wir ein Konfidenzintervall für den Erwartungswert einer Gaußschen Verteilung angegeben, wenn wir die Varianz kennen. Wir verwenden die PPF der Gaußschen Verteilung und die Stichprobe, um dieses Intervall zu erstellen.
Dann haben wir ein Konfidenzintervall für den Erwartungswert einer Gaußschen Verteilung angegeben, wenn wir die Varianz nicht kennen, und die angepasste Stichprobenvarianz anstelle der bekannten Varianz zur Schätzung verwendet. Wir verwenden die PPF der Student-Verteilung mit einem Freiheitsgrad von n-1
, um dieses Intervall zu erstellen.
Konfidenzintervall mit Python
Schauen wir uns nun an, wie man ein Konfidenzintervall für den Mittelwert von Gaußschen Stichproben in Python erstellt. Wir werden verschiedene Konfidenzniveaus verwenden und die aufgrund der entsprechenden Konfidenzniveaus erstellten Intervalle vergleichen.
import numpy as np from scipy import stats import pandas as pd # Load the dataset samples = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/Advanced+Probability+course+media/gaussian_samples.csv', names=['Value']) data = np.array(samples) # Calculate the degrees of freedom n = len(data) df = n - 1 # Build confidence intervals with different confidence levels for conf_level in [0.9, 0.95, 0.99]: # Calculate the t-value for the given confidence level and degrees of freedom t_value = stats.t.ppf((1+ conf_level) / 2, df) # Calculate the sample mean and adjusted sample variance mean = np.mean(data) adjusted_var = np.var(data, ddof=1) # Calculate the lower and upper bounds of the confidence interval lower_bound = mean - t_value * np.sqrt(adjusted_var) / np.sqrt(n) upper_bound = mean + t_value * np.sqrt(adjusted_var) / np.sqrt(n) # Print the result print(f'{conf_level:.0%} confidence interval for mean value is: ({lower_bound:.2f}, {upper_bound:.2f})')
Wir sehen, dass je höher das Konfidenzniveau ist, desto breiter wird das Intervall. Das ist ganz logisch, da je breiter das Intervall, desto höher die Wahrscheinlichkeit, dass dieses Intervall den tatsächlichen Wert des Mittels abdeckt.
Danke für Ihr Feedback!