Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Qu'est-ce Que la Valeur P? | Test des Hypothèses Statistiques
Théorie Avancée des Probabilités
course content

Contenu du cours

Théorie Avancée des Probabilités

Théorie Avancée des Probabilités

1. Déclarations Supplémentaires de la Théorie des Probabilités
2. Les Théorèmes Limites de la Théorie des Probabilités
3. Estimation des Paramètres de Population
4. Test des Hypothèses Statistiques

book
Qu'est-ce Que la Valeur P?

La valeur P est une valeur de probabilité utilisée dans les tests d'hypothèses statistiques. C'est la probabilité d'obtenir une statistique de test au moins aussi extrême que celle calculée à partir des données de l'échantillon, en supposant que l'hypothèse nulle est vraie. Ainsi, grâce à la valeur p, nous pouvons déterminer si la valeur de notre critère est tombée dans la région critique

Guide de test d'hypothèse

Étape 1. Nous avons des échantillons et des formulations des hypothèses principale et alternative. Tout d'abord, nous définissons le niveau de signification (probabilité d'erreur de type 1) qui nous satisfera;

Étape 2. Nous choisissons le critère par lequel nous testerons l'hypothèse. En connaissant la distribution de nos données initiales, nous déterminons comment les valeurs de ce critère seront distribuées;

Étape 3. Nous considérons la valeur du critère (appelée aussi statistique de test) pour nos échantillons particuliers, après quoi nous déterminons la p-valeur;

Remarque

Si nous ne pouvons pas déterminer la distribution réelle du critère, nous pouvons alors utiliser l'empirique. L'une des méthodes pour construire la distribution empirique sera discutée dans l'avant-dernier chapitre de cette section.

Étape 4. Nous rejetons l'hypothèse principale si la p-valeur obtenue est inférieure au niveau de signification. Si la p-valeur est supérieure au niveau de signification - nous concluons que l'hypothèse principale est correcte. Nous rejetons toujours l'hypothèse principale si la p-valeur diffère très peu du niveau de signification donné.

Néanmoins, pour tester la plupart des hypothèses, les méthodes correspondantes ont déjà été mises en œuvre, donc nous n'avons pas besoin de compléter toutes les étapes mais simplement d'obtenir la valeur p et de la comparer avec un niveau de signification choisi.

Exemple

Regardons un exemple. Dans Section 3 Chapitre 2, nous avons estimé les paramètres de la population sur la base des échantillons, en faisant l'hypothèse sur la distribution de la population. Vérifions maintenant si nos données suivent une distribution normale / exponentielle avec les paramètres trouvés.

123456789101112131415161718192021222324
from scipy.stats import kstest, norm, expon import pandas as pd import numpy as np gaussian_samples = np.array(pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/Advanced+Probability+course+media/gaussian_samples.csv', names=['Value'])) expon_samples = np.array(pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/Advanced+Probability+course+media/expon_samples.csv', names=['Value'])) # Specify significance level alpha = 0.05 # Perform Kolmogorov-Smirnov test for normal distribution with estimated params. Main hypothesis is that distibutions are equal # By default two-tailed hypothesis is tested: the alternative hypothesis is that distributions are not equal test_statistic, p_value = kstest(gaussian_samples.flatten(), cdf=norm(loc=-0.042, scale=3.964).cdf) if p_value > alpha: print('Data follows a normal distribution') else: print('Data does not follow a normal distribution') # Perform Kolmogorov-Smirnov test for exponential distribution with estimated param test_statistic, p_value = kstest(expon_samples.flatten(), cdf=expon(scale=1/ 0.497).cdf) if p_value > alpha: print('Data follows an exponential distribution') else: print('Data does not follow an exponential distribution')
copy

Dans le code ci-dessus, nous :

  1. Avons importé les ensembles de données nécessaires et spécifié le niveau de signification alpha;
  2. Utilisé le critère de Kolmogorov-Smirnov pour vérifier l'hypothèse sur la distribution de nos échantillons;
    • utilisé la fonction kstest pour obtenir la valeur du critère et la valeur p;
    • utilisé nos données comme premier argument de la fonction kstest et la CDF de la distribution normale/exponentielle avec les paramètres spécifiés comme second argument.
  3. Comparé p_value avec alpha pour accepter/rejeter l'hypothèse principale.

Remarque

Il existe de nombreux tests statistiques pour tester la distribution des échantillons. Les plus populaires sont le test de Shapiro-Wilk (scipy.stats.shapiro), le test d'Anderson-Darling (scipy.stats.anderson), le test du khi-carré de l'ajustement (scipy.stats.chisquare)

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 2
We're sorry to hear that something went wrong. What happened?
some-alt