Contenu du cours
Théorie Avancée des Probabilités
Théorie Avancée des Probabilités
Défi : Approche de Rééchantillonnage pour Comparer les Valeurs Moyennes des Ensembles de Données
Nous pouvons également utiliser l'approche de rééchantillonnage pour tester l'hypothèse avec des ensembles de données non gaussiens. Le rééchantillonnage est une technique d'échantillonnage à partir d'un ensemble de données disponible pour générer des échantillons supplémentaires, chacun étant considéré comme représentatif de la population sous-jacente.
Description de l'approche
Décrivons la méthode de rééchantillonnage la plus simple pour vérifier l'hypothèse principale selon laquelle deux ensembles de données X et Y ont des valeurs moyennes égales :
-
Concaténer les deux tableaux (
X
etY
) en un seul grand tableau ; -
Mélanger ce tableau entier afin que les observations de chaque groupe soient réparties aléatoirement dans ce tableau au lieu d'être séparées au point de rupture ;
-
Diviser arbitrairement le tableau au point de rupture (
X_length
), attribuer les observations en dessous de l'indexlen(X_length)
au Groupe A et le reste au Groupe B ; -
Soustraire la moyenne de ce nouveau Groupe A de la moyenne du nouveau Groupe B. Cela nous donnerait une statistique de test de permutation ;
-
Répéter ces étapes
N
fois pour simuler la distribution de l'hypothèse principale ; -
Calculer les statistiques de test sur les ensembles initiaux
X
etY
; -
Déterminer les valeurs critiques de la distribution de l'hypothèse principale ;
-
Vérifier si la statistique de test calculée sur les ensembles initiaux tombe dans une zone critique de la distribution de l'hypothèse principale. Si c'est le cas, rejeter l'hypothèse principale.
Appliquons cette approche en code :
Swipe to start coding
Votre tâche consiste à implémenter l'algorithme de rééchantillonnage décrit ci-dessus et à vérifier l'hypothèse correspondante sur deux ensembles de données :
- Utilisez la méthode
np.concatenate()
pour fusionner les tableauxX
etY
. - Utilisez la méthode
.shuffle()
du modulenp.random
pour mélanger les données dans le tableau fusionné. - Utilisez la méthode
np.quantile()
pour calculer la valeur critique gauche. - Utilisez la fonction créée
resampling_test()
pour vérifier l'hypothèse sur les données générées.
Solution
Merci pour vos commentaires !
Défi : Approche de Rééchantillonnage pour Comparer les Valeurs Moyennes des Ensembles de Données
Nous pouvons également utiliser l'approche de rééchantillonnage pour tester l'hypothèse avec des ensembles de données non gaussiens. Le rééchantillonnage est une technique d'échantillonnage à partir d'un ensemble de données disponible pour générer des échantillons supplémentaires, chacun étant considéré comme représentatif de la population sous-jacente.
Description de l'approche
Décrivons la méthode de rééchantillonnage la plus simple pour vérifier l'hypothèse principale selon laquelle deux ensembles de données X et Y ont des valeurs moyennes égales :
-
Concaténer les deux tableaux (
X
etY
) en un seul grand tableau ; -
Mélanger ce tableau entier afin que les observations de chaque groupe soient réparties aléatoirement dans ce tableau au lieu d'être séparées au point de rupture ;
-
Diviser arbitrairement le tableau au point de rupture (
X_length
), attribuer les observations en dessous de l'indexlen(X_length)
au Groupe A et le reste au Groupe B ; -
Soustraire la moyenne de ce nouveau Groupe A de la moyenne du nouveau Groupe B. Cela nous donnerait une statistique de test de permutation ;
-
Répéter ces étapes
N
fois pour simuler la distribution de l'hypothèse principale ; -
Calculer les statistiques de test sur les ensembles initiaux
X
etY
; -
Déterminer les valeurs critiques de la distribution de l'hypothèse principale ;
-
Vérifier si la statistique de test calculée sur les ensembles initiaux tombe dans une zone critique de la distribution de l'hypothèse principale. Si c'est le cas, rejeter l'hypothèse principale.
Appliquons cette approche en code :
Swipe to start coding
Votre tâche consiste à implémenter l'algorithme de rééchantillonnage décrit ci-dessus et à vérifier l'hypothèse correspondante sur deux ensembles de données :
- Utilisez la méthode
np.concatenate()
pour fusionner les tableauxX
etY
. - Utilisez la méthode
.shuffle()
du modulenp.random
pour mélanger les données dans le tableau fusionné. - Utilisez la méthode
np.quantile()
pour calculer la valeur critique gauche. - Utilisez la fonction créée
resampling_test()
pour vérifier l'hypothèse sur les données générées.
Solution
Merci pour vos commentaires !