Apprendre Défi : Approche de Rééchantillonnage pour Comparer les Valeurs Moyennes des Ensembles de Données

Nous pouvons également utiliser l'approche de rééchantillonnage pour tester l'hypothèse avec des ensembles de données non gaussiens. Le rééchantillonnage est une technique d'échantillonnage à partir d'un ensemble de données disponible pour générer des échantillons supplémentaires, chacun étant considéré comme représentatif de la population sous-jacente.

Description de l'approche

Décrivons la méthode de rééchantillonnage la plus simple pour vérifier l'hypothèse principale selon laquelle deux ensembles de données X et Y ont des valeurs moyennes égales :

Concaténer les deux tableaux (X et Y) en un seul grand tableau ;
Mélanger ce tableau entier afin que les observations de chaque groupe soient réparties aléatoirement dans ce tableau au lieu d'être séparées au point de rupture ;
Diviser arbitrairement le tableau au point de rupture (X_length), attribuer les observations en dessous de l'index len(X_length) au Groupe A et le reste au Groupe B ;
Soustraire la moyenne de ce nouveau Groupe A de la moyenne du nouveau Groupe B. Cela nous donnerait une statistique de test de permutation ;
Répéter ces étapes N fois pour simuler la distribution de l'hypothèse principale ;
Calculer les statistiques de test sur les ensembles initiaux X et Y ;
Déterminer les valeurs critiques de la distribution de l'hypothèse principale ;
Vérifier si la statistique de test calculée sur les ensembles initiaux tombe dans une zone critique de la distribution de l'hypothèse principale. Si c'est le cas, rejeter l'hypothèse principale.

Appliquons cette approche en code :

Tâche

Swipe to start coding

Votre tâche consiste à implémenter l'algorithme de rééchantillonnage décrit ci-dessus et à vérifier l'hypothèse correspondante sur deux ensembles de données :

Utilisez la méthode np.concatenate() pour fusionner les tableaux X et Y.
Utilisez la méthode .shuffle() du module np.random pour mélanger les données dans le tableau fusionné.
Utilisez la méthode np.quantile() pour calculer la valeur critique gauche.
Utilisez la fonction créée resampling_test() pour vérifier l'hypothèse sur les données générées.

Solution

Tout était clair ?

Merci pour vos commentaires !

Section 4. Chapitre 5

single

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu