Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Population Générale. Échantillons. Paramètres de Population. | Estimation des Paramètres de Population
Théorie Avancée des Probabilités
course content

Contenu du cours

Théorie Avancée des Probabilités

Théorie Avancée des Probabilités

1. Déclarations Supplémentaires de la Théorie des Probabilités
2. Les Théorèmes Limites de la Théorie des Probabilités
3. Estimation des Paramètres de Population
4. Test des Hypothèses Statistiques

book
Population Générale. Échantillons. Paramètres de Population.

La population générale représente comment les choses sont généralement réparties dans la vie réelle. Par exemple, la taille des hommes adultes aux États-Unis est généralement d'environ 70 pouces, avec une variation d'environ 3 pouces. Donc, si nous prenons un groupe d'hommes aux États-Unis, leurs tailles suivraient ce schéma.

Un échantillon est un petit groupe que nous utilisons pour comprendre le tableau plus large de la population générale. Par exemple, si nous voulons connaître la taille des hommes aux États-Unis, nous pourrions mesurer la taille de quelques hommes de différents endroits. Ces tailles mesurées sont nos échantillons.

123456789
import numpy as np # Specify parameters of general population mean = 70 std = 3 # Specify number of sumples to generate size = 10 # Generate samples samples = np.random.normal(mean, std, size) print('Samples are: ', samples)
copy

Ainsi, chaque échantillon est essentiellement une variable aléatoire avec une distribution donnée par la population générale.
Dans l'exemple ci-dessus, nous avons d'abord défini le type et les paramètres de la population générale, puis généré les échantillons correspondants. Dans les tâches réelles d'analyse et de science des données, nous devons généralement résoudre le problème inverse : nous avons des échantillons générés à partir d'une certaine population générale, et nous devons déterminer de quelle population particulière ces échantillons ont été générés.

Pour ce faire, nous devons suivre la liste des étapes suivantes :

Étape 1. Tout d'abord, il est nécessaire de déterminer si nous avons affaire à une population générale discrète ou continue;

Étape 2. Il est nécessaire d'estimer à quel type de distribution nos données appartiennent. Cela peut être fait en utilisant la visualisation : pour les données discrètes, nous construisons un polygone de fréquence, et pour les données continues, un histogramme. Ensuite, nous pouvons supposer que nos données ont une distribution avec PMF/PDF, qui est la plus similaire à notre polygone de fréquence/histogramme;

1234567891011121314151617181920212223242526272829303132
import numpy as np import matplotlib.pyplot as plt # Generating 1000 samples from a continuous normal distribution with mean 70 and standard deviation 3 samples_cont = np.random.normal(70, 3, 1000) # Generate 500 samples from a discrete distribution samples_disc = np.random.choice(['Red', 'Blue', 'Green', 'Black', 'White'], size=500, p=[0.3, 0.2, 0.15, 0.15, 0.2]) # Creating the figure and subplots fig, axes = plt.subplots(1, 2, figsize=(10, 4)) # Plotting the histogram on the first subplot axes[0].hist(samples_cont, bins=20, alpha=0.5, color='blue', density=True) axes[0].set_xlabel('Values') axes[0].set_ylabel('Frequency') axes[0].set_title('Histogram of Continuous Variable') # Plotting the frequency polygon on the second subplot # Calculate the empirical probabilities counts = np.unique(samples_disc, return_counts=True)[1] probs = counts / len(samples_disc) # Plot the frequency polygon axes[1].plot(['Red', 'Blue', 'Green', 'Black', 'White'], probs, marker='o', linestyle='--') axes[1].set_title('Frequency Polygon') axes[1].set_xlabel('Color') axes[1].set_ylabel('Estimated Probability') # Adjusting the layout and displaying the plot plt.tight_layout() plt.show()
copy

Étape 3. Comme nous l'avons mentionné dans les chapitres précédents, la visualisation ne suffit pas pour déterminer avec précision le type de distribution. Par conséquent, après la visualisation, divers critères statistiques sont généralement appliqués pour montrer plus formellement que nos données appartiennent à une population générale ou à une autre;

Étape 4. Après avoir déterminé le type de distribution, vous devez estimer les paramètres de cette distribution. Par exemple, si vous supposez d'après l'histogramme que les données sont distribuées normalement, alors vous devez estimer la valeur moyenne et la variance; si vous supposez que les données sont distribuées exponentiellement, alors vous devez déterminer le paramètre lambda, et ainsi de suite. En plus de l'estimation ponctuelle des paramètres, des intervalles de confiance sont également construits pour les paramètres correspondants.

Dans cette section, nous nous concentrerons plus en détail sur la quatrième étape et examinerons comment estimer les paramètres de la population générale et comment déterminer la qualité des estimations.

Pourquoi devons-nous construire un histogramme/polygone de fréquence de nos échantillons ?

Pourquoi devons-nous construire un histogramme/polygone de fréquence de nos échantillons ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 1
We're sorry to hear that something went wrong. What happened?
some-alt