Contenu du cours
Théorie Avancée des Probabilités
Théorie Avancée des Probabilités
Population Générale. Échantillons. Paramètres de Population.
La population générale représente comment les choses sont généralement réparties dans la vie réelle. Par exemple, la taille des hommes adultes aux États-Unis est généralement d'environ 70
pouces, avec une variation d'environ 3
pouces. Donc, si nous prenons un groupe d'hommes aux États-Unis, leurs tailles suivraient ce schéma.
Un échantillon est un petit groupe que nous utilisons pour comprendre le tableau plus large de la population générale. Par exemple, si nous voulons connaître la taille des hommes aux États-Unis, nous pourrions mesurer la taille de quelques hommes de différents endroits. Ces tailles mesurées sont nos échantillons.
import numpy as np # Specify parameters of general population mean = 70 std = 3 # Specify number of sumples to generate size = 10 # Generate samples samples = np.random.normal(mean, std, size) print('Samples are: ', samples)
Ainsi, chaque échantillon est essentiellement une variable aléatoire avec une distribution donnée par la population générale.
Dans l'exemple ci-dessus, nous avons d'abord défini le type et les paramètres de la population générale, puis généré les échantillons correspondants. Dans les tâches réelles d'analyse et de science des données, nous devons généralement résoudre le problème inverse : nous avons des échantillons générés à partir d'une certaine population générale, et nous devons déterminer de quelle population particulière ces échantillons ont été générés.
Pour ce faire, nous devons suivre la liste des étapes suivantes :
Étape 1. Tout d'abord, il est nécessaire de déterminer si nous avons affaire à une population générale discrète ou continue;
Étape 2. Il est nécessaire d'estimer à quel type de distribution nos données appartiennent. Cela peut être fait en utilisant la visualisation : pour les données discrètes, nous construisons un polygone de fréquence, et pour les données continues, un histogramme. Ensuite, nous pouvons supposer que nos données ont une distribution avec PMF/PDF, qui est la plus similaire à notre polygone de fréquence/histogramme;
import numpy as np import matplotlib.pyplot as plt # Generating 1000 samples from a continuous normal distribution with mean 70 and standard deviation 3 samples_cont = np.random.normal(70, 3, 1000) # Generate 500 samples from a discrete distribution samples_disc = np.random.choice(['Red', 'Blue', 'Green', 'Black', 'White'], size=500, p=[0.3, 0.2, 0.15, 0.15, 0.2]) # Creating the figure and subplots fig, axes = plt.subplots(1, 2, figsize=(10, 4)) # Plotting the histogram on the first subplot axes[0].hist(samples_cont, bins=20, alpha=0.5, color='blue', density=True) axes[0].set_xlabel('Values') axes[0].set_ylabel('Frequency') axes[0].set_title('Histogram of Continuous Variable') # Plotting the frequency polygon on the second subplot # Calculate the empirical probabilities counts = np.unique(samples_disc, return_counts=True)[1] probs = counts / len(samples_disc) # Plot the frequency polygon axes[1].plot(['Red', 'Blue', 'Green', 'Black', 'White'], probs, marker='o', linestyle='--') axes[1].set_title('Frequency Polygon') axes[1].set_xlabel('Color') axes[1].set_ylabel('Estimated Probability') # Adjusting the layout and displaying the plot plt.tight_layout() plt.show()
Étape 3. Comme nous l'avons mentionné dans les chapitres précédents, la visualisation ne suffit pas pour déterminer avec précision le type de distribution. Par conséquent, après la visualisation, divers critères statistiques sont généralement appliqués pour montrer plus formellement que nos données appartiennent à une population générale ou à une autre;
Étape 4. Après avoir déterminé le type de distribution, vous devez estimer les paramètres de cette distribution. Par exemple, si vous supposez d'après l'histogramme que les données sont distribuées normalement, alors vous devez estimer la valeur moyenne et la variance; si vous supposez que les données sont distribuées exponentiellement, alors vous devez déterminer le paramètre lambda, et ainsi de suite. En plus de l'estimation ponctuelle des paramètres, des intervalles de confiance sont également construits pour les paramètres correspondants.
Dans cette section, nous nous concentrerons plus en détail sur la quatrième étape et examinerons comment estimer les paramètres de la population générale et comment déterminer la qualité des estimations.
Merci pour vos commentaires !