Apprendre Population Générale. Échantillons. Paramètres de Population.

La population générale représente comment les choses sont généralement réparties dans la vie réelle. Par exemple, la taille des hommes adultes aux États-Unis est généralement d'environ 70 pouces, avec une variation d'environ 3 pouces. Donc, si nous prenons un groupe d'hommes aux États-Unis, leurs tailles suivraient ce schéma.

Un échantillon est un petit groupe que nous utilisons pour comprendre le tableau plus large de la population générale. Par exemple, si nous voulons connaître la taille des hommes aux États-Unis, nous pourrions mesurer la taille de quelques hommes de différents endroits. Ces tailles mesurées sont nos échantillons.


              123456789
            
import numpy as np
# Specify parameters of general population
mean = 70
std = 3
# Specify number of sumples to generate
size = 10
# Generate samples
samples = np.random.normal(mean, std, size)
print('Samples are: ', samples)

Ainsi, chaque échantillon est essentiellement une variable aléatoire avec une distribution donnée par la population générale.
Dans l'exemple ci-dessus, nous avons d'abord défini le type et les paramètres de la population générale, puis généré les échantillons correspondants. Dans les tâches réelles d'analyse et de science des données, nous devons généralement résoudre le problème inverse : nous avons des échantillons générés à partir d'une certaine population générale, et nous devons déterminer de quelle population particulière ces échantillons ont été générés.

Pour ce faire, nous devons suivre la liste des étapes suivantes :

Étape 1. Tout d'abord, il est nécessaire de déterminer si nous avons affaire à une population générale discrète ou continue;

Étape 2. Il est nécessaire d'estimer à quel type de distribution nos données appartiennent. Cela peut être fait en utilisant la visualisation : pour les données discrètes, nous construisons un polygone de fréquence, et pour les données continues, un histogramme. Ensuite, nous pouvons supposer que nos données ont une distribution avec PMF/PDF, qui est la plus similaire à notre polygone de fréquence/histogramme;


              1234567891011121314151617181920212223242526272829303132
            
import numpy as np
import matplotlib.pyplot as plt

# Generating 1000 samples from a continuous normal distribution with mean 70 and standard deviation 3
samples_cont = np.random.normal(70, 3, 1000)
# Generate 500 samples from a discrete distribution
samples_disc = np.random.choice(['Red', 'Blue', 'Green', 'Black', 'White'], size=500, p=[0.3, 0.2, 0.15, 0.15, 0.2]) 

# Creating the figure and subplots
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# Plotting the histogram on the first subplot
axes[0].hist(samples_cont, bins=20, alpha=0.5, color='blue', density=True)
axes[0].set_xlabel('Values')
axes[0].set_ylabel('Frequency')
axes[0].set_title('Histogram of Continuous Variable')

# Plotting the frequency polygon on the second subplot

# Calculate the empirical probabilities
counts = np.unique(samples_disc, return_counts=True)[1]
probs = counts / len(samples_disc)

# Plot the frequency polygon
axes[1].plot(['Red', 'Blue', 'Green', 'Black', 'White'], probs, marker='o', linestyle='--')
axes[1].set_title('Frequency Polygon')
axes[1].set_xlabel('Color')
axes[1].set_ylabel('Estimated Probability')

# Adjusting the layout and displaying the plot
plt.tight_layout()
plt.show()

Étape 3. Comme nous l'avons mentionné dans les chapitres précédents, la visualisation ne suffit pas pour déterminer avec précision le type de distribution. Par conséquent, après la visualisation, divers critères statistiques sont généralement appliqués pour montrer plus formellement que nos données appartiennent à une population générale ou à une autre;

Étape 4. Après avoir déterminé le type de distribution, vous devez estimer les paramètres de cette distribution. Par exemple, si vous supposez d'après l'histogramme que les données sont distribuées normalement, alors vous devez estimer la valeur moyenne et la variance; si vous supposez que les données sont distribuées exponentiellement, alors vous devez déterminer le paramètre lambda, et ainsi de suite. En plus de l'estimation ponctuelle des paramètres, des intervalles de confiance sont également construits pour les paramètres correspondants.

Dans cette section, nous nous concentrerons plus en détail sur la quatrième étape et examinerons comment estimer les paramètres de la population générale et comment déterminer la qualité des estimations.

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Glissez pour afficher le menu


              123456789
            
import numpy as np
# Specify parameters of general population
mean = 70
std = 3
# Specify number of sumples to generate
size = 10
# Generate samples
samples = np.random.normal(mean, std, size)
print('Samples are: ', samples)

Pour ce faire, nous devons suivre la liste des étapes suivantes :

Étape 1. Tout d'abord, il est nécessaire de déterminer si nous avons affaire à une population générale discrète ou continue;


              1234567891011121314151617181920212223242526272829303132
            
import numpy as np
import matplotlib.pyplot as plt

# Generating 1000 samples from a continuous normal distribution with mean 70 and standard deviation 3
samples_cont = np.random.normal(70, 3, 1000)
# Generate 500 samples from a discrete distribution
samples_disc = np.random.choice(['Red', 'Blue', 'Green', 'Black', 'White'], size=500, p=[0.3, 0.2, 0.15, 0.15, 0.2]) 

# Creating the figure and subplots
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# Plotting the histogram on the first subplot
axes[0].hist(samples_cont, bins=20, alpha=0.5, color='blue', density=True)
axes[0].set_xlabel('Values')
axes[0].set_ylabel('Frequency')
axes[0].set_title('Histogram of Continuous Variable')

# Plotting the frequency polygon on the second subplot

# Calculate the empirical probabilities
counts = np.unique(samples_disc, return_counts=True)[1]
probs = counts / len(samples_disc)

# Plot the frequency polygon
axes[1].plot(['Red', 'Blue', 'Green', 'Black', 'White'], probs, marker='o', linestyle='--')
axes[1].set_title('Frequency Polygon')
axes[1].set_xlabel('Color')
axes[1].set_ylabel('Estimated Probability')

# Adjusting the layout and displaying the plot
plt.tight_layout()
plt.show()

Tout était clair ?

Merci pour vos commentaires !

Section 3. Chapitre 1