Contenu du cours
Théorie Avancée des Probabilités
Théorie Avancée des Probabilités
Estimation Cohérente
En statistique, une estimation consistante est une estimation qui converge vers la vraie valeur du paramètre à mesure que la taille de l'échantillon augmente, ce qui signifie que l'estimation devient de plus en plus précise à mesure que plus de données sont collectées. Formellement, cela peut être décrit comme suit :
Cette définition peut sembler assez compliquée. De plus, en pratique, il n'est pas toujours facile de vérifier la cohérence d'une estimation de cette manière, c'est pourquoi nous introduirons un critère appliqué plus simple de cohérence :
Ainsi, si notre estimateur est asymptotiquement sans biais ou simplement sans biais et que la variance de l'estimateur diminue avec l'augmentation de la taille de l'échantillon, alors un tel estimateur est cohérent.
Montrons que les estimations de la moyenne de l'échantillon et de la variance ajustée de l'échantillon sont cohérentes.
Estimation de la moyenne de l'échantillon
L'estimation de la moyenne de l'échantillon est cohérente par définition en raison de la loi des grands nombres : plus nous incluons de termes pour calculer la valeur moyenne, plus la valeur résultante tend à se rapprocher de l'espérance mathématique.
Estimation de la variance ajustée de l'échantillon
Pour vérifier la cohérence de la variance ajustée de l'échantillon, utilisons une simulation :
import numpy as np import matplotlib.pyplot as plt # Generate 5000 samples from a normal distribution with mean 2 and standard deviation 2 samples = np.random.normal(2, 2, 5000) # Function to calculate adjusted variance of subsamples def adjusted_variance_value(data, subsample_size): return samples[:subsample_size].var(ddof=1) # Calculate the adjusted variance using Bessel's correction # Visualizing the results x = np.arange(2, 5000) # Generate values for the number of elements to calculate variance y = np.zeros(4998) # Initialize an array to store the calculated variances for i in range(4998): # Loop through the range of subsample sizes y[i] = adjusted_variance_value(samples, x[i]) # Calculate adjusted variance for each subsample size # Plotting the results plt.plot(x, y, label='Estimated adjusted variance') # Plot estimated adjusted variance plt.xlabel('Number of elements to calculate variance') # Set x-axis label plt.ylabel('Variance') # Set y-axis label plt.axhline(y=4, color='k', label='Real variance') # Add a horizontal line representing the real variance plt.legend() # Add legend to the plot plt.show() # Display the result
Selon la visualisation, nous pouvons voir qu'à mesure que le nombre d'éléments augmente, la variance de l'échantillon ajustée tend vers sa valeur réelle, donc l'estimation est cohérente.
Merci pour vos commentaires !