Contenu du cours
Théorie Avancée des Probabilités
Théorie Avancée des Probabilités
Caractéristiques des Variables Aléatoires
Les caractéristiques des variables aléatoires sont importantes car elles fournissent un moyen formel de décrire et d'analyser le comportement des événements et résultats incertains dans un cadre probabiliste. Elles nous permettent de quantifier et de mesurer l'incertitude, la variabilité et la tendance centrale des variables aléatoires, ce qui est essentiel pour prendre des décisions éclairées et tirer des conclusions significatives à partir des données.
La distribution de probabilité d'une variable aléatoire
La distribution de probabilité d'une variable aléatoire spécifie les probabilités associées à chaque valeur possible dans son domaine. Elle peut être représentée à l'aide de la fonction de masse de probabilité (PMF) pour les variables aléatoires discrètes, ou de la fonction de densité de probabilité (PDF) pour les variables aléatoires continues. Nous avons considéré la PMF et la PDF dans le chapitre précédent.
Regardons la PDF de certaines distributions continues :
import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm, expon, chi2 # Create subplots with 1 row and 3 columns fig, axes = plt.subplots(1, 3) # Set figure size fig.set_size_inches(10, 5) # Generate evenly spaced values for x-axis x = np.linspace(0, 10, 500) # Plot PDF of standard normal distribution on the first subplot axes[0].plot(x, norm.pdf(x, loc=5, scale=2)) axes[0].set_title('Standard Normal Distribution') # Plot PDF of exponential distribution on the second subplot axes[1].plot(x, expon.pdf(x)) axes[1].set_title('Exponential Distribution') # Plot PDF of chi-square distribution on the third subplot axes[2].plot(x, chi2.pdf(x, df=3)) axes[2].set_title('Chi-square Distribution') # Show the plot plt.show()
Valeur attendue
La valeur attendue, également connue sous le nom de moyenne ou moyenne arithmétique, d'une variable aléatoire est une mesure de la tendance centrale de la variable aléatoire. Elle représente la moyenne pondérée de toutes les valeurs possibles de la variable aléatoire, pondérées par leurs probabilités respectives.
Supposons que X soit une variable aléatoire discrète et que sa PMF ressemble à :
Valeurs | x_1 | x_2 | x_3 | .... | x_N |
---|---|---|---|---|---|
Probabilité | p_1 | p_2 | p_3 | .... | p_N |
Nous pouvons calculer l'espérance comme suit :

Calculons maintenant l'espérance pour une variable aléatoire continue X. En supposant que f(x)
soit une PDF de cette variable, nous pouvons calculer l'espérance comme suit :
Regardons le tracé PDF de la distribution normale avec différentes moyennes :
import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm # Create a figure object fig = plt.figure() # Set the size of the figure fig.set_size_inches(10, 5) # Generate evenly spaced values for the x-axis x = np.linspace(-10, 10, 500) # Plot three normal distributions with different means plt.plot(x, norm.pdf(x, loc=0, scale=2), label='Normal distribution with 0 mean') plt.plot(x, norm.pdf(x, loc=5, scale=2), label='Normal distribution with 5 mean') plt.plot(x, norm.pdf(x, loc=-5, scale=2), label='Normal distribution with -5 mean') # Add a legend to the plot plt.legend() # Show the plot plt.show()
Variance
La variance d'une variable aléatoire est une mesure de la dispersion ou de l'étalement des valeurs de la variable aléatoire autour de sa valeur espérée. Elle quantifie la variabilité ou l'incertitude associée à la variable aléatoire. Pour calculer la variance, nous pouvons utiliser la formule suivante :
Regardons le graphique PDF de la distribution normale avec différentes variances et une moyenne fixe :
import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm # Create a figure with 1 row and 3 columns of subplots, sharing the y-axis fig, axes = plt.subplots(1, 3, sharey=True) # Set the overall size of the figure fig.set_size_inches(10, 5) # Generate 500 points evenly spaced between -10 and 10 x = np.linspace(-10, 10, 500) # Plot normal distributions with different variances (controlled by 'scale') on each subplot axes[0].plot(x, norm.pdf(x, loc=0, scale=1)) # Variance = 1 (scale = std. dev) axes[1].plot(x, norm.pdf(x, loc=0, scale=3)) # Variance = 9 (std. dev = 3) axes[2].plot(x, norm.pdf(x, loc=0, scale=5)) # Variance = 25 (std. dev = 5) # Set titles for each subplot to indicate the variance axes[0].set_title('Variance = 1') axes[1].set_title('Variance = 9') axes[2].set_title('Variance = 25') # Display the plot with all three distributions plt.show()
La racine carrée de la variance est appelée écart-type. Utiliser l'écart-type au lieu de la variance peut être avantageux pour deux raisons :
- Nous travaillerons avec des valeurs absolues plus petites (alors que la variance sera, par exemple, 225, l'écart-type ne sera que de 15, ce qui est beaucoup plus pratique en termes de calculs) ;
- L'écart-type est mesuré dans les mêmes unités que les données, ce qui peut être important dans certains cas (si, par exemple, nous travaillons avec des longueurs en mètres, alors la variance sera mesurée en mètres carrés, tandis que l'écart-type est toujours en mètres).
Note
Le mot-clé
scale
de la classescipy.stats.norm
représente l'écart-type de la distribution normale.
Le mot-cléloc
de la classescipy.stats.norm
représente la moyenne de la distribution normale.
Médiane
La médiane mesure la tendance centrale en statistiques qui représente la valeur centrale dans un ensemble de données lorsqu'il est classé par ordre croissant ou décroissant.
Nous pouvons calculer la médiane de la variable aléatoire X comme suit :
- Déterminer la CDF de
X
; - Trouver la valeur y telle que CDF(
y
) =0.5
; - Cette valeur y est la médiane de la variable aléatoire
X
.
Il est important de comprendre que la valeur espérée et la médiane sont deux caractéristiques différentes : la valeur espérée est la moyenne pondérée de toutes les valeurs possibles de la variable aléatoire, tandis que les poids sont les probabilités que ces valeurs se produisent ; d'autre part, la médiane est la valeur qui sépare les données en deux moitiés.
Pour les variables aléatoires avec des distributions asymétriques, cette différence est la plus significative.
Regardons l'exemple ci-dessous :
import numpy as np import matplotlib.pyplot as plt import scipy.stats as stats # Create subplots fig, axes = plt.subplots(1, 2) fig.set_size_inches(10, 5) # Calculate the expected value and median for exponential distribution expected_value_exp = stats.expon.mean(scale=2) median_exp = stats.expon.median(scale=2) # Calculate the expected value and median for chi-square distribution expected_value_chi = stats.chi2.mean(df=3) median_chi = stats.chi2.median(df=3) # Generate x values for plotting PDFs x = np.linspace(0, 10, 500) # Plot the PDFs axes[0].plot(x, stats.expon.pdf(x, scale=2), label='Exponential PDF') axes[1].plot(x, stats.chi2.pdf(x, df=3), label='Chi-square PDF') # Plot vertical lines for expected value and median axes[0].axvline(expected_value_exp, color='red', linestyle='--', label='Expected Value') axes[0].axvline(median_exp, color='green', linestyle='--', label='Median') axes[1].axvline(expected_value_chi, color='red', linestyle='--', label='Expected Value') axes[1].axvline(median_chi, color='green', linestyle='--', label='Median') # Set titles and legends axes[0].set_title('Exponential PDF with Expected Value and Median') axes[1].set_title('Chi-square PDF with Expected Value and Median') axes[0].legend() axes[1].legend() # Show the plots plt.show()
Nous voyons que la valeur espérée est décalée dans la direction de la queue de la distribution. Nous devons admettre que la valeur espérée est plus affectée par les valeurs aberrantes et les anomalies, ce qui rend cette caractéristique moins fiable pour l'analyse de données réelles.
Merci pour vos commentaires !