Boîte à Moustaches
Boîte à moustaches est un autre graphique extrêmement courant en statistique, utilisé pour visualiser la tendance centrale, la dispersion et les valeurs aberrantes potentielles dans les données via leurs quartiles.
Quartiles
Les quartiles divisent les points de données (triés par ordre croissant) en quatre parties de taille égale. Il y en a trois :
Le premier quartile (Q1) est la valeur médiane entre la plus petite valeur de l’échantillon et la médiane (25 % des données se trouvent dans cette plage) ;
Le deuxième quartile (Q2) est la médiane elle-même (50 % des données se trouvent en dessous de la médiane) ;
Le troisième quartile (Q3) est la valeur médiane entre la médiane de l’échantillon et la plus grande valeur de l’échantillon (75 % des données se trouvent en dessous du Q3).
Éléments du diagramme en boîte
Le côté droit du rectangle rouge représente le troisième quartile et le côté gauche représente le premier quartile ;
Q3 - Q1 est appelé l’intervalle interquartile (IQR), qui est représenté par le rectangle où la ligne jaune indique la médiane ;
Les lignes noires à l’extérieur du rectangle sont appelées moustaches. Celle de gauche représente , et celle de droite représente ;
Les points de données situés en dehors des moustaches sont appelés valeurs aberrantes.
L’étape suivante consiste à générer un diagramme en boîte à l’aide de la bibliothèque matplotlib
:
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Données du diagramme en boîte
La fonction boxplot()
du module pyplot
s'utilise avec le premier et unique paramètre obligatoire x
représentant les données. Ces données peuvent être un objet de type array-like (par exemple, une Series
), un tableau 2D (un diagramme en boîte est tracé pour chaque colonne), ou une séquence de tableaux 1D (un diagramme en boîte est tracé pour chaque tableau).
Paramètres optionnels
Le paramètre tick_labels
fait exception. Celui-ci est particulièrement utile non seulement pour étiqueter un seul diagramme en boîte, mais aussi pour étiqueter les diagrammes en boîte lorsqu'il y a plus d'un tableau :
import pandas as pd import matplotlib.pyplot as plt # Loading the dataset with the average yearly temperatures in Boston and Seattle url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Dans cet exemple, l'ensemble du DataFrame
comportant deux colonnes a été transmis à boxplot()
, ce qui a généré des boîtes à moustaches distinctes pour chaque colonne, avec des étiquettes appropriées automatiquement attribuées.
Il existe également de nombreux paramètres optionnels pour personnaliser le box plot, que vous pouvez explorer dans la documentation de boxplot()
, bien qu'en pratique vous les utilisiez rarement.
Swipe to start coding
Créer deux boîtes à moustaches à l'aide de deux échantillons issus de la distribution normale standard :
- Utiliser la fonction appropriée pour créer les boîtes à moustaches.
- Utiliser la liste
normal_sample_1
etnormal_sample_2
(dans cet ordre de gauche à droite) comme données. - Étiqueter la boîte de gauche comme
First sample
et celle de droite commeSecond sample
à l'aide de lalist
.
Solution
Merci pour vos commentaires !