Contenu du cours
Visualisation Ultime Avec Python
Visualisation Ultime Avec Python
Boîte à Moustaches
Diagramme en boîte est un autre graphique extrêmement courant en statistiques utilisé pour visualiser la tendance centrale, la dispersion et les valeurs aberrantes potentielles dans les données via leurs quartiles.
Quartiles
Les quartiles divisent les points de données (triés par ordre croissant) en quatre parties de taille égale. Il y en a trois :
- Le premier quartile (Q1) est le nombre médian entre la plus petite valeur (nombre) de l'échantillon et la médiane (25 % des données se trouvent dans cette plage) ;
- Le deuxième quartile (Q2) est la médiane elle-même (50 % des données se trouvent en dessous de la médiane) ;
- Le troisième quartile (Q3) est le nombre médian entre la médiane de l'échantillon et les valeurs les plus élevées de l'échantillon (75 % des données se trouvent en dessous du Q3).
Regardons un exemple de diagramme en boîte :
Ce diagramme en boîte est basé sur les données du PIB par habitant dans différents pays.
Éléments du Diagramme en Boîte
- Le côté supérieur du rectangle bleu représente le troisième quartile (supérieur) et le côté inférieur représente le premier quartile ;
- Q3- Q1 est appelé intervalle interquartile (IR) qui est représenté par le rectangle où la ligne verte est la médiane ;
- Les lignes noires à l'extérieur du rectangle sont appelées moustaches. La moustache inférieure représente Q1 -1.5* IR, et la moustache supérieure représente Q3 +1.5* IR ;
- Les points de données qui sont à l'extérieur des moustaches sont appelés valeurs aberrantes (dans cet exemple, il y en a pas mal).
Il est maintenant temps de créer un diagramme en boîte avec l'aide de matplotlib
:
import pandas as pd import matplotlib.pyplot as plt url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' # Loading the dataset with the average yealy temperatures in Boston and Seattle weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Données du Box Plot
Comme vous pouvez le voir, tout est assez simple ici. Vous devez simplement utiliser la fonction boxplot()
du module pyplot
avec le premier paramètre (le seul requis) appelé x
, qui est vos données. Cela peut être soit un array-like (ici Series
), un tableau 2D (un box plot est tracé pour chaque colonne) ou une séquence de tableaux 1D (un box plot est tracé pour chaque tableau).
Paramètres Optionnels
Il y a aussi pas mal de paramètres optionnels pour personnaliser le box plot, que vous pouvez explorer ici, mais en pratique, vous pourriez rarement les utiliser.
Le paramètre tick_labels
est une exception. Celui-ci en particulier est utile non seulement pour étiqueter un seul box plot, mais aussi pour étiqueter les box plots lorsqu'il y a plus d'un tableau :
import pandas as pd import matplotlib.pyplot as plt url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Ici, nous avons légèrement modifié notre exemple en passant l'ensemble du DataFrame
, qui a 2 colonnes, et en étiquetant chaque diagramme en boîte de manière appropriée.
Swipe to start coding
Votre tâche consiste à créer deux diagrammes en boîte en utilisant deux échantillons de la distribution normale standard :
- Utilisez la fonction correcte pour créer les diagrammes en boîte.
- Utilisez la liste de
normal_sample_1
etnormal_sample_2
(dans cet ordre de gauche à droite) comme données. - Étiquetez le diagramme en boîte de gauche comme
First sample
et celui de droite commeSecond sample
en utilisant lalist
.
Solution
Merci pour vos commentaires !
Boîte à Moustaches
Diagramme en boîte est un autre graphique extrêmement courant en statistiques utilisé pour visualiser la tendance centrale, la dispersion et les valeurs aberrantes potentielles dans les données via leurs quartiles.
Quartiles
Les quartiles divisent les points de données (triés par ordre croissant) en quatre parties de taille égale. Il y en a trois :
- Le premier quartile (Q1) est le nombre médian entre la plus petite valeur (nombre) de l'échantillon et la médiane (25 % des données se trouvent dans cette plage) ;
- Le deuxième quartile (Q2) est la médiane elle-même (50 % des données se trouvent en dessous de la médiane) ;
- Le troisième quartile (Q3) est le nombre médian entre la médiane de l'échantillon et les valeurs les plus élevées de l'échantillon (75 % des données se trouvent en dessous du Q3).
Regardons un exemple de diagramme en boîte :
Ce diagramme en boîte est basé sur les données du PIB par habitant dans différents pays.
Éléments du Diagramme en Boîte
- Le côté supérieur du rectangle bleu représente le troisième quartile (supérieur) et le côté inférieur représente le premier quartile ;
- Q3- Q1 est appelé intervalle interquartile (IR) qui est représenté par le rectangle où la ligne verte est la médiane ;
- Les lignes noires à l'extérieur du rectangle sont appelées moustaches. La moustache inférieure représente Q1 -1.5* IR, et la moustache supérieure représente Q3 +1.5* IR ;
- Les points de données qui sont à l'extérieur des moustaches sont appelés valeurs aberrantes (dans cet exemple, il y en a pas mal).
Il est maintenant temps de créer un diagramme en boîte avec l'aide de matplotlib
:
import pandas as pd import matplotlib.pyplot as plt url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' # Loading the dataset with the average yealy temperatures in Boston and Seattle weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
Données du Box Plot
Comme vous pouvez le voir, tout est assez simple ici. Vous devez simplement utiliser la fonction boxplot()
du module pyplot
avec le premier paramètre (le seul requis) appelé x
, qui est vos données. Cela peut être soit un array-like (ici Series
), un tableau 2D (un box plot est tracé pour chaque colonne) ou une séquence de tableaux 1D (un box plot est tracé pour chaque tableau).
Paramètres Optionnels
Il y a aussi pas mal de paramètres optionnels pour personnaliser le box plot, que vous pouvez explorer ici, mais en pratique, vous pourriez rarement les utiliser.
Le paramètre tick_labels
est une exception. Celui-ci en particulier est utile non seulement pour étiqueter un seul box plot, mais aussi pour étiqueter les box plots lorsqu'il y a plus d'un tableau :
import pandas as pd import matplotlib.pyplot as plt url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
Ici, nous avons légèrement modifié notre exemple en passant l'ensemble du DataFrame
, qui a 2 colonnes, et en étiquetant chaque diagramme en boîte de manière appropriée.
Swipe to start coding
Votre tâche consiste à créer deux diagrammes en boîte en utilisant deux échantillons de la distribution normale standard :
- Utilisez la fonction correcte pour créer les diagrammes en boîte.
- Utilisez la liste de
normal_sample_1
etnormal_sample_2
(dans cet ordre de gauche à droite) comme données. - Étiquetez le diagramme en boîte de gauche comme
First sample
et celui de droite commeSecond sample
en utilisant lalist
.
Solution
Merci pour vos commentaires !