Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Boîte à Moustaches | Plus de Graphiques Statistiques
Visualisation Ultime Avec Python
course content

Contenu du cours

Visualisation Ultime Avec Python

Visualisation Ultime Avec Python

1. Introduction à Matplotlib
2. Création de Graphiques Couramment Utilisés
3. Personnalisation des Graphiques
4. Plus de Graphiques Statistiques
5. Tracé avec Seaborn

book
Boîte à Moustaches

Diagramme en boîte est un autre graphique extrêmement courant en statistiques utilisé pour visualiser la tendance centrale, la dispersion et les valeurs aberrantes potentielles dans les données via leurs quartiles.

Quartiles

Les quartiles divisent les points de données (triés par ordre croissant) en quatre parties de taille égale. Il y en a trois :

  • Le premier quartile (Q1) est le nombre médian entre la plus petite valeur (nombre) de l'échantillon et la médiane (25 % des données se trouvent dans cette plage) ;
  • Le deuxième quartile (Q2) est la médiane elle-même (50 % des données se trouvent en dessous de la médiane) ;
  • Le troisième quartile (Q3) est le nombre médian entre la médiane de l'échantillon et les valeurs les plus élevées de l'échantillon (75 % des données se trouvent en dessous du Q3).

Regardons un exemple de diagramme en boîte :

Ce diagramme en boîte est basé sur les données du PIB par habitant dans différents pays.

Éléments du Diagramme en Boîte

  • Le côté supérieur du rectangle bleu représente le troisième quartile (supérieur) et le côté inférieur représente le premier quartile ;
  • Q3- Q1 est appelé intervalle interquartile (IR) qui est représenté par le rectangle où la ligne verte est la médiane ;
  • Les lignes noires à l'extérieur du rectangle sont appelées moustaches. La moustache inférieure représente Q1 -1.5* IR, et la moustache supérieure représente Q3 +1.5* IR ;
  • Les points de données qui sont à l'extérieur des moustaches sont appelés valeurs aberrantes (dans cet exemple, il y en a pas mal).

Il est maintenant temps de créer un diagramme en boîte avec l'aide de matplotlib :

12345678
import pandas as pd import matplotlib.pyplot as plt url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' # Loading the dataset with the average yealy temperatures in Boston and Seattle weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Données du Box Plot

Comme vous pouvez le voir, tout est assez simple ici. Vous devez simplement utiliser la fonction boxplot() du module pyplot avec le premier paramètre (le seul requis) appelé x, qui est vos données. Cela peut être soit un array-like (ici Series), un tableau 2D (un box plot est tracé pour chaque colonne) ou une séquence de tableaux 1D (un box plot est tracé pour chaque tableau).

Paramètres Optionnels

Il y a aussi pas mal de paramètres optionnels pour personnaliser le box plot, que vous pouvez explorer ici, mais en pratique, vous pourriez rarement les utiliser.

Le paramètre tick_labels est une exception. Celui-ci en particulier est utile non seulement pour étiqueter un seul box plot, mais aussi pour étiqueter les box plots lorsqu'il y a plus d'un tableau :

1234567
import pandas as pd import matplotlib.pyplot as plt url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

Ici, nous avons légèrement modifié notre exemple en passant l'ensemble du DataFrame, qui a 2 colonnes, et en étiquetant chaque diagramme en boîte de manière appropriée.

Tâche

Swipe to start coding

Votre tâche consiste à créer deux diagrammes en boîte en utilisant deux échantillons de la distribution normale standard :

  1. Utilisez la fonction correcte pour créer les diagrammes en boîte.
  2. Utilisez la liste de normal_sample_1 et normal_sample_2 (dans cet ordre de gauche à droite) comme données.
  3. Étiquetez le diagramme en boîte de gauche comme First sample et celui de droite comme Second sample en utilisant la list.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 2
toggle bottom row

book
Boîte à Moustaches

Diagramme en boîte est un autre graphique extrêmement courant en statistiques utilisé pour visualiser la tendance centrale, la dispersion et les valeurs aberrantes potentielles dans les données via leurs quartiles.

Quartiles

Les quartiles divisent les points de données (triés par ordre croissant) en quatre parties de taille égale. Il y en a trois :

  • Le premier quartile (Q1) est le nombre médian entre la plus petite valeur (nombre) de l'échantillon et la médiane (25 % des données se trouvent dans cette plage) ;
  • Le deuxième quartile (Q2) est la médiane elle-même (50 % des données se trouvent en dessous de la médiane) ;
  • Le troisième quartile (Q3) est le nombre médian entre la médiane de l'échantillon et les valeurs les plus élevées de l'échantillon (75 % des données se trouvent en dessous du Q3).

Regardons un exemple de diagramme en boîte :

Ce diagramme en boîte est basé sur les données du PIB par habitant dans différents pays.

Éléments du Diagramme en Boîte

  • Le côté supérieur du rectangle bleu représente le troisième quartile (supérieur) et le côté inférieur représente le premier quartile ;
  • Q3- Q1 est appelé intervalle interquartile (IR) qui est représenté par le rectangle où la ligne verte est la médiane ;
  • Les lignes noires à l'extérieur du rectangle sont appelées moustaches. La moustache inférieure représente Q1 -1.5* IR, et la moustache supérieure représente Q3 +1.5* IR ;
  • Les points de données qui sont à l'extérieur des moustaches sont appelés valeurs aberrantes (dans cet exemple, il y en a pas mal).

Il est maintenant temps de créer un diagramme en boîte avec l'aide de matplotlib :

12345678
import pandas as pd import matplotlib.pyplot as plt url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' # Loading the dataset with the average yealy temperatures in Boston and Seattle weather_df = pd.read_csv(url, index_col=0) # Creating a box plot for the Seattle temperatures plt.boxplot(weather_df['Seattle']) plt.show()
copy

Données du Box Plot

Comme vous pouvez le voir, tout est assez simple ici. Vous devez simplement utiliser la fonction boxplot() du module pyplot avec le premier paramètre (le seul requis) appelé x, qui est vos données. Cela peut être soit un array-like (ici Series), un tableau 2D (un box plot est tracé pour chaque colonne) ou une séquence de tableaux 1D (un box plot est tracé pour chaque tableau).

Paramètres Optionnels

Il y a aussi pas mal de paramètres optionnels pour personnaliser le box plot, que vous pouvez explorer ici, mais en pratique, vous pourriez rarement les utiliser.

Le paramètre tick_labels est une exception. Celui-ci en particulier est utile non seulement pour étiqueter un seul box plot, mais aussi pour étiqueter les box plots lorsqu'il y a plus d'un tableau :

1234567
import pandas as pd import matplotlib.pyplot as plt url = 'https://staging-content-media-cdn.codefinity.com/courses/47339f29-4722-4e72-a0d4-6112c70ff738/weather_data.csv' weather_df = pd.read_csv(url, index_col=0) # Creating two box plots for Boston and Seattle temperatures plt.boxplot(weather_df, tick_labels=['Boston', 'Seattle']) plt.show()
copy

Ici, nous avons légèrement modifié notre exemple en passant l'ensemble du DataFrame, qui a 2 colonnes, et en étiquetant chaque diagramme en boîte de manière appropriée.

Tâche

Swipe to start coding

Votre tâche consiste à créer deux diagrammes en boîte en utilisant deux échantillons de la distribution normale standard :

  1. Utilisez la fonction correcte pour créer les diagrammes en boîte.
  2. Utilisez la liste de normal_sample_1 et normal_sample_2 (dans cet ordre de gauche à droite) comme données.
  3. Étiquetez le diagramme en boîte de gauche comme First sample et celui de droite comme Second sample en utilisant la list.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 2
Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
We're sorry to hear that something went wrong. What happened?
some-alt