Contenu du cours
Visualisation Ultime Avec Python
Visualisation Ultime Avec Python
Graphe de Paires
Pair plot est utilisé pour tracer une relation par paire entre les variables numériques dans un ensemble de données. Il est assez similaire à un joint plot, cependant, il n'est pas limité à seulement deux variables. En fait, un pair plot crée une grille NxN
d'objets Axes
(plusieurs sous-graphiques) où N
est le nombre de variables numériques (colonnes numériques dans un DataFrame
).
Jetons un coup d'œil à un exemple de tel graphique :
Description du Pair Plot
Comme vous pouvez le voir, pour chaque colonne, l'axe des x est partagé entre tous les graphiques des colonnes, une certaine variable unique se trouve sur l'axe des x. Il en va de même pour les lignes où l'axe des y est partagé entre tous les graphiques de la ligne. Les graphiques diagonaux sont des histogrammes par défaut, car ils montrent la distribution d'une seule variable (distribution marginale univariée), et les autres graphiques sont des nuages de points.
Création d'un Pair Plot
Créer un pair plot avec seaborn
revient à appeler sa fonction pairplot()
. Son paramètre le plus important et le seul obligatoire est data
qui doit être un objet DataFrame
. Voici un exemple pour vous :
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Creating a pair plot sns.pairplot(iris_df, height=2, aspect=0.8) plt.show()
Ici, iris_df
est le DataFrame
que nous passons dans la fonction pairplot()
et tout fonctionne parfaitement. Les paramètres height
et aspect
spécifient simplement la hauteur et la largeur (height * aspect
) de chaque facette (côté) en pouces.
Hue
Un autre paramètre qui mérite d'être mentionné est hue
qui spécifie la variable (nom de colonne) dans data
pour mapper les aspects du graphique à des couleurs différentes ou même créer des graphiques séparés (sur un seul Axes
) pour chacune de ses valeurs.
Voici un exemple pour clarifier les choses :
import seaborn as sns import matplotlib.pyplot as plt import warnings # Ignoring warnings warnings.filterwarnings('ignore') # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the hue parameter to 'species' sns.pairplot(iris_df, hue='species', height=2, aspect=0.8) plt.show()
Vous pouvez immédiatement voir la différence ici. Tout d'abord, les points de données sur chaque nuage de points sont colorés selon l'espèce à laquelle ils appartiennent (la valeur respective dans la colonne 'species'
). Les graphiques diagonaux sont maintenant des graphiques KDE (un séparé pour chacune des espèces) au lieu des histogrammes.
En fait, lorsqu'on traite un problème de classification, il est souvent judicieux de créer un pair plot avec le paramètre hue
défini sur la variable cible (variable catégorielle que nous voulons prédire).
Changer les Types de Graphiques
Vous pouvez également définir d'autres graphiques au lieu des graphiques de dispersion et définir d'autres graphiques diagonaux. Les paramètres kind
('scatter'
est sa valeur par défaut) et diag_kind
('auto'
est sa valeur par défaut, donc son type est basé sur la présence du paramètre hue
) sont respectivement utilisés à cet effet.
Modifions maintenant notre exemple :
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the kind parameter and diag_kind parameters sns.pairplot(iris_df, hue='species', kind='reg', diag_kind=None, height=2, aspect=0.8) plt.show()
'scatter'
, 'kde'
, 'hist'
, 'reg'
sont des valeurs possibles pour le paramètre kind
.
diag_kind
peut être défini sur l'une des valeurs suivantes :
'auto'
;'hist'
;'kde'
;None
.
Tout est similaire à la fonction jointplot()
à cet égard.
Plus d'informations sur la fonction pairplot()
dans sa documentation.
Swipe to start coding
- Utilisez la fonction correcte pour créer un pair plot.
- Définissez les données pour le graphique en utilisant
penguins_df
comme premier argument. - Définissez
'sex'
comme la colonne qui mappe les aspects du graphique à différentes couleurs en spécifiant le deuxième argument. - Définissez les graphiques non-diagonaux pour avoir une ligne de régression (
'reg'
) en spécifiant le troisième argument. - Définissez
height
à2
. - Définissez
aspect
à0.8
.
Cela peut prendre quelques minutes pour vérifier la solution.
Solution
Merci pour vos commentaires !
Graphe de Paires
Pair plot est utilisé pour tracer une relation par paire entre les variables numériques dans un ensemble de données. Il est assez similaire à un joint plot, cependant, il n'est pas limité à seulement deux variables. En fait, un pair plot crée une grille NxN
d'objets Axes
(plusieurs sous-graphiques) où N
est le nombre de variables numériques (colonnes numériques dans un DataFrame
).
Jetons un coup d'œil à un exemple de tel graphique :
Description du Pair Plot
Comme vous pouvez le voir, pour chaque colonne, l'axe des x est partagé entre tous les graphiques des colonnes, une certaine variable unique se trouve sur l'axe des x. Il en va de même pour les lignes où l'axe des y est partagé entre tous les graphiques de la ligne. Les graphiques diagonaux sont des histogrammes par défaut, car ils montrent la distribution d'une seule variable (distribution marginale univariée), et les autres graphiques sont des nuages de points.
Création d'un Pair Plot
Créer un pair plot avec seaborn
revient à appeler sa fonction pairplot()
. Son paramètre le plus important et le seul obligatoire est data
qui doit être un objet DataFrame
. Voici un exemple pour vous :
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Creating a pair plot sns.pairplot(iris_df, height=2, aspect=0.8) plt.show()
Ici, iris_df
est le DataFrame
que nous passons dans la fonction pairplot()
et tout fonctionne parfaitement. Les paramètres height
et aspect
spécifient simplement la hauteur et la largeur (height * aspect
) de chaque facette (côté) en pouces.
Hue
Un autre paramètre qui mérite d'être mentionné est hue
qui spécifie la variable (nom de colonne) dans data
pour mapper les aspects du graphique à des couleurs différentes ou même créer des graphiques séparés (sur un seul Axes
) pour chacune de ses valeurs.
Voici un exemple pour clarifier les choses :
import seaborn as sns import matplotlib.pyplot as plt import warnings # Ignoring warnings warnings.filterwarnings('ignore') # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the hue parameter to 'species' sns.pairplot(iris_df, hue='species', height=2, aspect=0.8) plt.show()
Vous pouvez immédiatement voir la différence ici. Tout d'abord, les points de données sur chaque nuage de points sont colorés selon l'espèce à laquelle ils appartiennent (la valeur respective dans la colonne 'species'
). Les graphiques diagonaux sont maintenant des graphiques KDE (un séparé pour chacune des espèces) au lieu des histogrammes.
En fait, lorsqu'on traite un problème de classification, il est souvent judicieux de créer un pair plot avec le paramètre hue
défini sur la variable cible (variable catégorielle que nous voulons prédire).
Changer les Types de Graphiques
Vous pouvez également définir d'autres graphiques au lieu des graphiques de dispersion et définir d'autres graphiques diagonaux. Les paramètres kind
('scatter'
est sa valeur par défaut) et diag_kind
('auto'
est sa valeur par défaut, donc son type est basé sur la présence du paramètre hue
) sont respectivement utilisés à cet effet.
Modifions maintenant notre exemple :
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the kind parameter and diag_kind parameters sns.pairplot(iris_df, hue='species', kind='reg', diag_kind=None, height=2, aspect=0.8) plt.show()
'scatter'
, 'kde'
, 'hist'
, 'reg'
sont des valeurs possibles pour le paramètre kind
.
diag_kind
peut être défini sur l'une des valeurs suivantes :
'auto'
;'hist'
;'kde'
;None
.
Tout est similaire à la fonction jointplot()
à cet égard.
Plus d'informations sur la fonction pairplot()
dans sa documentation.
Swipe to start coding
- Utilisez la fonction correcte pour créer un pair plot.
- Définissez les données pour le graphique en utilisant
penguins_df
comme premier argument. - Définissez
'sex'
comme la colonne qui mappe les aspects du graphique à différentes couleurs en spécifiant le deuxième argument. - Définissez les graphiques non-diagonaux pour avoir une ligne de régression (
'reg'
) en spécifiant le troisième argument. - Définissez
height
à2
. - Définissez
aspect
à0.8
.
Cela peut prendre quelques minutes pour vérifier la solution.
Solution
Merci pour vos commentaires !