Graphe de Paires
Pair plot est utilisé pour représenter graphiquement les relations par paires entre les variables numériques d'un ensemble de données. Il est assez similaire à un joint plot, cependant, il n'est pas limité à seulement deux variables. En effet, un pair plot crée une grille NxN
d'objets Axes
(plusieurs sous-graphiques) où N
est le nombre de variables numériques (colonnes numériques dans un DataFrame
).
Description du Pair Plot
Dans un pair plot, chaque colonne partage la même variable de l'axe x, et chaque ligne partage la même variable de l'axe y. La diagonale affiche les histogrammes des variables individuelles, tandis que les autres graphiques présentent des nuages de points.
Création d'un Pair Plot
La création d'un pair plot avec seaborn
consiste à appeler sa fonction pairplot()
. Son paramètre le plus important et le seul obligatoire est data
, qui doit être un objet DataFrame
.
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Creating a pair plot sns.pairplot(iris_df, height=2, aspect=0.8) plt.show()
Le DataFrame iris_df
est transmis à la fonction pairplot()
. Les paramètres height
et aspect
définissent la hauteur et la largeur (calculée comme la hauteur multipliée par l'aspect) de chaque facette en pouces.
Hue
Un autre paramètre à mentionner est hue
, qui spécifie la variable (nom de colonne) dans data
à utiliser pour associer les aspects du graphique à différentes couleurs ou même créer des graphiques séparés (sur un même Axes
) pour chacune de ses valeurs.
import seaborn as sns import matplotlib.pyplot as plt # Ignoring warnings import warnings warnings.filterwarnings('ignore') # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the hue parameter to 'species' sns.pairplot(iris_df, hue='species', height=2, aspect=0.8) plt.show()
Vous pouvez clairement observer la différence ici. Les points de données dans chaque nuage de points sont colorés en fonction de leur espèce, à partir des valeurs de la colonne species. Les graphiques diagonaux sont désormais des graphiques KDE pour chaque espèce au lieu d'histogrammes.
Dans les problèmes de classification, il est souvent pertinent de créer un pair plot avec le paramètre hue
défini sur la variable cible, c'est-à-dire la variable catégorielle à prédire.
La différence est évidente. Les points de données dans chaque nuage de points sont colorés selon leur espèce, sur la base des valeurs de la colonne species. Les graphiques diagonaux ont été remplacés par des graphiques KDE pour chaque espèce au lieu d'histogrammes.
Dans les tâches de classification, il est souvent utile de créer un pair plot avec le paramètre hue
défini sur la variable cible — la variable catégorielle à prédire.
Modification des types de graphiques
Il est possible de modifier le type de graphiques utilisés à la place des nuages de points par défaut, ainsi que les graphiques affichés sur la diagonale. Le paramètre kind
contrôle les graphiques principaux et utilise par défaut les nuages de points, tandis que le paramètre diag_kind
contrôle les graphiques diagonaux et est automatiquement choisi selon que le paramètre hue
est défini ou non.
import seaborn as sns import matplotlib.pyplot as plt # Loading the dataset with data about three different iris species iris_df = sns.load_dataset('iris') # Setting the kind parameter and diag_kind parameters sns.pairplot(iris_df, hue='species', kind='reg', diag_kind=None, height=2, aspect=0.8) plt.show()
'scatter'
, 'kde'
, 'hist'
, 'reg'
sont des valeurs possibles pour le paramètre kind
.
diag_kind
peut être défini sur l'une des valeurs suivantes :
'auto'
;'hist'
;'kde'
;None
.
Tout cela est similaire à la fonction jointplot()
à cet égard.
Explorez davantage dans la pairplot()
documentation.
Swipe to start coding
- Utiliser la fonction appropriée pour créer un pair plot.
- Définir les données du graphique sur
penguins_df
via le premier argument. - Définir
'sex'
comme la colonne qui associera les aspects du graphique à différentes couleurs en le spécifiant comme deuxième argument. - Définir les graphiques non diagonaux pour afficher une ligne de régression (
'reg'
) en le spécifiant comme troisième argument. - Définir
height
à2
. - Définir
aspect
à0.8
.
Solution
Merci pour vos commentaires !