Regroupement Avancé
Approfondissement de la méthode .groupby(). Comme rappelé précédemment, il est possible d'utiliser la méthode .agg(). L'un des principaux avantages de cette fonction est la possibilité d'appliquer différentes fonctions aux colonnes numériques en utilisant une seule clé de regroupement. Considérer l'exemple où les vols sont regroupés par la colonne 'Airline', puis le nombre de valeurs dans 'Delay' est compté pour chaque 'Airline', et les valeurs minimale et maximale sont calculées pour la colonne 'Length'. Une approche particulièrement pratique.
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
Explication :
.agg({'Delay': 'count', 'Length': ['min', 'max']})
.agg()– méthode permettant d'appliquer des fonctions sur une série ou sur chaque élément individuellement ;{}– utilisation des accolades pour spécifier la colonne et appliquer directement les fonctions ;'Delay': 'count'– application de la fonction.count()aux valeurs de la colonne'Delay'partageant la même clé de groupe ;'Length': ['min', 'max']– application des fonctions.min()et.max()aux valeurs de la colonne'Length'partageant la même clé de groupe. Il suffit d'indiquer le nom de la colonne sans les symboles()ou.dans la fonction. À noter : pour appliquer plusieurs fonctions à une même colonne, il est nécessaire de les placer dans une liste.
Swipe to start coding
Votre tâche consiste à approfondir l'analyse en examinant les temps de retard moyens et maximaux en fonction de l'aéroport de départ, puis de l'aéroport d'arrivée. Analysez également la durée médiane du vol. Suivez l'algorithme :
Regrouper les données :
- Appliquez la méthode
.groupby()au jeu de donnéesdata; - Dans la méthode
.groupby(), indiquez les colonnes'AirportFrom'et'AirportTo'; l'ordre est essentiel ; - À l'aide de la méthode
.agg(), calculez les valeurs agrégées : la valeur moyenne et maximale de la colonne'Time', ainsi que la valeur médiane de la colonne'Length'.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain what the output of this code would look like?
What other functions can I use with `.agg()` besides 'count', 'min', and 'max'?
How can I group by multiple columns using `.groupby()` and `.agg()`?
Awesome!
Completion rate improved to 3.03
Regroupement Avancé
Glissez pour afficher le menu
Approfondissement de la méthode .groupby(). Comme rappelé précédemment, il est possible d'utiliser la méthode .agg(). L'un des principaux avantages de cette fonction est la possibilité d'appliquer différentes fonctions aux colonnes numériques en utilisant une seule clé de regroupement. Considérer l'exemple où les vols sont regroupés par la colonne 'Airline', puis le nombre de valeurs dans 'Delay' est compté pour chaque 'Airline', et les valeurs minimale et maximale sont calculées pour la colonne 'Length'. Une approche particulièrement pratique.
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
Explication :
.agg({'Delay': 'count', 'Length': ['min', 'max']})
.agg()– méthode permettant d'appliquer des fonctions sur une série ou sur chaque élément individuellement ;{}– utilisation des accolades pour spécifier la colonne et appliquer directement les fonctions ;'Delay': 'count'– application de la fonction.count()aux valeurs de la colonne'Delay'partageant la même clé de groupe ;'Length': ['min', 'max']– application des fonctions.min()et.max()aux valeurs de la colonne'Length'partageant la même clé de groupe. Il suffit d'indiquer le nom de la colonne sans les symboles()ou.dans la fonction. À noter : pour appliquer plusieurs fonctions à une même colonne, il est nécessaire de les placer dans une liste.
Swipe to start coding
Votre tâche consiste à approfondir l'analyse en examinant les temps de retard moyens et maximaux en fonction de l'aéroport de départ, puis de l'aéroport d'arrivée. Analysez également la durée médiane du vol. Suivez l'algorithme :
Regrouper les données :
- Appliquez la méthode
.groupby()au jeu de donnéesdata; - Dans la méthode
.groupby(), indiquez les colonnes'AirportFrom'et'AirportTo'; l'ordre est essentiel ; - À l'aide de la méthode
.agg(), calculez les valeurs agrégées : la valeur moyenne et maximale de la colonne'Time', ainsi que la valeur médiane de la colonne'Length'.
Solution
Merci pour vos commentaires !
single