Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Regroupement Avancé | Agrégation de Données
Techniques Avancées dans Pandas

bookRegroupement Avancé

Approfondissement de la méthode .groupby(). Comme rappelé précédemment, il est possible d'utiliser la méthode .agg(). L'un des principaux avantages de cette fonction est la possibilité d'appliquer différentes fonctions aux colonnes numériques en utilisant une seule clé de regroupement. Considérer l'exemple où les vols sont regroupés par la colonne 'Airline', puis le nombre de valeurs dans 'Delay' est compté pour chaque 'Airline', et les valeurs minimale et maximale sont calculées pour la colonne 'Length'. Une approche particulièrement pratique.

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
copy

Explication :

.agg({'Delay': 'count', 'Length': ['min', 'max']})
  • .agg() – méthode permettant d'appliquer des fonctions sur une série ou sur chaque élément individuellement ;
  • {} – utilisation des accolades pour spécifier la colonne et appliquer directement les fonctions ;
  • 'Delay': 'count' – application de la fonction .count() aux valeurs de la colonne 'Delay' partageant la même clé de groupe ;
  • 'Length': ['min', 'max'] – application des fonctions .min() et .max() aux valeurs de la colonne 'Length' partageant la même clé de groupe. Il suffit d'indiquer le nom de la colonne sans les symboles () ou . dans la fonction. À noter : pour appliquer plusieurs fonctions à une même colonne, il est nécessaire de les placer dans une liste.
Tâche

Swipe to start coding

Votre tâche consiste à approfondir l'analyse en examinant les temps de retard moyens et maximaux en fonction de l'aéroport de départ, puis de l'aéroport d'arrivée. Analysez également la durée médiane du vol. Suivez l'algorithme :

Regrouper les données :

  • Appliquez la méthode .groupby() au jeu de données data ;
  • Dans la méthode .groupby(), indiquez les colonnes 'AirportFrom' et 'AirportTo' ; l'ordre est essentiel ;
  • À l'aide de la méthode .agg(), calculez les valeurs agrégées : la valeur moyenne et maximale de la colonne 'Time', ainsi que la valeur médiane de la colonne 'Length'.

Solution

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 4
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain what the output of this code would look like?

What other functions can I use with `.agg()` besides 'count', 'min', and 'max'?

How can I group by multiple columns using `.groupby()` and `.agg()`?

close

Awesome!

Completion rate improved to 3.03

bookRegroupement Avancé

Glissez pour afficher le menu

Approfondissement de la méthode .groupby(). Comme rappelé précédemment, il est possible d'utiliser la méthode .agg(). L'un des principaux avantages de cette fonction est la possibilité d'appliquer différentes fonctions aux colonnes numériques en utilisant une seule clé de regroupement. Considérer l'exemple où les vols sont regroupés par la colonne 'Airline', puis le nombre de valeurs dans 'Delay' est compté pour chaque 'Airline', et les valeurs minimale et maximale sont calculées pour la colonne 'Length'. Une approche particulièrement pratique.

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data.groupby('Airline').agg({'Delay': 'count', 'Length': ['min', 'max']}) print(data_flights.head(10))
copy

Explication :

.agg({'Delay': 'count', 'Length': ['min', 'max']})
  • .agg() – méthode permettant d'appliquer des fonctions sur une série ou sur chaque élément individuellement ;
  • {} – utilisation des accolades pour spécifier la colonne et appliquer directement les fonctions ;
  • 'Delay': 'count' – application de la fonction .count() aux valeurs de la colonne 'Delay' partageant la même clé de groupe ;
  • 'Length': ['min', 'max'] – application des fonctions .min() et .max() aux valeurs de la colonne 'Length' partageant la même clé de groupe. Il suffit d'indiquer le nom de la colonne sans les symboles () ou . dans la fonction. À noter : pour appliquer plusieurs fonctions à une même colonne, il est nécessaire de les placer dans une liste.
Tâche

Swipe to start coding

Votre tâche consiste à approfondir l'analyse en examinant les temps de retard moyens et maximaux en fonction de l'aéroport de départ, puis de l'aéroport d'arrivée. Analysez également la durée médiane du vol. Suivez l'algorithme :

Regrouper les données :

  • Appliquez la méthode .groupby() au jeu de données data ;
  • Dans la méthode .groupby(), indiquez les colonnes 'AirportFrom' et 'AirportTo' ; l'ordre est essentiel ;
  • À l'aide de la méthode .agg(), calculez les valeurs agrégées : la valeur moyenne et maximale de la colonne 'Time', ainsi que la valeur médiane de la colonne 'Length'.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 4
single

single

some-alt