Se Familiariser Avec la Méthode .groupby()
Je suis heureux de vous retrouver dans cette section. Ici, nous allons regrouper nos données afin d'obtenir des informations sur différents groupes de lignes. Examinez l'ensemble de données sur les retards (vous pouvez faire défiler ce tableau horizontalement) :
Le regroupement des données est avantageux, et nous allons maintenant l'explorer plus en détail. Imaginez que vous souhaitez calculer le nombre de retards pour chaque numéro de vol. Consultez l'exemple de code, puis l'explication :
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Explication :
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]- Colonnes sélectionnées pour le traitement, y compris celles utilisées pour le groupement ;groupby('Flight')- La colonne'Flight'est l’argument de la fonction.groupby(). Les lignes ayant la même valeur dans la colonne'Flight'seront regroupées ;.sum()- Fonction appliquée sur les lignes de chaque groupe créé par.groupby(). Dans ce cas, elle additionne les valeurs de la colonne'Delay'pour les lignes appartenant au même groupe'Flight'.
Étant donné que la colonne 'Delay' contient uniquement 0 (aucun retard) ou 1 (retard survenu) comme valeurs possibles, la somme des lignes représente le nombre de retards pour chaque vol.
En réalité, .sum() fait partie des nombreuses fonctions d’agrégation disponibles. Vous vous familiariserez avec toutes au fur et à mesure de votre progression.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 3.03
Se Familiariser Avec la Méthode .groupby()
Glissez pour afficher le menu
Je suis heureux de vous retrouver dans cette section. Ici, nous allons regrouper nos données afin d'obtenir des informations sur différents groupes de lignes. Examinez l'ensemble de données sur les retards (vous pouvez faire défiler ce tableau horizontalement) :
Le regroupement des données est avantageux, et nous allons maintenant l'explorer plus en détail. Imaginez que vous souhaitez calculer le nombre de retards pour chaque numéro de vol. Consultez l'exemple de code, puis l'explication :
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
Explication :
data[['Flight', 'Delay']].groupby('Flight').sum()
data[['Flight', 'Delay']]- Colonnes sélectionnées pour le traitement, y compris celles utilisées pour le groupement ;groupby('Flight')- La colonne'Flight'est l’argument de la fonction.groupby(). Les lignes ayant la même valeur dans la colonne'Flight'seront regroupées ;.sum()- Fonction appliquée sur les lignes de chaque groupe créé par.groupby(). Dans ce cas, elle additionne les valeurs de la colonne'Delay'pour les lignes appartenant au même groupe'Flight'.
Étant donné que la colonne 'Delay' contient uniquement 0 (aucun retard) ou 1 (retard survenu) comme valeurs possibles, la somme des lignes représente le nombre de retards pour chaque vol.
En réalité, .sum() fait partie des nombreuses fonctions d’agrégation disponibles. Vous vous familiariserez avec toutes au fur et à mesure de votre progression.
Merci pour vos commentaires !