Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Getting Familiar With the .groupby()-Methode | Daten Aggregieren
Data Wrangling mit Pandas

bookGetting Familiar With the .groupby()-Methode

Swipe um das Menü anzuzeigen

Ich freue mich, Sie in diesem Abschnitt begrüßen zu dürfen. Hier werden wir unsere Daten gruppieren, um Informationen über verschiedene Gruppen von Zeilen zu erhalten. Untersuchen Sie den Datensatz zu Verzögerungen (Sie können diese Tabelle horizontal scrollen):

Das Gruppieren von Daten ist vorteilhaft, und nun werden wir tiefer darauf eingehen. Stellen Sie sich vor, Sie möchten die Anzahl der Verzögerungen für jede Flugnummer berechnen. Sehen Sie sich das Codebeispiel an und anschließend die Erklärung:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Erläuterung:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] – Dies sind die Spalten, mit denen gearbeitet wird, einschließlich der Spalten, nach denen gruppiert wird;
  • groupby('Flight') – Die Spalte 'Flight' ist das Argument für die .groupby()-Funktion. Das bedeutet, dass Zeilen mit demselben Wert in der Spalte 'Flight' zusammengefasst werden;
  • .sum() – Diese Funktion wird auf die Zeilen innerhalb jeder durch .groupby() erstellten Gruppe angewendet. In diesem Fall werden die Werte in der Spalte 'Delay' für Zeilen mit derselben 'Flight'-Gruppe summiert.
Note
Hinweis

Da die Spalte 'Delay' nur 0 (keine Verspätung) oder 1 (eine Verspätung) als mögliche Werte enthält, stellt die Summe der Zeilen die Anzahl der Verspätungen für jeden Flug dar.

Tatsächlich ist .sum() nur eine von vielen Aggregationsfunktionen, die verwendet werden können. Im weiteren Verlauf werden alle diese Funktionen vorgestellt.

question-icon

Ergänze die Lücken, um den Mittelwert der Spalte 'Time' abhängig von der Spalte 'DayOfWeek' zu ermitteln.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 4. Kapitel 1
some-alt