Summary  
This chapter covers how to group tabular data by multiple columns using pandas’ groupby method with a list of keys, showing that the order of columns defines a hierarchical (multi-level) index and that you can apply aggregations (sum, mean, count, etc.) on those groups.

General domain of usage  
Flight delay analysis

Watch this video for a hands-on demonstration of grouping by several columns in pandas. You'll see how to group by both 'Flight' and 'Airline' to count delays, as well as how to group by 'AirportFrom' and 'DayOfWeek' to calculate the average flight time. Visual walkthroughs will help you understand the importance of column order and how aggregation works in multi-column groupings.

Lisätään tietoa `.groupby()`-metodista. Voit ryhmitellä usean sarakkeen perusteella, mutta järjestyksellä on tällöin suuri merkitys. Edellisessä luvussa ryhmittelimme tietoja lennon numeron perusteella ja laskimme viiveiden määrän. Voimme monimutkaistaa tätä tehtävää ryhmittelemällä paitsi `'Flight'`-sarakkeen, myös `'Airline'`-sarakkeen mukaan. Kertaa tietoa aineistosta ja tarkastele sitten tätä yksinkertaista esimerkkiä (tuloste sisältää vain ensimmäiset 10 riviä):

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0)
data_flights = data[['Flight', 'Delay', 'Airline']].groupby(['Flight', 'Airline']).count()
print(data_flights.head(10))

**Selitys:**

```python
data[['Flight', 'Delay', 'Airline']].groupby(['Flight', 'Airline']).count()
```
- `data[['Flight', 'Delay', 'Airline']]` – sarakkeet, joiden kanssa työskennellään, mukaan lukien ne sarakkeet, joiden perusteella ryhmitellään;
- `.groupby(['Flight', 'Airline'])` – tässä `'Flight'` ja `'Airline'` ovat funktion `.groupby()` argumentteja.  

Huomioi, että jos haluat ryhmitellä usean sarakkeen perusteella, laita ne listaan – järjestyksellä on suuri merkitys. Tässä tapauksessa, jos aineiston rivillä on sama arvo sarakkeessa `'Flight'`, ne kuuluvat samaan ryhmään. Näiden ryhmien sisällä funktio etsii lisää ryhmiä rivien perusteella, joilla on sama arvo sarakkeessa `'Airline'`. Tämän jälkeen `.count()`-metodi laskee rivien määrän sarakkeessa `'Delay'`, joilla on sama arvo sarakkeessa `'Airline'` kullekin `'Flight'`-ryhmälle.

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


def frames_equal_strict(df1, df2):
    """ÐÐµÑÐµÐ²ÑÑÐºÐ° ÑÑÐ²Ð½Ð¾ÑÑÑ DataFrame Ð· ÑÑÐ°ÑÑÐ²Ð°Ð½Ð½ÑÐ¼ Ð¿Ð¾ÑÑÐ´ÐºÑ ÐºÐ¾Ð»Ð¾Ð½Ð¾Ðº ÑÐ° ÑÐ½Ð´ÐµÐºÑÑ."""
    try:
        return df1.equals(df2)
    except Exception:
        return False


class TestGroupData(unittest.TestCase):
    def test_grouping_average(self):
        """
        1. Group data by 'AirportFrom' and 'DayOfWeek', calculate mean of 'Time'.
        """
        import user_code

        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ð¸Ð¹ DataFrame
        df = pd.read_csv(
            "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane",
            index_col=0,
        )

        # ÐÑÐ°Ð»Ð¾Ð½Ð½Ðµ ÑÑÑÐµÐ½Ð½Ñ
        ref = df[["AirportFrom", "DayOfWeek", "Time"]].groupby(["AirportFrom", "DayOfWeek"]).mean()

        condition = (
            hasattr(user_code, "data_flights")
            and isinstance(user_code.data_flights, pd.DataFrame)
            and frames_equal_strict(user_code.data_flights, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The data is correctly grouped by 'AirportFrom' and 'DayOfWeek' with mean 'Time' calculated.",
            "The grouping or averaging is incorrect. Check the columns order and groupby parameters."
        )


class TestOutput(unittest.TestCase):
    def test_output_head_10(self):
        """
        2. Output the first 10 rows of the grouped DataFrame using .head(10).
        """
        import user_code
        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.data_flights.head(10))
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0
        _dynamic_test(
            self,
            condition,
            "The first 10 rows of 'data_flights' are printed correctly using .head(10).",
            "The output is missing or incorrect. Use print(data_flights.head(10))."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Tämä kurssi sisältää runsaasti hyödyllisiä toimintoja tulevalle data-analyytikolle. Opit erilaisia tapoja tietojen poimimiseen ja voit jopa asettaa niille ehtoja. Tämän jälkeen tulet tutuksi tietojen ryhmittelymenetelmien kanssa. Lisäksi opit, kuinka esikäsitellä tietoja. Jokaisessa osiossa on oma tietoaineistonsa, joten kurssi on mukaansatempaava.

Tässä osiossa opit, kuinka voit tulostaa tiettyjä sarakkeita niiden nimien tai indeksien perusteella. Lisäksi tutustut tapoihin, joilla voit valita rivejä indeksien avulla.

Tässä opit, kuinka voit poimia dataa, jolla on tietyt ehdot. Opit myös, kuinka yhdistää näitä ehtoja ja jopa luoda omia ehtoja.

Tässä osiossa laajennat tietämystäsi erilaisten datan ehtojen asettamisesta. Opit tarkistamaan, onko datasi määritellyssä arvolistassa tai kahden arvon välillä. Opit myös löytämään suurimmat ja pienimmät arvot.

Tämä osio on yksi kurssin kiehtovimmista. Tässä opit ryhmittelemään dataa eri tavoilla. Tämä auttaa sinua työskentelemään data-analyytikkona ja löytämään tietoa tietyistä dataryhmistä.

Tämä osio on yksi tärkeimmistä data-analyytikolle, koska jos data sisältää puuttuvia arvoja tai on väärässä muodossa, sen kanssa työskentely on mahdotonta. Tässä opit käsittelemään tällaisia sopimattomia arvoja.

Ryhmittely useiden sarakkeiden mukaan

Ratkaisu