Summary  
This chapter demonstrates how to use pandas methods to calculate basic descriptive statistics (mean, mode) for columns and to generate an overview of key dataset metrics with `describe()`.  

General domain of usage  
Data analysis

`pandas` propose la méthode pratique `mean()` qui calcule la **moyenne** de toutes les valeurs pour chaque colonne.
```python
df = pd.read_csv(file.csv)
mean_values = df.mean()
```

Vous pouvez également utiliser la même méthode pour déterminer la valeur moyenne d'une colonne spécifique :
```python
df = pd.read_csv(file.csv)
mean_values = df['column_name'].mean()
```

`pandas` propose également la méthode `mode()`, qui identifie la **valeur la plus fréquente** dans chaque colonne.
```python
df = pd.read_csv(file.csv)
mode_values = df.mode()
```

Pour trouver la valeur modale d'une colonne spécifique, la même méthode est utilisée :
```python
df = pd.read_csv(file.csv)
mode_values = df['column_name'].mode()[0]
```

Utilisez `[0]` après `.mode()` pour extraire la première valeur si plusieurs modes existent. Sans cela, la méthode retourne une `Series` entière.


Remarque

Une autre méthode utile dans `pandas` est `describe()`.
```python
df = pd.read_csv(file.csv)
important_metrics = df.describe()
```

Cette méthode fournit un **aperçu de divers indicateurs** du jeu de données, notamment :
- Nombre total d'entrées ;
- Valeur moyenne ou moyenne arithmétique ;
- Écart type ;
- Les valeurs minimale et maximale ;
- Les 25e, 50e (médiane) et 75e percentiles.

import unittest
import importlib
import pandas as pd


def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)


def get_first_differing_row(expected_df, actual_df):
    expected_list = expected_df.astype(str).apply(tuple, axis=1)
    actual_list = actual_df.astype(str).apply(tuple, axis=1)

    for i, (row1, row2) in enumerate(zip(expected_list, actual_list)):
        if row1 != row2:
            return i, expected_df.iloc[i].values, actual_df.iloc[i].values

    if len(expected_df) > len(actual_df):
        return len(actual_df), expected_df.iloc[len(actual_df)].values, None
    else:
        return len(expected_df), None, actual_df.iloc[len(expected_df)].values


class TestUserCode(unittest.TestCase):

    def test_residual_sugar_mean_is_declared(self):
        import user_code
        _dynamic_test(
            self,
            hasattr(user_code, 'residual_sugar_mean'),
            "The `residual_sugar_mean` variable is declared.",
            "Expected `residual_sugar_mean` to be declared."
        )

    def test_residual_sugar_mean_is_correct(self):
        import user_code

        wine_data = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/wine.csv')
        expected_value = wine_data['residual sugar'].mean()

        try:
            condition = user_code.residual_sugar_mean == expected_value
            failure_message = f"Expected `residual_sugar_mean` to be `{expected_value}`, but got `{user_code.residual_sugar_mean}`."
        except AttributeError:
            condition = False
            failure_message = "The `residual_sugar_mean` variable is not declared."

        _dynamic_test(
            self,
            condition,
            f"`residual_sugar_mean` contains the correct value.",
            failure_message
        )

    def test_fixed_acidity_mode_is_declared(self):
        import user_code
        _dynamic_test(
            self,
            hasattr(user_code, 'fixed_acidity_mode'),
            "The `fixed_acidity_mode` variable is declared.",
            "Expected `fixed_acidity_mode` to be declared."
        )

    def test_fixed_acidity_mode_is_correct(self):
        import user_code

        wine_data = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/wine.csv')
        expected_value = wine_data['fixed acidity'].mode()[0]

        try:
            condition = user_code.fixed_acidity_mode == expected_value
            failure_message = f"Expected `fixed_acidity_mode` to be `{expected_value}`, but got `{user_code.fixed_acidity_mode}`."
        except AttributeError:
            condition = False
            failure_message = "The `fixed_acidity_mode` variable is not declared."

        _dynamic_test(
            self,
            condition,
            f"`fixed_acidity_mode` contains the correct value.",
            failure_message
        )

    def test_described_data_is_declared(self):
        import user_code
        _dynamic_test(
            self,
            hasattr(user_code, 'described_data'),
            "The `described_data` variable is declared.",
            "Expected `described_data` to be declared."
        )

    def test_described_data_is_dataframe(self):
        import user_code

        try:
            condition = isinstance(user_code.described_data, pd.DataFrame)
            failure_message = f"Expected `described_data` to be a `DataFrame`, but got `{type(user_code.described_data).__name__}`."
        except AttributeError:
            condition = False
            failure_message = "The `described_data` variable is not declared."

        _dynamic_test(
            self,
            condition,
            "The variable `described_data` is a `DataFrame`.",
            failure_message
        )

    def test_described_data_is_correct(self):
        import user_code

        wine_data = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/wine.csv')
        expected_df = wine_data.describe()

        variable = 'described_data'
        actual_df = getattr(user_code, variable, None)
        condition = False
        if actual_df is None:
            failure_message = f"The `{variable}` variable is not declared."
        elif not isinstance(actual_df, pd.DataFrame):
            failure_message = f"`{variable}` is not a `DataFrame`."
        elif actual_df.empty:
            failure_message = f"`{variable}` is empty."
        elif actual_df.equals(expected_df):
            condition = True
            failure_message = None
        else:
            idx, expected_row, actual_row = get_first_differing_row(expected_df, actual_df)
            failure_message = f"Expected `{variable}` to contain `{expected_row}` at row {idx}, but got `{actual_row}`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` contains the correct statistical summary.",
            failure_message
        )


if __name__ == '__main__':
    unittest.main()

test_main.py

Pandas est une bibliothèque extrêmement conviviale pour l'analyse de données. Elle est également conçue pour gérer de grands ensembles de données, en utilisant des structures telles que DataFrame et Series. Cela en fait un outil précieux pour la Data Science. Dans ce guide, vous découvrirez une gamme de fonctions statistiques, notamment comment trouver les corrélations, les modes, les médianes, ainsi que les valeurs maximales et minimales au sein d'un ensemble de données. Vous apprendrez également à gérer les valeurs manquantes et à manipuler des valeurs spécifiques, ainsi qu'à les supprimer.

Découvrez les bases de la bibliothèque pandas. Création et manipulation de Series et DataFrames, exploration de leur structure, acquisition des compétences nécessaires pour effectuer les opérations de données essentielles.

Maîtrise du chargement et de la gestion des données à partir de fichiers CSV et TXT. Acquisition d'une expérience pratique dans l'importation de jeux de données et leur préparation pour une analyse ultérieure à l'aide des outils pandas.

Apprenez à explorer, nettoyer et résumer les données de manière efficace. Comprendre la gestion des valeurs manquantes, l'extraction d'informations et l'exécution d'opérations statistiques de base avec pandas.

Description des données

Description des données

Solution