Summary  
This chapter explains how to read and write CSV files using pandas’ read_csv and DataFrame.to_csv functions, covering key parameters like delimiters, headers, column selection, and index handling.  

General domain of usage  
Data analysis and manipulation

Da `pandas` die Standardbibliothek für Datenanalyse und -manipulation ist, gehört zu seinen wichtigsten Funktionen die Fähigkeit, verschiedene Dateitypen zu lesen und zu schreiben, einschließlich CSV-Dateien.

Eine **CSV (Comma-Separated Values)**-Datei ist eine Textdatei zur Speicherung tabellarischer Daten, wobei jede Zeile einen Datensatz darstellt und die Spalten durch Kommas getrennt sind.

Eine CSV-Datei kann folgende Daten enthalten:

- **Zahlen**: Ganzzahlen oder Dezimalwerte (z. B. `42`, `3.14`);
- **Text**: Zeichenketten oder kategoriale Daten (z. B. `John`, `Active`);
- **Daten/Uhrzeiten**: Zeitstempel (z. B. `2023-12-30`);
- **Booleans**: Logische Werte (`True`, `False`).

Jede Zeile muss die gleiche Anzahl an Spalten haben, und die erste Zeile enthält häufig die **Spaltenüberschriften**.

Funktionen wie `read_csv()` und `to_csv()` sind nützlich für die Arbeit mit CSV-Daten.

Die grundlegende Syntax von `read_csv()` und wichtige Parameter sind wie folgt:

Hier ist die aktualisierte Version mit dem **`index_col`**-Parameter, der klar erklärt wird:

---

```python
pandas.read_csv(filepath_or_buffer, sep=',', header=0, names=None, usecols=None, index_col=None, ...)
```

* **`filepath_or_buffer`**: Pfad zur CSV-Datei (String oder URL);
* **`sep`**: Trennzeichen (Standard ist ein Komma `,`);
* **`header`**: Zeilennummer, die als Spaltenüberschriften verwendet wird (Standard ist die erste Zeile);
* **`names`**: Liste der zu verwendenden Spaltennamen;
* **`usecols`**: Teilmenge der zu lesenden Spalten;
* **`index_col`**: Spalte (oder Liste von Spalten), die als DataFrame-Index gesetzt wird.

# Loading the CSV into a `DataFrame`
import pandas as pd

salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv')
print(salary_data)

Stelle sicher, dass der Datensatz-Link in Anführungszeichen steht.

Hinweis

Die grundlegende Syntax von `to_csv()` und die wichtigsten Parameter sind wie folgt:

```python
pandas.DataFrame.to_csv(path_or_buf=None, sep=',', ..., columns=None, header=True, index=True, ...)
```

- **`path_or_buf`**: Dateipfad oder Objekt, in das die CSV-Datei geschrieben werden soll;  
- **`sep`**: Trennzeichen zur Abgrenzung der Werte (Standard ist ein Komma `,`);  
- `columns`: Teilmenge der zu schreibenden Spalten (Standard sind alle Spalten);
- **`header`**: Gibt an, ob die Spaltennamen als Kopfzeile eingefügt werden sollen (Standard ist `True`);
- **`index`**: Gibt an, ob die Zeilenindizes in die Datei geschrieben werden sollen (Standard ist `True`).

import pandas as pd

countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(countries_data)

countries.to_csv('countries.csv')
print('Done')

import unittest
import importlib
import pandas as pd


def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)


def get_first_differing_row(expected_df, actual_df):
    expected_list = expected_df.astype(str).apply(tuple, axis=1)
    actual_list = actual_df.astype(str).apply(tuple, axis=1)

    for i, (row1, row2) in enumerate(zip(expected_list, actual_list)):
        if row1 != row2:
            return i, expected_df.iloc[i].values, actual_df.iloc[i].values

    if len(expected_df) > len(actual_df):
        return len(actual_df), expected_df.iloc[len(actual_df)].values, None
    else:
        return len(expected_df), None, actual_df.iloc[len(expected_df)].values


class TestUserCode(unittest.TestCase):

    def test_wine_data_is_declared(self):
        import user_code
        _dynamic_test(
            self,
            hasattr(user_code, 'wine_data'),
            "The `wine_data` variable is declared.",
            "Expected `wine_data` to be declared."
        )

    def test_wine_data_is_dataframe(self):
        import user_code

        try:
            condition = isinstance(user_code.wine_data, pd.DataFrame)
            failure_message = f"Expected `wine_data` to be a `DataFrame`, but got `{type(user_code.wine_data).__name__}`."
        except AttributeError:
            condition = False
            failure_message = "The `wine_data` variable is not declared."

        _dynamic_test(
            self,
            condition,
            "The variable `wine_data` is a `DataFrame`.",
            failure_message
        )

    def test_wine_data_is_correct(self):
        import user_code
        file_url = 'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/wine.csv'
        expected_df = pd.read_csv(file_url)

        variable = 'wine_data'
        actual_df = getattr(user_code, variable, None)
        condition = False
        if actual_df is None:
            failure_message = f"The `{variable}` variable is not declared."
        elif not isinstance(actual_df, pd.DataFrame):
            failure_message = f"`{variable}` is not a `DataFrame`."
        elif actual_df.empty:
            failure_message = f"`{variable}` is empty."
        elif actual_df.equals(expected_df):
            condition = True
            failure_message = None
        else:
            idx, expected_row, actual_row = get_first_differing_row(expected_df, actual_df)
            failure_message = f"Expected `{variable}` to contain `{expected_row}` at row {idx}, but got `{actual_row}`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` contains the correct data.",
            failure_message
        )


if __name__ == '__main__':
    unittest.main()

test_main.py

Pandas ist eine äußerst benutzerfreundliche Bibliothek für die Datenanalyse. Sie ist zudem darauf ausgelegt, große Datensätze mithilfe von Datenstrukturen wie DataFrame und Series zu verarbeiten. Dadurch ist sie ein unverzichtbares Werkzeug für Data Science. In diesem Leitfaden lernen Sie eine Vielzahl statistischer Funktionen kennen, darunter das Ermitteln von Korrelationen, Modalwerten, Mediane sowie Maximal- und Minimalwerten innerhalb eines Datensatzes. Sie erfahren außerdem, wie Sie fehlende Werte behandeln und bestimmte Werte manipulieren sowie entfernen können.

Tauchen Sie in die Grundlagen der pandas-Bibliothek ein. Erstellen und bearbeiten Sie Series und DataFrames, untersuchen Sie deren Struktur und gewinnen Sie Sicherheit bei der Durchführung grundlegender Datenoperationen.

Erlernen des Ladens und Verwaltens von Daten aus CSV- und TXT-Dateien. Praktische Erfahrung im Importieren von Datensätzen und deren Vorbereitung für die weitere Analyse mit Pandas-Werkzeugen.

Erlernen Sie das effektive Erkunden, Bereinigen und Zusammenfassen von Daten. Verständnis für den Umgang mit fehlenden Werten, das Extrahieren von Erkenntnissen und das Durchführen grundlegender statistischer Operationen mit pandas.

CSV-Dateien

Lösung