Summary  
This chapter explains how to use an estimator’s `.fit()`, `.predict()`, and `.score()` methods to train a model, generate predictions, and evaluate its performance.  

General domain of usage  
Supervised machine learning

Die Grundlagen der Datenvorverarbeitung und des Pipeline-Aufbaus wurden nun behandelt. Der nächste Schritt ist das **Modellieren**.


Ein **Modell** in Scikit-learn ist ein **Estimator**, der die Methoden `.predict()` und `.score()` bereitstellt sowie `.fit()`, das von allen Estimatoren geerbt wird.


## .fit() 

Nachdem die Daten vorverarbeitet und für das Modell bereit sind, besteht der erste Schritt beim Erstellen eines Modells im **Trainieren eines Modells**. Dies erfolgt mit `.fit(X, y)`.

Für das **überwachte Lernen** (Regression, Klassifikation) benötigt `.fit()` sowohl `X` als auch `y`.
Für das **unüberwachte Lernen** (z. B. Clustering) wird nur `.fit(X)` aufgerufen. Das Übergeben von `y` führt nicht zu einem Fehler — es wird einfach ignoriert.

Hinweis

Während des Trainings **lernt** das Modell Muster, die für Vorhersagen benötigt werden. Was gelernt wird und wie lange das Training dauert, hängt vom Algorithmus ab. Das Training ist oft der **langsamste Teil** des maschinellen Lernens, insbesondere bei großen Datensätzen.

## .predict()

Nach dem Training wird `.predict()` verwendet, um Vorhersagen zu generieren:

```python
model.fit(X, y)
y_pred = model.predict(X_new)
```

## .score()

`.score()` bewertet ein trainiertes Modell, typischerweise auf einem **Testdatensatz**:

```python
model.fit(X, y)
model.score(X_test, y_test)
```

Vergleicht Vorhersagen mit den tatsächlichen Zielwerten. Standardmäßig ist die Metrik **Genauigkeit** bei Klassifikationsaufgaben.

`X_test` bezeichnet den Teil des Datensatzes, der als **Testmenge** bekannt ist und zur Bewertung der Modellleistung nach dem Training verwendet wird. Er enthält die **Merkmale** (Eingabedaten). `y_test` ist der entsprechende Teil der **wahren Labels** für `X_test`. Zusammen dienen sie dazu, zu beurteilen, wie gut das Modell neue, unbekannte Daten vorhersagt.

Maschinelles Lernen wird heute überall eingesetzt. Möchten Sie es selbst erlernen? Dieser Kurs ist eine Einführung in die Welt des maschinellen Lernens, um grundlegende Konzepte zu verstehen, mit Scikit-learn – der beliebtesten Bibliothek für ML – zu arbeiten und Ihr erstes Projekt im Bereich Machine Learning zu erstellen.
Dieser Kurs richtet sich an Studierende mit Grundkenntnissen in Python, Pandas und Numpy.

Erlernen der Konzepte des maschinellen Lernens und des Workflows von ML-Projekten.

Die Vorverarbeitung ist vermutlich die wichtigste Phase eines ML-Projekts. Dieses Kapitel behandelt die notwendigen Vorverarbeitungsschritte für nahezu jedes Datenset.

Eine Pipeline ist eine elegante Methode, um alle Vorverarbeitungsschritte sowie ein Modell zu kombinieren. Pipelines erleichtern das Trainieren und die Nutzung eines Modells erheblich.

Die Modellierung ist die spannendste Phase eines ML-Projekts. Lernen Sie, das Modell zu erstellen, zu optimieren und zu evaluieren.

Modelle

.fit()

.predict()

.score()