Summary  
This chapter covers detecting and addressing overfitting and underfitting in predictive models by using a train–test split and comparing performance metrics on each subset.  

General domain of usage  
Machine learning model evaluation

## Overfitting
Betrachte die beiden Regressionslinien unten. Welche ist besser?

Die Kennzahlen deuten darauf hin, dass das zweite Modell besser ist, daher verwenden wir es, um `X_new = [0.2, 0.5, 2.7]` vorherzusagen. Nach dem Vergleich der Vorhersagen mit den tatsächlichen Werten schneidet jedoch das erste Modell besser ab.

Dies geschieht, weil das zweite Modell **überanpasst** — es ist zu komplex und passt sich den Trainingsdaten zu genau an, wodurch es nicht in der Lage ist, auf neue Fälle zu verallgemeinern.

## Unteranpassung

**Unteranpassung** tritt auf, wenn ein Modell zu einfach ist, um selbst die Trainingsdaten zu erfassen, was ebenfalls zu schlechten Vorhersagen bei unbekannten Daten führt.

Es ist möglich, visuell zu beurteilen, ob das Modell unter- oder überanpasst ist.

Da wir hochdimensionale Modelle nicht visualisieren können, benötigen wir eine andere Methode, um Overfitting oder Underfitting zu erkennen.


## Train-Test-Split

Um die Leistung auf unbekannten Daten abzuschätzen, teilen wir den Datensatz in ein Trainingsset und ein Testset mit bekannten Zielwerten auf.


Training am Trainingsdatensatz und Berechnung von Metriken sowohl für Trainings- als auch Testdatensatz zum Leistungsvergleich.



Die Aufteilung muss zufällig erfolgen. Typischerweise werden 20–30 % dem Testdatensatz zugewiesen und 70–80 % für das Training verwendet. Scikit-learn bietet eine einfache Möglichkeit, dies umzusetzen.


Zum Beispiel kann die Trainingsmenge im Verhältnis 70 % Training/30 % Test mit folgendem Code aufgeteilt werden:
```python
from sklearn.model_selection import train_test_split # import the function
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
```

Lineare Regression ist ein zentrales Konzept in der prädiktiven Analytik. Sie wird von Data Scientists, Datenanalysten und Statistikern häufig verwendet, da sie einfach zu erstellen und zu interpretieren ist, aber dennoch für viele Aufgaben ausreichend leistungsfähig bleibt.

Beginnen wir mit dem einfachsten Modell der linearen Regression. Sie lernen das Konzept der linearen Regression kennen und erfahren, wie Vorhersagen in Python getroffen werden.

Die meisten Vorhersageaufgaben in der Praxis beinhalten mehr als ein Merkmal. Sie lernen, wie man lineare Regression mit mehreren Merkmalen anwendet.

Eine Gerade beschreibt die Daten nicht immer ausreichend. Lernen Sie, wie ein komplexeres Modell für Vorhersagen erstellt werden kann. Dafür eignet sich die polynomiale Regression.

Nachdem Sie nun wissen, wie man verschiedene lineare Regressionsmodelle erstellt, benötigen Sie eine Methode, um das beste auszuwählen. Dies ist mithilfe von Metriken möglich. In diesem Abschnitt werden die am häufigsten verwendeten Metriken sowie die Herausforderungen bei deren Anwendung erläutert.

Overanpassung

Overfitting

Unteranpassung

Train-Test-Split