Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Modellierungszusammenfassung | Modellierung
ML-Einführung Mit Scikit-Learn

bookModellierungszusammenfassung

Sie haben nun gelernt, wie man ein Modell erstellt, es in eine Pipeline integriert und Hyperparameter abstimmt. Zwei Evaluierungsmethoden wurden ebenfalls behandelt: der Train-Test-Split und die Kreuzvalidierung.

Der nächste Schritt besteht darin, die Modellevaluierung mit der Hyperparameterabstimmung mithilfe von GridSearchCV oder RandomizedSearchCV zu kombinieren.

Note
Hinweis

Da unser Datensatz sehr klein ist, verwenden wir das GridSearchCV, aber alles, was im Folgenden gesagt wird, gilt auch für ein RandomizedSearchCV.

Das Ziel ist es, den höchsten Kreuzvalidierungswert auf dem Datensatz zu erzielen, da die Kreuzvalidierung stabiler ist und weniger davon abhängt, wie die Daten aufgeteilt werden, als der Train-Test-Ansatz.

GridSearchCV ist speziell für diesen Zweck konzipiert: Es identifiziert die Hyperparameter, die den besten Kreuzvalidierungswert erreichen, und liefert ein feinabgestimmtes Modell, das auf den Trainingsdaten optimal funktioniert.

Das Attribut .best_score_ speichert den höchsten während der Suche gefundenen Kreuzvalidierungswert.

Note
Hinweis

Die besten Hyperparameter für einen bestimmten Datensatz sind nicht unbedingt die besten insgesamt. Wenn neue Daten hinzugefügt werden, können sich die optimalen Hyperparameter ändern.

Daher kann der mit .best_score_ erzielte Wert höher sein als die Leistung auf vollständig unbekannten Daten, da die Hyperparameter möglicherweise nicht so gut über den Trainingsdatensatz hinaus generalisieren.

In der Regel wird der Datensatz zunächst in Trainings- und Testdaten aufgeteilt. Anschließend wird auf dem Trainingsdatensatz eine Kreuzvalidierung durchgeführt, um das Modell zu optimieren und die beste Konfiguration zu ermitteln. Abschließend wird das optimierte Modell auf dem Testdatensatz, der ausschließlich unbekannte Daten enthält, bewertet, um die Praxisleistung zu bestimmen.

Zusammengefasst besteht der vollständige Workflow aus:

  1. Vorverarbeitung der Daten;
  2. Aufteilung des Datensatzes in Trainings- und Testdaten;
  3. Anwendung der Kreuzvalidierung auf den Trainingsdaten, um das leistungsstärkste Modell zu finden;
  4. Bewertung dieses Modells auf den Testdaten.
Note
Weiterführende Studien

Der dritte Schritt umfasst in der Regel das Testen mehrerer Algorithmen und das Anpassen ihrer Hyperparameter, um die beste Option zu identifizieren. Zur Vereinfachung wurde in diesem Kurs nur ein einzelner Algorithmus verwendet.

Bevor Sie zur abschließenden Herausforderung übergehen, ist es wichtig zu beachten, dass die Kreuzvalidierung nicht die einzige Methode zur Feinabstimmung von Modellen ist. Mit zunehmender Größe der Datensätze wird die Berechnung von Kreuzvalidierungswerten zeitaufwändiger, und die reguläre Aufteilung in Trainings- und Testdaten bietet aufgrund der größeren Testmenge mehr Stabilität.

Daher werden große Datensätze häufig in drei Mengen unterteilt: ein Trainingsset, ein Validierungsset und ein Testset. Das Modell wird auf dem Trainingsset trainiert und auf dem Validierungsset bewertet, um das Modell oder die Hyperparameter mit der besten Leistung auszuwählen.

Diese Auswahl erfolgt anhand der Validierungsset-Ergebnisse anstelle von Kreuzvalidierungswerten. Abschließend wird das ausgewählte Modell auf dem Testset, das ausschließlich aus unbekannten Daten besteht, bewertet, um seine Leistungsfähigkeit zu überprüfen.

Der Pinguin-Datensatz ist klein und umfasst nur 342 Instanzen. Aufgrund dieser begrenzten Größe wird im nächsten Kapitel der Kreuzvalidierungswert zur Bewertung verwendet.

question mark

Warum ist Kreuzvalidierung insbesondere bei der Hyperparameter-Optimierung für kleinere Datensätze wertvoll, während bei größeren Datensätzen häufig ein Train-Test-Split bevorzugt wird?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 9

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 3.13

bookModellierungszusammenfassung

Swipe um das Menü anzuzeigen

Sie haben nun gelernt, wie man ein Modell erstellt, es in eine Pipeline integriert und Hyperparameter abstimmt. Zwei Evaluierungsmethoden wurden ebenfalls behandelt: der Train-Test-Split und die Kreuzvalidierung.

Der nächste Schritt besteht darin, die Modellevaluierung mit der Hyperparameterabstimmung mithilfe von GridSearchCV oder RandomizedSearchCV zu kombinieren.

Note
Hinweis

Da unser Datensatz sehr klein ist, verwenden wir das GridSearchCV, aber alles, was im Folgenden gesagt wird, gilt auch für ein RandomizedSearchCV.

Das Ziel ist es, den höchsten Kreuzvalidierungswert auf dem Datensatz zu erzielen, da die Kreuzvalidierung stabiler ist und weniger davon abhängt, wie die Daten aufgeteilt werden, als der Train-Test-Ansatz.

GridSearchCV ist speziell für diesen Zweck konzipiert: Es identifiziert die Hyperparameter, die den besten Kreuzvalidierungswert erreichen, und liefert ein feinabgestimmtes Modell, das auf den Trainingsdaten optimal funktioniert.

Das Attribut .best_score_ speichert den höchsten während der Suche gefundenen Kreuzvalidierungswert.

Note
Hinweis

Die besten Hyperparameter für einen bestimmten Datensatz sind nicht unbedingt die besten insgesamt. Wenn neue Daten hinzugefügt werden, können sich die optimalen Hyperparameter ändern.

Daher kann der mit .best_score_ erzielte Wert höher sein als die Leistung auf vollständig unbekannten Daten, da die Hyperparameter möglicherweise nicht so gut über den Trainingsdatensatz hinaus generalisieren.

In der Regel wird der Datensatz zunächst in Trainings- und Testdaten aufgeteilt. Anschließend wird auf dem Trainingsdatensatz eine Kreuzvalidierung durchgeführt, um das Modell zu optimieren und die beste Konfiguration zu ermitteln. Abschließend wird das optimierte Modell auf dem Testdatensatz, der ausschließlich unbekannte Daten enthält, bewertet, um die Praxisleistung zu bestimmen.

Zusammengefasst besteht der vollständige Workflow aus:

  1. Vorverarbeitung der Daten;
  2. Aufteilung des Datensatzes in Trainings- und Testdaten;
  3. Anwendung der Kreuzvalidierung auf den Trainingsdaten, um das leistungsstärkste Modell zu finden;
  4. Bewertung dieses Modells auf den Testdaten.
Note
Weiterführende Studien

Der dritte Schritt umfasst in der Regel das Testen mehrerer Algorithmen und das Anpassen ihrer Hyperparameter, um die beste Option zu identifizieren. Zur Vereinfachung wurde in diesem Kurs nur ein einzelner Algorithmus verwendet.

Bevor Sie zur abschließenden Herausforderung übergehen, ist es wichtig zu beachten, dass die Kreuzvalidierung nicht die einzige Methode zur Feinabstimmung von Modellen ist. Mit zunehmender Größe der Datensätze wird die Berechnung von Kreuzvalidierungswerten zeitaufwändiger, und die reguläre Aufteilung in Trainings- und Testdaten bietet aufgrund der größeren Testmenge mehr Stabilität.

Daher werden große Datensätze häufig in drei Mengen unterteilt: ein Trainingsset, ein Validierungsset und ein Testset. Das Modell wird auf dem Trainingsset trainiert und auf dem Validierungsset bewertet, um das Modell oder die Hyperparameter mit der besten Leistung auszuwählen.

Diese Auswahl erfolgt anhand der Validierungsset-Ergebnisse anstelle von Kreuzvalidierungswerten. Abschließend wird das ausgewählte Modell auf dem Testset, das ausschließlich aus unbekannten Daten besteht, bewertet, um seine Leistungsfähigkeit zu überprüfen.

Der Pinguin-Datensatz ist klein und umfasst nur 342 Instanzen. Aufgrund dieser begrenzten Größe wird im nächsten Kapitel der Kreuzvalidierungswert zur Bewertung verwendet.

question mark

Warum ist Kreuzvalidierung insbesondere bei der Hyperparameter-Optimierung für kleinere Datensätze wertvoll, während bei größeren Datensätzen häufig ein Train-Test-Split bevorzugt wird?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 9
some-alt