Modelle
Die Grundlagen der Datenvorverarbeitung und des Aufbaus von Pipelines wurden nun behandelt. Der nächste Schritt ist das Modellieren.
Ein Modell in Scikit-learn ist ein Estimator, der die Methoden .predict() und .score() sowie .fit() von allen Estimatoren bereitstellt.
.fit()
Sobald die Daten vorverarbeitet und für das Modell bereit sind, besteht der erste Schritt beim Erstellen eines Modells im Trainieren eines Modells. Dies erfolgt mit .fit(X, y).
Um ein Modell für eine überwachte Lernaufgabe (z. B. Regression, Klassifikation) zu trainieren, müssen sowohl X als auch y an die .fit()-Methode übergeben werden.
Bei einer unüberwachten Lernaufgabe (z. B. Clustering) sind keine gelabelten Daten erforderlich, daher kann nur die Variable X übergeben werden, .fit(X). Die Verwendung von .fit(X, y) führt jedoch nicht zu einem Fehler. Das Modell ignoriert einfach die Variable y.
Während des Trainings lernt ein Modell alles, was es für Vorhersagen benötigt. Was das Modell lernt und die Dauer des Trainings hängen vom gewählten Algorithmus ab. Für jede Aufgabe stehen zahlreiche Modelle auf Basis verschiedener Algorithmen zur Verfügung. Einige trainieren langsamer, andere schneller.
Das Training ist jedoch im Allgemeinen der zeitaufwändigste Aspekt des maschinellen Lernens. Ist der Trainingsdatensatz groß, kann das Training eines Modells Minuten, Stunden oder sogar Tage dauern.
.predict()
Nachdem das Modell mit der .fit()-Methode trainiert wurde, kann es Vorhersagen durchführen. Vorhersagen erfolgen einfach durch Aufruf der .predict()-Methode:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
In der Regel soll für neue Instanzen, X_new, ein Zielwert vorhergesagt werden.
.score()
Die Methode .score() wird verwendet, um die Leistung eines trainierten Modells zu messen. In der Regel erfolgt die Berechnung auf dem Testdatensatz (die folgenden Kapitel erläutern dies näher). Die Syntax lautet:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
Die Methode .score() benötigt tatsächliche Zielwerte (y_test im Beispiel). Sie berechnet die Vorhersage für die X_test-Instanzen und vergleicht diese Vorhersage mit dem wahren Zielwert (y_test) anhand einer Metrik. Standardmäßig ist diese Metrik die Genauigkeit bei Klassifikationsaufgaben.
X_test bezeichnet den Teil des Datensatzes, der als Testdatensatz bekannt ist und zur Bewertung der Modellleistung nach dem Training verwendet wird. Er enthält die Merkmale (Eingabedaten). y_test ist der entsprechende Teil der wahren Labels für X_test. Zusammen dienen sie dazu, zu beurteilen, wie gut das Modell neue, unbekannte Daten vorhersagt.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain more about what an estimator is in Scikit-learn?
What are some common algorithms used for modeling in Scikit-learn?
How does the .score() method differ for regression and classification tasks?
Awesome!
Completion rate improved to 3.13
Modelle
Swipe um das Menü anzuzeigen
Die Grundlagen der Datenvorverarbeitung und des Aufbaus von Pipelines wurden nun behandelt. Der nächste Schritt ist das Modellieren.
Ein Modell in Scikit-learn ist ein Estimator, der die Methoden .predict() und .score() sowie .fit() von allen Estimatoren bereitstellt.
.fit()
Sobald die Daten vorverarbeitet und für das Modell bereit sind, besteht der erste Schritt beim Erstellen eines Modells im Trainieren eines Modells. Dies erfolgt mit .fit(X, y).
Um ein Modell für eine überwachte Lernaufgabe (z. B. Regression, Klassifikation) zu trainieren, müssen sowohl X als auch y an die .fit()-Methode übergeben werden.
Bei einer unüberwachten Lernaufgabe (z. B. Clustering) sind keine gelabelten Daten erforderlich, daher kann nur die Variable X übergeben werden, .fit(X). Die Verwendung von .fit(X, y) führt jedoch nicht zu einem Fehler. Das Modell ignoriert einfach die Variable y.
Während des Trainings lernt ein Modell alles, was es für Vorhersagen benötigt. Was das Modell lernt und die Dauer des Trainings hängen vom gewählten Algorithmus ab. Für jede Aufgabe stehen zahlreiche Modelle auf Basis verschiedener Algorithmen zur Verfügung. Einige trainieren langsamer, andere schneller.
Das Training ist jedoch im Allgemeinen der zeitaufwändigste Aspekt des maschinellen Lernens. Ist der Trainingsdatensatz groß, kann das Training eines Modells Minuten, Stunden oder sogar Tage dauern.
.predict()
Nachdem das Modell mit der .fit()-Methode trainiert wurde, kann es Vorhersagen durchführen. Vorhersagen erfolgen einfach durch Aufruf der .predict()-Methode:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
In der Regel soll für neue Instanzen, X_new, ein Zielwert vorhergesagt werden.
.score()
Die Methode .score() wird verwendet, um die Leistung eines trainierten Modells zu messen. In der Regel erfolgt die Berechnung auf dem Testdatensatz (die folgenden Kapitel erläutern dies näher). Die Syntax lautet:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
Die Methode .score() benötigt tatsächliche Zielwerte (y_test im Beispiel). Sie berechnet die Vorhersage für die X_test-Instanzen und vergleicht diese Vorhersage mit dem wahren Zielwert (y_test) anhand einer Metrik. Standardmäßig ist diese Metrik die Genauigkeit bei Klassifikationsaufgaben.
X_test bezeichnet den Teil des Datensatzes, der als Testdatensatz bekannt ist und zur Bewertung der Modellleistung nach dem Training verwendet wird. Er enthält die Merkmale (Eingabedaten). y_test ist der entsprechende Teil der wahren Labels für X_test. Zusammen dienen sie dazu, zu beurteilen, wie gut das Modell neue, unbekannte Daten vorhersagt.
Danke für Ihr Feedback!