Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Was ist eine Pipeline | Pipelines
ML-Einführung Mit Scikit-Learn

bookWas ist eine Pipeline

Im vorherigen Abschnitt wurden drei Vorverarbeitungsschritte durchgeführt: Imputation, Kodierung und Skalierung.

Die Vorverarbeitungsschritte wurden nacheinander angewendet, indem bestimmte Spalten transformiert und anschließend wieder in das X-Array zusammengeführt wurden. Dieser Ansatz kann umständlich sein, insbesondere mit dem OneHotEncoder, der die Anzahl der Spalten verändert.

Ein weiterer Nachteil besteht darin, dass alle neuen Daten, die für Vorhersagen verwendet werden, denselben Ablauf der Transformationen durchlaufen müssen, sodass der gesamte Prozess wiederholt werden muss.

Die Pipeline-Klasse in Scikit-learn vereinfacht dies, indem sie alle Transformationen in einen einzigen Workflow integriert. Dadurch wird eine konsistente Anwendung der Vorverarbeitung sowohl auf Trainingsdaten als auch auf neue Instanzen ermöglicht.

Eine Pipeline dient als Container für eine Abfolge von Transformatoren und schließlich einen Schätzer. Beim Aufruf der .fit_transform()-Methode auf einer Pipeline wird die .fit_transform()-Methode jedes einzelnen Transformators nacheinander auf die Daten angewendet.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Dieser optimierte Ansatz bedeutet, dass .fit_transform() nur einmal auf den Trainingssatz angewendet werden muss und anschließend die .transform()-Methode zur Verarbeitung neuer Instanzen verwendet werden kann.

question mark

Was ist der Hauptvorteil der Verwendung einer Pipeline in scikit-learn für die Datenvorverarbeitung und das Modelltraining?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how to add a model to the pipeline after preprocessing?

What are the benefits of using a pipeline compared to manual preprocessing?

How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?

Awesome!

Completion rate improved to 3.13

bookWas ist eine Pipeline

Swipe um das Menü anzuzeigen

Im vorherigen Abschnitt wurden drei Vorverarbeitungsschritte durchgeführt: Imputation, Kodierung und Skalierung.

Die Vorverarbeitungsschritte wurden nacheinander angewendet, indem bestimmte Spalten transformiert und anschließend wieder in das X-Array zusammengeführt wurden. Dieser Ansatz kann umständlich sein, insbesondere mit dem OneHotEncoder, der die Anzahl der Spalten verändert.

Ein weiterer Nachteil besteht darin, dass alle neuen Daten, die für Vorhersagen verwendet werden, denselben Ablauf der Transformationen durchlaufen müssen, sodass der gesamte Prozess wiederholt werden muss.

Die Pipeline-Klasse in Scikit-learn vereinfacht dies, indem sie alle Transformationen in einen einzigen Workflow integriert. Dadurch wird eine konsistente Anwendung der Vorverarbeitung sowohl auf Trainingsdaten als auch auf neue Instanzen ermöglicht.

Eine Pipeline dient als Container für eine Abfolge von Transformatoren und schließlich einen Schätzer. Beim Aufruf der .fit_transform()-Methode auf einer Pipeline wird die .fit_transform()-Methode jedes einzelnen Transformators nacheinander auf die Daten angewendet.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Dieser optimierte Ansatz bedeutet, dass .fit_transform() nur einmal auf den Trainingssatz angewendet werden muss und anschließend die .transform()-Methode zur Verarbeitung neuer Instanzen verwendet werden kann.

question mark

Was ist der Hauptvorteil der Verwendung einer Pipeline in scikit-learn für die Datenvorverarbeitung und das Modelltraining?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1
some-alt