Was ist eine Pipeline
Im vorherigen Abschnitt wurden drei Vorverarbeitungsschritte durchgeführt: Imputation, Kodierung und Skalierung.
Die Vorverarbeitungsschritte wurden nacheinander angewendet, indem bestimmte Spalten transformiert und anschließend wieder in das X
-Array eingefügt wurden. Dieser Ansatz kann umständlich sein, insbesondere mit dem OneHotEncoder
, der die Anzahl der Spalten verändert.
Ein weiterer Nachteil besteht darin, dass alle neuen Daten, die für Vorhersagen verwendet werden, denselben Ablauf der Transformationen durchlaufen müssen, was eine Wiederholung des gesamten Prozesses erfordert.
Die Pipeline
-Klasse in Scikit-learn vereinfacht dies, indem sie alle Transformationen in einen einzigen Workflow integriert. Dadurch wird die konsistente Anwendung der Vorverarbeitung auf Trainingsdaten und neue Instanzen erleichtert.
Eine Pipeline
dient als Container für eine Abfolge von Transformatoren und schließlich einen Schätzer. Beim Aufruf der Methode .fit_transform()
auf einer Pipeline
wird die Methode .fit_transform()
jedes einzelnen Transformators nacheinander auf die Daten angewendet.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Dieser optimierte Ansatz bedeutet, dass .fit_transform()
nur einmal auf dem Trainingsdatensatz aufgerufen werden muss und anschließend die Methode .transform()
zur Verarbeitung neuer Instanzen verwendet werden kann.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 3.13
Was ist eine Pipeline
Swipe um das Menü anzuzeigen
Im vorherigen Abschnitt wurden drei Vorverarbeitungsschritte durchgeführt: Imputation, Kodierung und Skalierung.
Die Vorverarbeitungsschritte wurden nacheinander angewendet, indem bestimmte Spalten transformiert und anschließend wieder in das X
-Array eingefügt wurden. Dieser Ansatz kann umständlich sein, insbesondere mit dem OneHotEncoder
, der die Anzahl der Spalten verändert.
Ein weiterer Nachteil besteht darin, dass alle neuen Daten, die für Vorhersagen verwendet werden, denselben Ablauf der Transformationen durchlaufen müssen, was eine Wiederholung des gesamten Prozesses erfordert.
Die Pipeline
-Klasse in Scikit-learn vereinfacht dies, indem sie alle Transformationen in einen einzigen Workflow integriert. Dadurch wird die konsistente Anwendung der Vorverarbeitung auf Trainingsdaten und neue Instanzen erleichtert.
Eine Pipeline
dient als Container für eine Abfolge von Transformatoren und schließlich einen Schätzer. Beim Aufruf der Methode .fit_transform()
auf einer Pipeline
wird die Methode .fit_transform()
jedes einzelnen Transformators nacheinander auf die Daten angewendet.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Dieser optimierte Ansatz bedeutet, dass .fit_transform()
nur einmal auf dem Trainingsdatensatz aufgerufen werden muss und anschließend die Methode .transform()
zur Verarbeitung neuer Instanzen verwendet werden kann.
Danke für Ihr Feedback!