Vad är Pipeline
I föregående avsnitt genomfördes tre förbehandlingssteg: imputering, kodning och skalning.
Förbehandlingsstegen tillämpades ett i taget, där specifika kolumner transformerades och slogs samman tillbaka till X
-arrayen. Detta tillvägagångssätt kan vara omständligt, särskilt med OneHotEncoder
, som förändrar antalet kolumner.
En annan nackdel är att all ny data som används för prediktion måste genomgå samma sekvens av transformationer, vilket kräver att hela processen upprepas.
Pipeline
-klassen i Scikit-learn förenklar detta genom att kombinera alla transformationer i ett enda arbetsflöde, vilket gör det enklare att tillämpa förbehandling konsekvent på både träningsdata och nya instanser.
En Pipeline
fungerar som en behållare för en sekvens av transformatorer och slutligen en estimator. När du anropar .fit_transform()
-metoden på en Pipeline
tillämpas .fit_transform()
-metoden för varje transformator sekventiellt på datan.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Detta strömlinjeformade tillvägagångssätt innebär att du endast behöver anropa .fit_transform()
en gång på träningsmängden och därefter använda .transform()
-metoden för att bearbeta nya instanser.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you explain how to add a model to the pipeline after preprocessing?
What are the benefits of using a pipeline compared to manual preprocessing?
How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?
Awesome!
Completion rate improved to 3.13
Vad är Pipeline
Svep för att visa menyn
I föregående avsnitt genomfördes tre förbehandlingssteg: imputering, kodning och skalning.
Förbehandlingsstegen tillämpades ett i taget, där specifika kolumner transformerades och slogs samman tillbaka till X
-arrayen. Detta tillvägagångssätt kan vara omständligt, särskilt med OneHotEncoder
, som förändrar antalet kolumner.
En annan nackdel är att all ny data som används för prediktion måste genomgå samma sekvens av transformationer, vilket kräver att hela processen upprepas.
Pipeline
-klassen i Scikit-learn förenklar detta genom att kombinera alla transformationer i ett enda arbetsflöde, vilket gör det enklare att tillämpa förbehandling konsekvent på både träningsdata och nya instanser.
En Pipeline
fungerar som en behållare för en sekvens av transformatorer och slutligen en estimator. När du anropar .fit_transform()
-metoden på en Pipeline
tillämpas .fit_transform()
-metoden för varje transformator sekventiellt på datan.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Detta strömlinjeformade tillvägagångssätt innebär att du endast behöver anropa .fit_transform()
en gång på träningsmängden och därefter använda .transform()
-metoden för att bearbeta nya instanser.
Tack för dina kommentarer!