Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Vad är Pipeline | Pipelines
ML-introduktion Med Scikit-learn

bookVad är Pipeline

I föregående avsnitt genomfördes tre förbehandlingssteg: imputering, kodning och skalning.

Förbehandlingsstegen tillämpades ett i taget, där specifika kolumner transformerades och slogs samman tillbaka till X-arrayen. Detta tillvägagångssätt kan vara omständligt, särskilt med OneHotEncoder, som förändrar antalet kolumner.

En annan nackdel är att all ny data som används för prediktion måste genomgå samma sekvens av transformationer, vilket kräver att hela processen upprepas.

Pipeline-klassen i Scikit-learn förenklar detta genom att kombinera alla transformationer i ett enda arbetsflöde, vilket gör det enklare att tillämpa förbehandling konsekvent på både träningsdata och nya instanser.

En Pipeline fungerar som en behållare för en sekvens av transformatorer och slutligen en estimator. När du anropar .fit_transform()-metoden på en Pipeline tillämpas .fit_transform()-metoden för varje transformator sekventiellt på datan.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Detta strömlinjeformade tillvägagångssätt innebär att du endast behöver anropa .fit_transform() en gång på träningsmängden och därefter använda .transform()-metoden för att bearbeta nya instanser.

question mark

Vad är den främsta fördelen med att använda en Pipeline i scikit-learn för datapreprocessering och modellträning?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 1

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain how to add a model to the pipeline after preprocessing?

What are the benefits of using a pipeline compared to manual preprocessing?

How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?

Awesome!

Completion rate improved to 3.13

bookVad är Pipeline

Svep för att visa menyn

I föregående avsnitt genomfördes tre förbehandlingssteg: imputering, kodning och skalning.

Förbehandlingsstegen tillämpades ett i taget, där specifika kolumner transformerades och slogs samman tillbaka till X-arrayen. Detta tillvägagångssätt kan vara omständligt, särskilt med OneHotEncoder, som förändrar antalet kolumner.

En annan nackdel är att all ny data som används för prediktion måste genomgå samma sekvens av transformationer, vilket kräver att hela processen upprepas.

Pipeline-klassen i Scikit-learn förenklar detta genom att kombinera alla transformationer i ett enda arbetsflöde, vilket gör det enklare att tillämpa förbehandling konsekvent på både träningsdata och nya instanser.

En Pipeline fungerar som en behållare för en sekvens av transformatorer och slutligen en estimator. När du anropar .fit_transform()-metoden på en Pipeline tillämpas .fit_transform()-metoden för varje transformator sekventiellt på datan.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Detta strömlinjeformade tillvägagångssätt innebär att du endast behöver anropa .fit_transform() en gång på träningsmängden och därefter använda .transform()-metoden för att bearbeta nya instanser.

question mark

Vad är den främsta fördelen med att använda en Pipeline i scikit-learn för datapreprocessering och modellträning?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 1
some-alt