Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hvad Er en Pipeline | Pipelines
ML Introduktion med Scikit-learn

bookHvad Er en Pipeline

I det foregående afsnit blev tre forbehandlingsskridt udført: imputering, kodning og skalering.

Forbehandlingsskridtene blev anvendt én ad gangen, hvor specifikke kolonner blev transformeret og derefter flettet tilbage i X-arrayet. Denne tilgang kan være besværlig, især med OneHotEncoder, som ændrer antallet af kolonner.

En anden ulempe er, at alle nye data, der bruges til forudsigelse, skal gennemgå den samme sekvens af transformationer, hvilket kræver, at hele processen gentages.

Pipeline-klassen i Scikit-learn forenkler dette ved at samle alle transformationer i et enkelt workflow, hvilket gør det lettere at anvende forbehandling konsekvent på både træningsdata og nye observationer.

En Pipeline fungerer som en beholder for en sekvens af transformere og til sidst en estimator. Når du kalder .fit_transform()-metoden på en Pipeline, anvender den sekventielt .fit_transform()-metoden for hver transformer på dataene.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Denne strømlinede tilgang betyder, at du kun behøver at kalde .fit_transform() én gang på træningssættet og derefter bruge .transform()-metoden til at behandle nye observationer.

question mark

Hvad er den primære fordel ved at bruge en Pipeline i scikit-learn til datapreprocessering og modeltræning?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain how to add a model to the pipeline after preprocessing?

What are the benefits of using a pipeline compared to manual preprocessing?

How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?

Awesome!

Completion rate improved to 3.13

bookHvad Er en Pipeline

Stryg for at vise menuen

I det foregående afsnit blev tre forbehandlingsskridt udført: imputering, kodning og skalering.

Forbehandlingsskridtene blev anvendt én ad gangen, hvor specifikke kolonner blev transformeret og derefter flettet tilbage i X-arrayet. Denne tilgang kan være besværlig, især med OneHotEncoder, som ændrer antallet af kolonner.

En anden ulempe er, at alle nye data, der bruges til forudsigelse, skal gennemgå den samme sekvens af transformationer, hvilket kræver, at hele processen gentages.

Pipeline-klassen i Scikit-learn forenkler dette ved at samle alle transformationer i et enkelt workflow, hvilket gør det lettere at anvende forbehandling konsekvent på både træningsdata og nye observationer.

En Pipeline fungerer som en beholder for en sekvens af transformere og til sidst en estimator. Når du kalder .fit_transform()-metoden på en Pipeline, anvender den sekventielt .fit_transform()-metoden for hver transformer på dataene.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Denne strømlinede tilgang betyder, at du kun behøver at kalde .fit_transform() én gang på træningssættet og derefter bruge .transform()-metoden til at behandle nye observationer.

question mark

Hvad er den primære fordel ved at bruge en Pipeline i scikit-learn til datapreprocessering og modeltræning?

Select the correct answer

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 3. Kapitel 1
some-alt