Hvad Er en Pipeline
I det foregående afsnit blev tre forbehandlingsskridt udført: imputering, kodning og skalering.
Forbehandlingsskridtene blev anvendt én ad gangen, hvor specifikke kolonner blev transformeret og derefter flettet tilbage i X
-arrayet. Denne tilgang kan være besværlig, især med OneHotEncoder
, som ændrer antallet af kolonner.
En anden ulempe er, at alle nye data, der bruges til forudsigelse, skal gennemgå den samme sekvens af transformationer, hvilket kræver, at hele processen gentages.
Pipeline
-klassen i Scikit-learn forenkler dette ved at samle alle transformationer i et enkelt workflow, hvilket gør det lettere at anvende forbehandling konsekvent på både træningsdata og nye observationer.
En Pipeline
fungerer som en beholder for en sekvens af transformere og til sidst en estimator. Når du kalder .fit_transform()
-metoden på en Pipeline
, anvender den sekventielt .fit_transform()
-metoden for hver transformer på dataene.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Denne strømlinede tilgang betyder, at du kun behøver at kalde .fit_transform()
én gang på træningssættet og derefter bruge .transform()
-metoden til at behandle nye observationer.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain how to add a model to the pipeline after preprocessing?
What are the benefits of using a pipeline compared to manual preprocessing?
How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?
Awesome!
Completion rate improved to 3.13
Hvad Er en Pipeline
Stryg for at vise menuen
I det foregående afsnit blev tre forbehandlingsskridt udført: imputering, kodning og skalering.
Forbehandlingsskridtene blev anvendt én ad gangen, hvor specifikke kolonner blev transformeret og derefter flettet tilbage i X
-arrayet. Denne tilgang kan være besværlig, især med OneHotEncoder
, som ændrer antallet af kolonner.
En anden ulempe er, at alle nye data, der bruges til forudsigelse, skal gennemgå den samme sekvens af transformationer, hvilket kræver, at hele processen gentages.
Pipeline
-klassen i Scikit-learn forenkler dette ved at samle alle transformationer i et enkelt workflow, hvilket gør det lettere at anvende forbehandling konsekvent på både træningsdata og nye observationer.
En Pipeline
fungerer som en beholder for en sekvens af transformere og til sidst en estimator. Når du kalder .fit_transform()
-metoden på en Pipeline
, anvender den sekventielt .fit_transform()
-metoden for hver transformer på dataene.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Denne strømlinede tilgang betyder, at du kun behøver at kalde .fit_transform()
én gang på træningssættet og derefter bruge .transform()
-metoden til at behandle nye observationer.
Tak for dine kommentarer!