Mikä on putkisto
Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.
Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X
-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder
-muuntimen kanssa, joka muuttaa sarakkeiden määrää.
Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samalla muunnosjärjestyksellä, mikä vaatii koko prosessin toistamista.
Scikit-learnin Pipeline
-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn johdonmukaista soveltamista sekä koulutusdataan että uusiin havaintoihin.
Pipeline
toimii säiliönä muuntimien ja lopulta estimaattorin sarjalle. Kun kutsut .fit_transform()
-metodia Pipeline
-oliolle, se soveltaa kunkin muuntimen .fit_transform()
-metodia dataan järjestyksessä.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Tämä virtaviivainen lähestymistapa tarkoittaa, että sinun tarvitsee kutsua .fit_transform()
vain kerran koulutusdatalla ja käyttää sen jälkeen .transform()
-metodia uusien havaintojen käsittelyyn.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.13
Mikä on putkisto
Pyyhkäise näyttääksesi valikon
Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.
Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X
-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder
-muuntimen kanssa, joka muuttaa sarakkeiden määrää.
Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samalla muunnosjärjestyksellä, mikä vaatii koko prosessin toistamista.
Scikit-learnin Pipeline
-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn johdonmukaista soveltamista sekä koulutusdataan että uusiin havaintoihin.
Pipeline
toimii säiliönä muuntimien ja lopulta estimaattorin sarjalle. Kun kutsut .fit_transform()
-metodia Pipeline
-oliolle, se soveltaa kunkin muuntimen .fit_transform()
-metodia dataan järjestyksessä.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Tämä virtaviivainen lähestymistapa tarkoittaa, että sinun tarvitsee kutsua .fit_transform()
vain kerran koulutusdatalla ja käyttää sen jälkeen .transform()
-metodia uusien havaintojen käsittelyyn.
Kiitos palautteestasi!