Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mikä on putkisto | Putkistot
Koneoppimisen Perusteet Scikit-learnilla

bookMikä on putkisto

Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.

Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder-muuntimen kanssa, joka muuttaa sarakkeiden määrää.

Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samalla muunnosjärjestyksellä, mikä vaatii koko prosessin toistamista.

Scikit-learnin Pipeline-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn johdonmukaista soveltamista sekä koulutusdataan että uusiin havaintoihin.

Pipeline toimii säiliönä muuntimien ja lopulta estimaattorin sarjalle. Kun kutsut .fit_transform()-metodia Pipeline-oliolle, se soveltaa kunkin muuntimen .fit_transform()-metodia dataan järjestyksessä.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Tämä virtaviivainen lähestymistapa tarkoittaa, että sinun tarvitsee kutsua .fit_transform() vain kerran koulutusdatalla ja käyttää sen jälkeen .transform()-metodia uusien havaintojen käsittelyyn.

question mark

Mikä on scikit-learnin Pipeline-rakenteen ensisijainen etu datan esikäsittelyssä ja mallin koulutuksessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 3.13

bookMikä on putkisto

Pyyhkäise näyttääksesi valikon

Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.

Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder-muuntimen kanssa, joka muuttaa sarakkeiden määrää.

Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samalla muunnosjärjestyksellä, mikä vaatii koko prosessin toistamista.

Scikit-learnin Pipeline-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn johdonmukaista soveltamista sekä koulutusdataan että uusiin havaintoihin.

Pipeline toimii säiliönä muuntimien ja lopulta estimaattorin sarjalle. Kun kutsut .fit_transform()-metodia Pipeline-oliolle, se soveltaa kunkin muuntimen .fit_transform()-metodia dataan järjestyksessä.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Tämä virtaviivainen lähestymistapa tarkoittaa, että sinun tarvitsee kutsua .fit_transform() vain kerran koulutusdatalla ja käyttää sen jälkeen .transform()-metodia uusien havaintojen käsittelyyn.

question mark

Mikä on scikit-learnin Pipeline-rakenteen ensisijainen etu datan esikäsittelyssä ja mallin koulutuksessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 1
some-alt