Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Що таке конвеєр | Конвеєри
Вступ до ML з Scikit-learn

bookЩо таке конвеєр

У попередньому розділі було виконано три кроки попередньої обробки: імпутація, кодування та масштабування.

Кроки попередньої обробки застосовувалися по черзі, трансформуючи окремі стовпці та об'єднуючи їх назад у масив X. Такий підхід може бути незручним, особливо з OneHotEncoder, який змінює кількість стовпців.

Ще одним недоліком є те, що будь-які нові дані для прогнозування повинні проходити через ту ж послідовність перетворень, що вимагає повторення всього процесу.

Клас Pipeline у Scikit-learn спрощує це, об'єднуючи всі перетворення в єдиний робочий процес, що дозволяє послідовно застосовувати попередню обробку як до навчальних даних, так і до нових прикладів.

Pipeline виступає контейнером для послідовності трансформерів і, зрештою, оцінювача. При виклику методу .fit_transform() для Pipeline, він послідовно застосовує метод .fit_transform() кожного трансформера до даних.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Такий спрощений підхід означає, що потрібно викликати .fit_transform() лише один раз для навчальної вибірки, а надалі використовувати метод .transform() для обробки нових прикладів.

question mark

Яка основна перевага використання Pipeline у scikit-learn для попередньої обробки даних та навчання моделі?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 1

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain how to add a model to the pipeline after preprocessing?

What are the benefits of using a pipeline compared to manual preprocessing?

How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?

Awesome!

Completion rate improved to 3.13

bookЩо таке конвеєр

Свайпніть щоб показати меню

У попередньому розділі було виконано три кроки попередньої обробки: імпутація, кодування та масштабування.

Кроки попередньої обробки застосовувалися по черзі, трансформуючи окремі стовпці та об'єднуючи їх назад у масив X. Такий підхід може бути незручним, особливо з OneHotEncoder, який змінює кількість стовпців.

Ще одним недоліком є те, що будь-які нові дані для прогнозування повинні проходити через ту ж послідовність перетворень, що вимагає повторення всього процесу.

Клас Pipeline у Scikit-learn спрощує це, об'єднуючи всі перетворення в єдиний робочий процес, що дозволяє послідовно застосовувати попередню обробку як до навчальних даних, так і до нових прикладів.

Pipeline виступає контейнером для послідовності трансформерів і, зрештою, оцінювача. При виклику методу .fit_transform() для Pipeline, він послідовно застосовує метод .fit_transform() кожного трансформера до даних.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Такий спрощений підхід означає, що потрібно викликати .fit_transform() лише один раз для навчальної вибірки, а надалі використовувати метод .transform() для обробки нових прикладів.

question mark

Яка основна перевага використання Pipeline у scikit-learn для попередньої обробки даних та навчання моделі?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 3. Розділ 1
some-alt