Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda O Que É Pipeline | Pipelines
Introdução ao ML com Scikit-learn

bookO Que É Pipeline

Na seção anterior, três etapas de pré-processamento foram concluídas: imputação, codificação e padronização.

As etapas de pré-processamento foram aplicadas uma a uma, transformando colunas específicas e mesclando-as novamente no array X. Essa abordagem pode ser trabalhosa, especialmente com o OneHotEncoder, que altera o número de colunas.

Outra desvantagem é que qualquer novo dado utilizado para predição deve passar pela mesma sequência de transformações, exigindo a repetição de todo o processo.

A classe Pipeline do Scikit-learn simplifica isso ao combinar todas as transformações em um único fluxo de trabalho, facilitando a aplicação consistente do pré-processamento tanto nos dados de treinamento quanto em novas instâncias.

Um Pipeline funciona como um contêiner para uma sequência de transformadores e, eventualmente, um estimador. Ao invocar o método .fit_transform() em um Pipeline, ele aplica sequencialmente o método .fit_transform() de cada transformador aos dados.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Essa abordagem simplificada significa que é necessário chamar .fit_transform() apenas uma vez no conjunto de treinamento e, posteriormente, utilizar o método .transform() para processar novas instâncias.

question mark

Qual é a principal vantagem de utilizar um Pipeline no scikit-learn para pré-processamento de dados e treinamento de modelos?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 1

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain how to add a model to the pipeline after preprocessing?

What are the benefits of using a pipeline compared to manual preprocessing?

How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?

Awesome!

Completion rate improved to 3.13

bookO Que É Pipeline

Deslize para mostrar o menu

Na seção anterior, três etapas de pré-processamento foram concluídas: imputação, codificação e padronização.

As etapas de pré-processamento foram aplicadas uma a uma, transformando colunas específicas e mesclando-as novamente no array X. Essa abordagem pode ser trabalhosa, especialmente com o OneHotEncoder, que altera o número de colunas.

Outra desvantagem é que qualquer novo dado utilizado para predição deve passar pela mesma sequência de transformações, exigindo a repetição de todo o processo.

A classe Pipeline do Scikit-learn simplifica isso ao combinar todas as transformações em um único fluxo de trabalho, facilitando a aplicação consistente do pré-processamento tanto nos dados de treinamento quanto em novas instâncias.

Um Pipeline funciona como um contêiner para uma sequência de transformadores e, eventualmente, um estimador. Ao invocar o método .fit_transform() em um Pipeline, ele aplica sequencialmente o método .fit_transform() de cada transformador aos dados.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Essa abordagem simplificada significa que é necessário chamar .fit_transform() apenas uma vez no conjunto de treinamento e, posteriormente, utilizar o método .transform() para processar novas instâncias.

question mark

Qual é a principal vantagem de utilizar um Pipeline no scikit-learn para pré-processamento de dados e treinamento de modelos?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 1
some-alt