O Que É Pipeline
Na seção anterior, três etapas de pré-processamento foram concluídas: imputação, codificação e padronização.
As etapas de pré-processamento foram aplicadas uma a uma, transformando colunas específicas e mesclando-as novamente no array X
. Essa abordagem pode ser trabalhosa, especialmente com o OneHotEncoder
, que altera o número de colunas.
Outra desvantagem é que qualquer novo dado utilizado para predição deve passar pela mesma sequência de transformações, exigindo a repetição de todo o processo.
A classe Pipeline
do Scikit-learn simplifica isso ao combinar todas as transformações em um único fluxo de trabalho, facilitando a aplicação consistente do pré-processamento tanto nos dados de treinamento quanto em novas instâncias.
Um Pipeline
funciona como um contêiner para uma sequência de transformadores e, eventualmente, um estimador. Ao invocar o método .fit_transform()
em um Pipeline
, ele aplica sequencialmente o método .fit_transform()
de cada transformador aos dados.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Essa abordagem simplificada significa que é necessário chamar .fit_transform()
apenas uma vez no conjunto de treinamento e, posteriormente, utilizar o método .transform()
para processar novas instâncias.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain how to add a model to the pipeline after preprocessing?
What are the benefits of using a pipeline compared to manual preprocessing?
How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?
Awesome!
Completion rate improved to 3.13
O Que É Pipeline
Deslize para mostrar o menu
Na seção anterior, três etapas de pré-processamento foram concluídas: imputação, codificação e padronização.
As etapas de pré-processamento foram aplicadas uma a uma, transformando colunas específicas e mesclando-as novamente no array X
. Essa abordagem pode ser trabalhosa, especialmente com o OneHotEncoder
, que altera o número de colunas.
Outra desvantagem é que qualquer novo dado utilizado para predição deve passar pela mesma sequência de transformações, exigindo a repetição de todo o processo.
A classe Pipeline
do Scikit-learn simplifica isso ao combinar todas as transformações em um único fluxo de trabalho, facilitando a aplicação consistente do pré-processamento tanto nos dados de treinamento quanto em novas instâncias.
Um Pipeline
funciona como um contêiner para uma sequência de transformadores e, eventualmente, um estimador. Ao invocar o método .fit_transform()
em um Pipeline
, ele aplica sequencialmente o método .fit_transform()
de cada transformador aos dados.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Essa abordagem simplificada significa que é necessário chamar .fit_transform()
apenas uma vez no conjunto de treinamento e, posteriormente, utilizar o método .transform()
para processar novas instâncias.
Obrigado pelo seu feedback!