Summary  
This chapter introduces the concept of a Pipeline for chaining transformers and an estimator into a single workflow, allowing you to call fit_transform once on training data and then consistently apply transform to new instances.  

General domain of usage  
Machine learning data preprocessing

Na seção anterior, três etapas de pré-processamento foram concluídas: imputação, codificação e normalização.


As etapas de pré-processamento foram aplicadas **uma a uma**, transformando colunas específicas e mesclando-as novamente no array `X`. Essa abordagem pode ser trabalhosa, especialmente com o `OneHotEncoder`, que altera o número de colunas.

Outra desvantagem é que qualquer novo dado utilizado para previsão deve passar pela mesma sequência de transformações, exigindo a repetição de todo o processo.

A classe `Pipeline` do Scikit-learn simplifica isso ao combinar todas as transformações em um único fluxo de trabalho, facilitando a aplicação consistente do pré-processamento tanto nos dados de treinamento quanto em novas instâncias.


Um `Pipeline` funciona como um contêiner para uma sequência de transformadores e, eventualmente, um estimador. Ao invocar o método `.fit_transform()` em um `Pipeline`, ele aplica **sequencialmente** o método `.fit_transform()` de cada transformador aos dados.

```python
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
```

Essa abordagem simplificada significa que você só precisa chamar `.fit_transform()` **uma vez no conjunto de treinamento** e, posteriormente, utilizar o método `.transform()` para processar novas instâncias.

Qual é a principal vantagem de usar um `Pipeline` no scikit-learn para pré-processamento de dados e treinamento de modelos?

O aprendizado de máquina está presente em todos os lugares atualmente. Quer aprender por conta própria? Este curso é uma introdução ao mundo do aprendizado de máquina para que você compreenda os conceitos básicos, trabalhe com o Scikit-learn – a biblioteca mais popular para ML – e desenvolva seu primeiro projeto de aprendizado de máquina.
Este curso é destinado a estudantes com conhecimentos básicos em Python, Pandas e Numpy.

Aprenda os conceitos de Machine Learning e o fluxo de trabalho de projetos de ML.

O pré-processamento é provavelmente a etapa mais importante de um projeto de ML. Este capítulo aborda as etapas de pré-processamento necessárias para praticamente qualquer conjunto de dados.

Um pipeline é uma maneira organizada de combinar todas as etapas de pré-processamento, bem como um modelo. Pipelines facilitam muito o treinamento e a utilização de um modelo.

A modelagem é a etapa mais divertida de um projeto de ML. Vamos aprender a construir, ajustar e avaliar o modelo!

O Que É Pipeline