Summary  
This chapter introduces the concept of a Pipeline for chaining transformers and an estimator into a single workflow, allowing you to call fit_transform once on training data and then consistently apply transform to new instances.  

General domain of usage  
Machine learning data preprocessing

前のセクションでは、3つの前処理ステップ（補完、エンコーディング、スケーリング）が完了しました。


前処理ステップは**一つずつ**適用され、特定の列を変換し、それらを`X`配列に統合していました。この方法は、特に`OneHotEncoder`のように列数が変化する場合、手間がかかります。

さらに、新しいデータで予測を行う際にも同じ変換手順を踏む必要があり、全工程を繰り返す必要があります。

Scikit-learnの`Pipeline`クラスは、すべての変換処理を一つのワークフローにまとめることで、トレーニングデータと新しいデータの両方に一貫した前処理を簡単に適用できるようにします。


`Pipeline` は、一連のトランスフォーマーと最終的な推定器（estimator）を格納するコンテナ。`.fit_transform()` メソッドを `Pipeline` に対して呼び出すと、各トランスフォーマーの `.fit_transform()` メソッドが**順番に**データへ適用される。

```python
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
```

この効率的な方法により、**トレーニングセットに対して一度だけ** `.fit_transform()` を呼び出し、その後は `.transform()` メソッドで新しいデータを処理できる。

scikit-learn でデータ前処理やモデル学習に `Pipeline` を使用する主な利点は何か？

機械学習は今やあらゆる場所で利用されています。自分で学びたいと思いませんか？このコースは、機械学習の世界への入門として、基本的な概念の習得、最も人気のあるMLライブラリであるScikit-learnの操作、そして最初の機械学習プロジェクトの構築を学ぶためのものです。
このコースは、Python、Pandas、Numpyの基礎知識を持つ学生を対象としています。

機械学習の概念とMLプロジェクトのワークフローについて学習します。

前処理は、MLプロジェクトにおいて最も重要な段階の一つです。本章では、ほぼすべてのデータセットに必要な前処理手順について解説します。

パイプラインは、すべての前処理ステップとモデルを組み合わせるための便利な方法です。パイプラインを使用することで、モデルの学習や利用がはるかに簡単になります。

モデリングはMLプロジェクトの中で最も楽しい段階です。モデルの構築、チューニング、評価方法を学びましょう。

パイプラインとは何か