パイプラインとは
メニューを表示するにはスワイプしてください
前のセクションでは、3つの前処理ステップ(補完、エンコーディング、スケーリング)が完了しました。
前処理ステップは一つずつ適用され、特定の列を変換し、それらをX配列に統合していました。この方法は、特にOneHotEncoderのように列数が変化する場合、手間がかかります。
さらに、新しいデータで予測を行う際にも同じ変換手順を踏む必要があり、全工程を繰り返す必要があります。
Scikit-learnのPipelineクラスは、すべての変換処理を一つのワークフローにまとめることで、トレーニングデータと新しいデータの両方に一貫した前処理を簡単に適用できるようにします。
Pipelineは、一連のトランスフォーマーと最終的な推定器を格納するコンテナです。.fit_transform()のPipelineメソッドを呼び出すと、各トランスフォーマーの.fit_transform()メソッドが順番にデータに適用されます。
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
この効率的な方法により、トレーニングセットに対して一度だけ.fit_transform()を呼び出し、その後は.transform()メソッドで新しいデータを処理できます。
すべて明確でしたか?
フィードバックありがとうございます!
セクション 3. 章 1
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください
セクション 3. 章 1