Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ なぜデータをスケーリングするのか? | Scikit-learnによるデータの前処理
/
Pythonによる機械学習入門

bookなぜデータをスケーリングするのか?

メニューを表示するにはスワイプしてください

欠損値の処理やカテゴリカル特徴量のエンコーディングを行った後、データセットはモデルでエラーを引き起こす問題がなくなります。しかし、もう一つの課題が残っています。それは、特徴量ごとのスケールの違いです。

この問題は、現在のデータをモデルに入力してもエラーにはなりませんが、一部の機械学習モデルの性能を大きく低下させる可能性があります。

例として、1つの特徴量が 'age'18から50の範囲、もう1つの特徴量が 'income' で**$25,000から$500,000**の範囲だとします。10歳の差は10ドルの収入差よりも重要であることは明らかです。

しかし、k-NN(このコースで使用するモデル)のような一部のモデルでは、これらの違いを同等に重要とみなす場合があります。その結果、'income' 列がモデルに与える影響が非常に大きくなります。そのため、k-NNが効果的に機能するには、特徴量がほぼ同じ範囲を持つことが重要です。

他のモデルではスケールの違いによる影響が小さい場合もありますが、データをスケーリングすることで処理速度が大幅に向上することがあります。そのため、データスケーリングは前処理の最終ステップとして一般的に行われます。

Note
注記

前述のとおり、データのスケーリングは通常、前処理段階の最後のステップ。これは、スケーリング後に特徴量へ変更を加えると、再びスケーリングされていない状態になる可能性があるため。

次の章では、データスケーリングで最もよく使われる3つのトランスフォーマーについて解説。StandardScalerMinMaxScalerMaxAbsScaler

question mark

なぜ、k-nearest neighbors(KNN)のような機械学習モデルで特徴量のスケーリングが重要なのか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 2.  9

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 2.  9
some-alt