Lernen Warum die Daten skalieren? | Datenvorverarbeitung mit Scikit-Learn

Swipe um das Menü anzuzeigen

Nachdem fehlende Werte behandelt und kategoriale Merkmale codiert wurden, ist der Datensatz frei von Problemen, die Fehler im Modell verursachen könnten. Es bleibt jedoch eine weitere Herausforderung: unterschiedliche Merkmals-Skalen.

Dieses Problem führt zwar nicht zu Fehlern, wenn die aktuellen Daten dem Modell zugeführt werden, kann jedoch einige ML-Modelle erheblich verschlechtern.

Betrachten Sie ein Beispiel, bei dem ein Merkmal 'age' ist, das von 18 bis 50 reicht, und das zweite Merkmal 'income', das von $25,000 bis $500,000 reicht. Es ist offensichtlich, dass ein Unterschied von zehn Jahren im Alter bedeutender ist als ein Unterschied von zehn Dollar beim Einkommen.

Einige Modelle, wie zum Beispiel k-NN (das wir in diesem Kurs verwenden werden), behandeln diese Unterschiede jedoch als gleich wichtig. Infolgedessen hat die Spalte 'income' einen viel größeren Einfluss auf das Modell. Daher ist es entscheidend, dass die Merkmale für k-NN ungefähr den gleichen Wertebereich haben, damit das Modell effektiv funktioniert.

Während andere Modelle weniger stark von unterschiedlichen Skalen betroffen sein können, kann das Skalieren der Daten die Verarbeitungsgeschwindigkeit erheblich steigern. Aus diesem Grund ist das Skalieren der Daten häufig der letzte Schritt in der Vorverarbeitung.

Hinweis

Wie oben erwähnt, ist das Skalieren der Daten in der Regel der letzte Schritt der Vorverarbeitungsphase. Das liegt daran, dass Änderungen an den Merkmalen nach dem Skalieren dazu führen können, dass die Daten nicht mehr skaliert sind.

Im nächsten Kapitel werden die drei am häufigsten verwendeten Transformer für das Skalieren von Daten behandelt. Diese sind StandardScaler, MinMaxScaler und MaxAbsScaler.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 9

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 2. Kapitel 9