Kursinhalt
Klassifikation mit Python
Klassifikation mit Python
Zusammenfassung
Fassen wir alles zusammen! Wir haben vier Algorithmen gelernt: k-NN, Logistische Regression, Entscheidungsbaum und Random Forest. Jeder hat seine Vor- und Nachteile, die am Ende jedes Abschnitts behandelt werden.
Die folgende Visualisierung zeigt, wie jeder Algorithmus auf einigen synthetischen Datensätzen abschneidet.
Hier gilt: Je sicherer das Modell in seinen Vorhersagen ist, desto tiefer ist die Farbe.
Man kann feststellen, dass jedes Dataset ein anderes bestes Modell hat. Es ist schwer im Voraus zu sagen, welches Modell besser funktioniert, daher ist es am besten, sie alle auszuprobieren. Das ist, was das No Free Lunch Theorem bedeutet.
In einigen Fällen kann jedoch das Wissen über die Algorithmen Ihnen im Voraus sagen, dass der Algorithmus nicht für die Aufgabe geeignet ist.
Zum Beispiel ist es der Fall bei der Logistischen Regression (ohne PolynomialFeatures
), von der wir wissen, dass sie eine lineare Entscheidungsgrenze bietet. Wenn wir uns also die Komplexität des zweiten Datensatzes auf einem Bild ansehen, könnten wir im Voraus sagen, dass es nicht gut funktionieren würde.
Ein weiteres Beispiel: Wenn Ihre Aufgabe eine blitzschnelle Vorhersagegeschwindigkeit erfordert (z.B. Echtzeitvorhersagen in einer App), dann ist k-NN eine schlechte Wahl. Ebenso ist der Random Forest mit vielen Entscheidungsbäumen keine gute Wahl (aber Sie können die n_estimators
verringern, und vielleicht erhalten Sie eine akzeptable Geschwindigkeit, aber die Leistung wird sich verschlechtern).
Die folgende Tabelle hilft Ihnen dabei, welche Vorverarbeitung vor dem Training des Modells durchgeführt werden muss und wie viel langsamer das Modell mit zunehmender Anzahl von Merkmalen/Instanzen wird.
Danke für Ihr Feedback!