Kursinhalt
Klassifikation mit Python
Klassifikation mit Python
Was Ist Klassifikation
Klassifikation ist eine überwachte Lernaufgabe.
Ziel ist es, die Klasse vorherzusagen, zu der die Instanz gehört, basierend auf einer Reihe von Parametern(Merkmale). Sie müssen dem Computer viele gekennzeichnete Datenbeispiele (genannt Trainingssatz) geben, damit er lernen kann, bevor er die Klasse einer neuen Instanz vorhersagen kann.
Der Unterschied zwischen Klassifikation und Regression besteht darin, dass die Regression einen kontinuierlichen numerischen Wert vorhersagt, zum Beispiel einen Preis. Es kann jede reelle (nur positive für einen Preis) Zahl sein.
Im Gegensatz dazu sagt die Klassifikation einen kategorialen Wert voraus, zum Beispiel die Art einer Süßigkeit. Es gibt eine endliche Menge von Werten, und das Modell versucht, jede Instanz in eine dieser Kategorien einzuordnen
Basierend auf der Formulierung eines Problems gibt es zwei Arten der Klassifikation:
- Binäre Klassifikation: Bei der binären Klassifikation ist ein Ziel eines von zwei möglichen Ergebnissen. Zum Beispiel, E-Mail: Spam/nicht Spam, Süßigkeit: Keks/nicht Keks;
- Mehrklassenklassifikation: Bei der Mehrklassenklassifikation gibt es drei oder mehr mögliche Ergebnisse für ein Ziel. Zum Beispiel, E-Mail: Spam/wichtig/Werbung/sonstiges, Süßigkeit: Keks/Marshmallow/Bonbon.
Für die meisten ML-Modelle müssen Sie das Ziel in eine Zahl kodieren.
Bei der binären Klassifikation werden die Ergebnisse normalerweise als 0/1 kodiert (z.B. 1 – Keks, 0 – kein Keks).
Bei einer Mehrklassenklassifikation werden die Ergebnisse normalerweise als 0, 1, 2, ... kodiert (z.B. 0 – Bonbon, 1 – Keks, 2 – Marshmallow)
Viele verschiedene Modelle führen Klassifikationen durch. In diesem Kurs werden wir die folgenden Modelle besprechen:
- k-nächste Nachbarn;
- Logistische Regression;
- Entscheidungsbaum;
- Zufallswald.
Glücklicherweise sind sie alle in der Scikit-learn-Bibliothek implementiert und einfach zu verwenden.
Warum gibt es so viele Modelle? Wie das No Free Lunch Theorem besagt, ist kein Machine-Learning-Modell besser als ein anderes. Welches Modell am besten abschneidet, hängt von der spezifischen Aufgabe ab.
1. Angenommen, Sie möchten das Ergebnis eines Sportspiels vorhersagen. Wählen Sie die entsprechenden Beziehungen.
2. Welche der Fälle entsprechen der binären Klassifikation und welche der Mehrklassenklassifikation?
Danke für Ihr Feedback!