Kursinhalt
Klassifikation mit Python
Klassifikation mit Python
Metriken
Bis jetzt haben wir die Genauigkeitsmetrik verwendet, um die Leistung des Modells zu messen. Dieses Kapitel zeigt die Nachteile dieser Metrik und führt mehrere weitere Metriken ein, um diese Probleme zu bekämpfen.
Erinnern wir uns zunächst an den TP-, TN-, FN- und FP-Teil des letzten Kapitels.
Genauigkeit
Die Genauigkeit zeigt einen Anteil der korrekten Vorhersagen.
Aber die Genauigkeit hat ihre Nachteile.
Angenommen, Sie versuchen vorherzusagen, ob der Patient eine seltene Krankheit hat. Der Datensatz enthält 99,9% gesunde Patienten und 0,01% Patienten mit der Krankheit. Dann wird das immer gesunde Vorhersagen eine Genauigkeit von 0,999 ergeben, obwohl ein solches Modell völlig nutzlos ist.
Solche Datensätze werden als unausgewogen bezeichnet, und die ausgewogene Genauigkeit hilft, damit umzugehen.
Ausgewogene Genauigkeit
Ausgewogene Genauigkeit berechnet den Anteil der korrekten positiven Vorhersagen und den Anteil der korrekten negativen Vorhersagen separat und mittelt diese. Das bedeutet, dass sie jeder Klasse unabhängig von ihrer Größe die gleiche Bedeutung beimisst.
Im Beispiel der seltenen Krankheit wird die ausgewogene Genauigkeit für ein immer-gesundes Modell 0,5 betragen. Dieses Problem ist gelöst.
Aber dennoch unterscheidet die ausgewogene Genauigkeit nicht zwischen dem Fehler 1. Art und dem Fehler 2. Art, ebenso wenig wie die Genauigkeit. Hier kommen Präzision und Rückruf ins Spiel.
Präzision
Das Präzisions-Metrik zeigt an, wie viele Werte, die das Modell als positiv vorhergesagt hat, tatsächlich positiv waren.
Es ist ein Anteil der True Positive-Vorhersagen an allen positiven Vorhersagen.
Mit der Präzisionsmetrik können wir verstehen, wie häufig der Typ-1-Fehler auftritt. Hohe Präzision – Typ-1-Fehler ist selten und niedrige Präzision bedeutet, dass Typ-1-Fehler häufig ist.
Recall
Ein Recall-Metrik zeigt, welcher Anteil der tatsächlich positiven Werte korrekt vorhergesagt wird.
Die Recall-Metrik gibt ein Verständnis dafür, wie häufig der Typ-2-Fehler auftritt. Ein hoher Recall bedeutet, dass der Typ-2-Fehler selten ist, und ein niedriger Recall bedeutet, dass der Typ-2-Fehler häufig ist.
Das Problem mit Präzisions- und Rückrufmetriken ist, dass das Modell, das nur eine positive (1) Klasse vorhersagt, einen perfekten Rückruf hat. Allerdings wäre seine Präzision schlecht.
Auch das Modell, das eine positive Instanz korrekt vorhersagt und alle anderen Instanzen als negativ einstuft, wird eine perfekte Präzision erreichen, aber der Rückruf wäre schrecklich.
Wir können also leicht ein Modell mit perfekter Präzision oder perfektem Rückruf erstellen, aber es ist viel herausfordernder, ein Modell mit sowohl gutem Rückruf als auch Präzision zu erstellen. Daher ist es wichtig, sowohl Präzision als auch Rückruf zu berücksichtigen. Glücklicherweise gibt es eine Metrik, die dies tut.
F1-Score
Der F1-Score ist ein harmonisches Mittel von Präzision und Rückruf. Das harmonische Mittel ist hier dem regulären Mittel vorzuziehen, da es stärker bestraft, wenn einer der Summanden niedrig ist.
F1 kombiniert sowohl Präzision als auch Recall in einer Metrik. F1 wird nur dann gut sein, wenn sowohl Präzision als auch Recall relativ hoch sind.
Die Wahl der Metrik hängt davon ab, was Ihre Aufgabe ist. Die Genauigkeit (oder die ausgewogene Genauigkeit für unausgeglichene Datensätze) ist intuitiv und gibt ein gutes Verständnis dafür, wie das Modell insgesamt funktioniert. Wenn Sie spezifischer über die von einem Modell gemachten Fehler sein müssen, kann die Präzision Typ-1-Fehler anzeigen, während der Recall Typ-2-Fehler identifizieren kann. Und der F1-Score zeigt, wie ausgewogen Typ-1- und Typ-2-Fehler sind.
Metriken in Python
Scikit-learn implementiert all diese Metriken. Sie sind im Modul sklearn.metrics
zu finden:
Danke für Ihr Feedback!