Kursinhalt
Lineare Regression mit Python
Lineare Regression mit Python
Parameter Finden
Wir wissen jetzt, dass die lineare Regression nur eine Linie ist, die die Daten am besten anpasst. Aber wie kann man feststellen, welche die richtige ist?
Nun, Sie können die Differenz zwischen dem vorhergesagten Wert und dem tatsächlichen Zielwert für jeden Datenpunkt im Trainingssatz berechnen.
Diese Unterschiede werden als Residuen (oder Fehler) bezeichnet. Und das Ziel ist es, die Residuen so klein wie möglich zu machen.
Methode der kleinsten Quadrate
Der Standardansatz ist die Methode der kleinsten Quadrate (OLS):
Nehmen Sie jedes Residuum, quadrieren Sie es (hauptsächlich, um das Vorzeichen eines Residuums zu eliminieren), und summieren Sie alle.
Das wird als SSR (Summe der quadrierten Residuen) bezeichnet. Und die Aufgabe besteht darin, die Parameter zu finden, die die SSR minimieren.
Normale Gleichung
Glücklicherweise müssen wir nicht alle Linien ausprobieren und SSR für sie berechnen. Die Aufgabe, SSR zu minimieren, hat eine mathematische Lösung, die nicht sehr rechenintensiv ist.
Diese Lösung wird die Normale Gleichung genannt.
Diese Gleichung gibt uns die Parameter einer Linie mit dem geringsten SSR.
Haben Sie nicht verstanden, wie es funktioniert? Keine Sorge! Es ist ziemlich komplexe Mathematik. Aber Sie müssen die Parameter nicht selbst berechnen. Viele Bibliotheken haben bereits die lineare Regression implementiert.
Also, springen Sie in die folgenden Kapitel. Sie zeigen Ihnen, wie Sie das lineare Regressionsmodell mit diesen Bibliotheken erstellen.
Quiz
1. Betrachten Sie das obige Bild. Welche Regressionslinie ist besser?
2. y_true - y_predicted wird genannt
Danke für Ihr Feedback!