Kursinhalt
Klassifikation mit Python
Klassifikation mit Python
Was Ist Random Forest
Random Forest ist ein Algorithmus, der häufig in Klassifikations- und Regressionsproblemen eingesetzt wird. Er baut viele verschiedene Entscheidungsbäume auf und nimmt deren Mehrheitsentscheidung für die Klassifikation und den Durchschnitt im Falle der Regression.
Anstatt den besten Baum zu verwenden, baut Random Forest viele schlechtere Bäume. Warum sollten wir Bäume erstellen, von denen wir wissen, dass sie schlechter sind?
Nun, nehmen wir an, Sie haben eine komplexe Aufgabe und geben sie einem Professor - einem Experten auf diesem Gebiet. Sie können seiner Antwort vertrauen, aber er ist immer noch ein Mensch und kann Fehler machen. Vielleicht wäre das Ergebnis vertrauenswürdiger, wenn Sie die Aufgabe 100 guten Studenten geben und die häufigste Antwort wählen.
In der Praxis funktioniert die Kombination vieler schwächerer Entscheidungsbäume zu einem starken Random Forest sehr gut und übertrifft einen abgestimmten einzelnen Entscheidungsbaum bei großen Datensätzen erheblich.
Die Entscheidungsgrenze eines Random Forest ist glatter und verallgemeinert sich besser auf neue Daten als der Entscheidungsbaum, sodass Random Forest nicht so stark unter Überanpassung leidet.
Die Genauigkeit wird jedoch nicht verbessert, wenn wir viele Modelle kombinieren, die die gleichen Fehler machen. Damit das Ganze funktioniert, sollten wir Modelle wählen, die sich so weit wie möglich voneinander unterscheiden, damit sie unterschiedliche Fehler produzieren.
Das nächste Kapitel wird etwas Licht darauf werfen, warum der Wald zufällig ist und wie wir viele verschiedene Modelle nur mit dem Entscheidungsbaum-Algorithmus erzeugen.
Danke für Ihr Feedback!