Lernen Herausforderung: Implementierung Eines Random Forest

In sklearn wird die Klassifikationsvariante des Random Forest mit dem RandomForestClassifier implementiert:

Die Kreuzvalidierungsgenauigkeit wird mit der Funktion cross_val_score() berechnet:

Am Ende erfolgt die Ausgabe der Wichtigkeit jeder einzelnen Eigenschaft. Das Attribut feature_importances_ gibt ein Array mit Wichtigkeitswerten zurück – diese Werte zeigen, wie stark jede Eigenschaft zur Reduzierung der Gini-Unreinheit an allen Entscheidungsnoten beigetragen hat, an denen diese Eigenschaft verwendet wurde. Anders ausgedrückt: Je mehr eine Eigenschaft die Daten sinnvoll trennt, desto höher ist ihre Wichtigkeit.

Das Attribut liefert jedoch nur die Werte ohne Eigenschaftsnamen. Um beides anzuzeigen, können Sie sie mit der Python-Funktion zip() paaren:

for feature, importance in zip(X.columns, model.feature_importances_):
    print(feature, importance)

Dies gibt für jede Eigenschaft den Namen zusammen mit ihrem Wichtigkeitswert aus, was das Verständnis erleichtert, auf welche Merkmale sich das Modell am meisten stützt.

Aufgabe

Swipe to start coding

Sie erhalten einen Titanic-Datensatz, der als DataFrame in der Variablen df gespeichert ist.

Initialisieren Sie das Random Forest-Modell, setzen Sie random_state=42, trainieren Sie es und speichern Sie das trainierte Modell in der Variablen random_forest.
Berechnen Sie die Kreuzvalidierungswerte für das trainierte Modell mit 10 Folds und speichern Sie die resultierenden Werte in der Variablen cv_scores.

Lösung

War alles klar?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 3

single

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how cross-validation works in this context?

How do I interpret the feature importance scores?

Can you show an example of how to use RandomForestClassifier with cross_val_score?

Awesome!

Completion rate improved to 4.17

Swipe um das Menü anzuzeigen