Herausforderung: Implementierung Eines Random Forest
In sklearn wird die Klassifikationsvariante des Random Forest mit dem RandomForestClassifier implementiert:
Die Kreuzvalidierungsgenauigkeit wird mit der Funktion cross_val_score() berechnet:
Am Ende erfolgt die Ausgabe der Wichtigkeit jeder einzelnen Eigenschaft. Das Attribut feature_importances_ gibt ein Array mit Wichtigkeitswerten zurück – diese Werte zeigen, wie stark jede Eigenschaft zur Reduzierung der Gini-Unreinheit an allen Entscheidungsnoten beigetragen hat, an denen diese Eigenschaft verwendet wurde. Anders ausgedrückt: Je mehr eine Eigenschaft die Daten sinnvoll trennt, desto höher ist ihre Wichtigkeit.
Das Attribut liefert jedoch nur die Werte ohne Eigenschaftsnamen. Um beides anzuzeigen, können Sie sie mit der Python-Funktion zip() paaren:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Dies gibt für jede Eigenschaft den Namen zusammen mit ihrem Wichtigkeitswert aus, was das Verständnis erleichtert, auf welche Merkmale sich das Modell am meisten stützt.
Swipe to start coding
Sie erhalten einen Titanic-Datensatz, der als DataFrame in der Variablen df gespeichert ist.
- Initialisieren Sie das Random Forest-Modell, setzen Sie
random_state=42, trainieren Sie es und speichern Sie das trainierte Modell in der Variablenrandom_forest. - Berechnen Sie die Kreuzvalidierungswerte für das trainierte Modell mit
10Folds und speichern Sie die resultierenden Werte in der Variablencv_scores.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain how cross-validation works in this context?
How do I interpret the feature importance scores?
Can you show an example of how to use RandomForestClassifier with cross_val_score?
Awesome!
Completion rate improved to 4.17
Herausforderung: Implementierung Eines Random Forest
Swipe um das Menü anzuzeigen
In sklearn wird die Klassifikationsvariante des Random Forest mit dem RandomForestClassifier implementiert:
Die Kreuzvalidierungsgenauigkeit wird mit der Funktion cross_val_score() berechnet:
Am Ende erfolgt die Ausgabe der Wichtigkeit jeder einzelnen Eigenschaft. Das Attribut feature_importances_ gibt ein Array mit Wichtigkeitswerten zurück – diese Werte zeigen, wie stark jede Eigenschaft zur Reduzierung der Gini-Unreinheit an allen Entscheidungsnoten beigetragen hat, an denen diese Eigenschaft verwendet wurde. Anders ausgedrückt: Je mehr eine Eigenschaft die Daten sinnvoll trennt, desto höher ist ihre Wichtigkeit.
Das Attribut liefert jedoch nur die Werte ohne Eigenschaftsnamen. Um beides anzuzeigen, können Sie sie mit der Python-Funktion zip() paaren:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Dies gibt für jede Eigenschaft den Namen zusammen mit ihrem Wichtigkeitswert aus, was das Verständnis erleichtert, auf welche Merkmale sich das Modell am meisten stützt.
Swipe to start coding
Sie erhalten einen Titanic-Datensatz, der als DataFrame in der Variablen df gespeichert ist.
- Initialisieren Sie das Random Forest-Modell, setzen Sie
random_state=42, trainieren Sie es und speichern Sie das trainierte Modell in der Variablenrandom_forest. - Berechnen Sie die Kreuzvalidierungswerte für das trainierte Modell mit
10Folds und speichern Sie die resultierenden Werte in der Variablencv_scores.
Lösung
Danke für Ihr Feedback!
single