Desafío: Implementación de un Random Forest
En sklearn, la versión de clasificación de Random Forest se implementa utilizando RandomForestClassifier:
También se calculará la precisión de la validación cruzada utilizando la función cross_val_score():
Al final, se imprimirá la importancia de cada característica. El atributo feature_importances_ devuelve un arreglo de puntuaciones de importancia; estas puntuaciones representan cuánto contribuyó cada característica a reducir la impureza de Gini en todos los nodos de decisión donde se utilizó esa característica. En otras palabras, cuanto más una característica ayuda a dividir los datos de manera útil, mayor es su importancia.
Sin embargo, el atributo solo proporciona las puntuaciones sin los nombres de las características. Para mostrar ambos, se pueden emparejar utilizando la función zip() de Python:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Esto imprime cada nombre de característica junto con su puntuación de importancia, facilitando la comprensión de en qué características se basó más el modelo.
Swipe to start coding
Se proporciona un conjunto de datos del Titanic almacenado como un DataFrame en la variable df.
- Inicializar el modelo de Random Forest, establecer
random_state=42, entrenarlo y guardar el modelo ajustado en la variablerandom_forest. - Calcular las puntuaciones de validación cruzada para el modelo entrenado utilizando
10particiones y almacenar los resultados en la variablecv_scores.
Solución
¡Gracias por tus comentarios!
single
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Genial!
Completion tasa mejorada a 4.17
Desafío: Implementación de un Random Forest
Desliza para mostrar el menú
En sklearn, la versión de clasificación de Random Forest se implementa utilizando RandomForestClassifier:
También se calculará la precisión de la validación cruzada utilizando la función cross_val_score():
Al final, se imprimirá la importancia de cada característica. El atributo feature_importances_ devuelve un arreglo de puntuaciones de importancia; estas puntuaciones representan cuánto contribuyó cada característica a reducir la impureza de Gini en todos los nodos de decisión donde se utilizó esa característica. En otras palabras, cuanto más una característica ayuda a dividir los datos de manera útil, mayor es su importancia.
Sin embargo, el atributo solo proporciona las puntuaciones sin los nombres de las características. Para mostrar ambos, se pueden emparejar utilizando la función zip() de Python:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Esto imprime cada nombre de característica junto con su puntuación de importancia, facilitando la comprensión de en qué características se basó más el modelo.
Swipe to start coding
Se proporciona un conjunto de datos del Titanic almacenado como un DataFrame en la variable df.
- Inicializar el modelo de Random Forest, establecer
random_state=42, entrenarlo y guardar el modelo ajustado en la variablerandom_forest. - Calcular las puntuaciones de validación cruzada para el modelo entrenado utilizando
10particiones y almacenar los resultados en la variablecv_scores.
Solución
¡Gracias por tus comentarios!
single