Flujo de Trabajo de Aprendizaje Automático
Analicemos el flujo de trabajo que se sigue para construir un proyecto exitoso de aprendizaje automático.
Paso 1. Obtener los datos
Comenzar definiendo el problema e identificando qué datos son necesarios. Seleccionar una métrica para evaluar el rendimiento y determinar qué resultado se consideraría satisfactorio.
Luego, recopilar los datos, a menudo de múltiples fuentes como bases de datos, y llevarlos a un formato adecuado para su procesamiento en Python.
Si los datos ya están disponibles en un archivo .csv
, el preprocesamiento puede comenzar de inmediato y este paso puede omitirse.
Ejemplo
Un hospital proporciona registros históricos de pacientes de su base de datos junto con información demográfica de una base de datos nacional de salud, compilados en un archivo CSV. La tarea es predecir las readmisiones de pacientes, definiendo como métrica objetivo un nivel de precisión superior al 80% para considerar el rendimiento satisfactorio.
Paso 2. Preprocesar los datos
Este paso consiste en:
- Limpieza de datos: tratamiento de valores faltantes, datos no numéricos, etc.;
- Análisis exploratorio de datos (EDA): análisis y visualización del conjunto de datos para encontrar patrones y relaciones entre características y, en general, obtener información sobre cómo se puede mejorar el conjunto de entrenamiento;
- Ingeniería de características: selección, transformación o creación de nuevas características basadas en los hallazgos del EDA para mejorar el rendimiento del modelo.
Ejemplo
En el conjunto de datos del hospital, los valores faltantes para métricas clave como la presión arterial pueden ser completados, y las variables categóricas como la raza pueden convertirse en códigos numéricos para su análisis.
Paso 3. Modelado
Este paso incluye:
- Selección del modelo: elegir uno o varios modelos que sean más adecuados para el problema, según las características del algoritmo y los resultados experimentales;
- Ajuste de hiperparámetros: modificar los hiperparámetros para lograr el mejor rendimiento posible.
Piensa en los hiperparámetros como los botones y perillas de una máquina que puedes ajustar para controlar cómo funciona. En aprendizaje automático, estos "botones y perillas" son configuraciones (valores) que un científico de datos ajusta antes de comenzar a entrenar su modelo. Por ejemplo, los hiperparámetros pueden incluir cuánto tiempo entrenar el modelo o cuán detallado debe ser el entrenamiento.
- Evaluación del modelo: medición del rendimiento en datos no vistos.
Ejemplo
Se selecciona un modelo de clasificación para predecir readmisiones de pacientes, lo cual es adecuado para resultados binarios (readmitido o no). Sus hiperparámetros se ajustan para optimizar el rendimiento. Finalmente, la evaluación se realiza en un conjunto de validación o prueba separado para comprobar qué tan bien generaliza el modelo más allá de los datos de entrenamiento.
Paso 4. Despliegue
Después de obtener un modelo ajustado con un rendimiento satisfactorio, el siguiente paso es el despliegue. El modelo desplegado debe ser monitorizado de forma continua, mejorado cuando sea necesario y actualizado con nuevos datos a medida que estén disponibles. Este proceso a menudo conduce de nuevo al Paso 1.
Ejemplo
Una vez que el modelo predice las readmisiones con precisión, se integra en el sistema de base de datos del hospital para alertar al personal sobre pacientes de alto riesgo al momento de la admisión, mejorando la atención al paciente.
Algunos de los términos mencionados aquí pueden parecer desconocidos, pero los abordaremos en mayor detalle más adelante en este curso.
El preprocesamiento de datos y la modelización pueden realizarse con la biblioteca scikit-learn
(importada como sklearn
). Los siguientes capítulos se centran en los pasos básicos de preprocesamiento y la construcción de pipelines. Posteriormente, se introduce la etapa de modelización utilizando el algoritmo de k vecinos más cercanos (KNeighborsClassifier
en sklearn
) como ejemplo. Esto abarca la construcción del modelo, el ajuste de hiperparámetros y la evaluación del rendimiento.
1. ¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?
2. ¿Cuál de las siguientes opciones describe mejor la importancia del paso "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 3.13
Flujo de Trabajo de Aprendizaje Automático
Desliza para mostrar el menú
Analicemos el flujo de trabajo que se sigue para construir un proyecto exitoso de aprendizaje automático.
Paso 1. Obtener los datos
Comenzar definiendo el problema e identificando qué datos son necesarios. Seleccionar una métrica para evaluar el rendimiento y determinar qué resultado se consideraría satisfactorio.
Luego, recopilar los datos, a menudo de múltiples fuentes como bases de datos, y llevarlos a un formato adecuado para su procesamiento en Python.
Si los datos ya están disponibles en un archivo .csv
, el preprocesamiento puede comenzar de inmediato y este paso puede omitirse.
Ejemplo
Un hospital proporciona registros históricos de pacientes de su base de datos junto con información demográfica de una base de datos nacional de salud, compilados en un archivo CSV. La tarea es predecir las readmisiones de pacientes, definiendo como métrica objetivo un nivel de precisión superior al 80% para considerar el rendimiento satisfactorio.
Paso 2. Preprocesar los datos
Este paso consiste en:
- Limpieza de datos: tratamiento de valores faltantes, datos no numéricos, etc.;
- Análisis exploratorio de datos (EDA): análisis y visualización del conjunto de datos para encontrar patrones y relaciones entre características y, en general, obtener información sobre cómo se puede mejorar el conjunto de entrenamiento;
- Ingeniería de características: selección, transformación o creación de nuevas características basadas en los hallazgos del EDA para mejorar el rendimiento del modelo.
Ejemplo
En el conjunto de datos del hospital, los valores faltantes para métricas clave como la presión arterial pueden ser completados, y las variables categóricas como la raza pueden convertirse en códigos numéricos para su análisis.
Paso 3. Modelado
Este paso incluye:
- Selección del modelo: elegir uno o varios modelos que sean más adecuados para el problema, según las características del algoritmo y los resultados experimentales;
- Ajuste de hiperparámetros: modificar los hiperparámetros para lograr el mejor rendimiento posible.
Piensa en los hiperparámetros como los botones y perillas de una máquina que puedes ajustar para controlar cómo funciona. En aprendizaje automático, estos "botones y perillas" son configuraciones (valores) que un científico de datos ajusta antes de comenzar a entrenar su modelo. Por ejemplo, los hiperparámetros pueden incluir cuánto tiempo entrenar el modelo o cuán detallado debe ser el entrenamiento.
- Evaluación del modelo: medición del rendimiento en datos no vistos.
Ejemplo
Se selecciona un modelo de clasificación para predecir readmisiones de pacientes, lo cual es adecuado para resultados binarios (readmitido o no). Sus hiperparámetros se ajustan para optimizar el rendimiento. Finalmente, la evaluación se realiza en un conjunto de validación o prueba separado para comprobar qué tan bien generaliza el modelo más allá de los datos de entrenamiento.
Paso 4. Despliegue
Después de obtener un modelo ajustado con un rendimiento satisfactorio, el siguiente paso es el despliegue. El modelo desplegado debe ser monitorizado de forma continua, mejorado cuando sea necesario y actualizado con nuevos datos a medida que estén disponibles. Este proceso a menudo conduce de nuevo al Paso 1.
Ejemplo
Una vez que el modelo predice las readmisiones con precisión, se integra en el sistema de base de datos del hospital para alertar al personal sobre pacientes de alto riesgo al momento de la admisión, mejorando la atención al paciente.
Algunos de los términos mencionados aquí pueden parecer desconocidos, pero los abordaremos en mayor detalle más adelante en este curso.
El preprocesamiento de datos y la modelización pueden realizarse con la biblioteca scikit-learn
(importada como sklearn
). Los siguientes capítulos se centran en los pasos básicos de preprocesamiento y la construcción de pipelines. Posteriormente, se introduce la etapa de modelización utilizando el algoritmo de k vecinos más cercanos (KNeighborsClassifier
en sklearn
) como ejemplo. Esto abarca la construcción del modelo, el ajuste de hiperparámetros y la evaluación del rendimiento.
1. ¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?
2. ¿Cuál de las siguientes opciones describe mejor la importancia del paso "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?
¡Gracias por tus comentarios!