Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Flujo de Trabajo de Aprendizaje Automático | Conceptos de Machine Learning
Introducción al ML con Scikit-learn

bookFlujo de Trabajo de Aprendizaje Automático

Analicemos el flujo de trabajo que se sigue para construir un proyecto exitoso de aprendizaje automático.

Paso 1. Obtener los datos

Comenzar definiendo el problema e identificando qué datos son necesarios. Seleccionar una métrica para evaluar el rendimiento y determinar qué resultado se consideraría satisfactorio.

Luego, recopilar los datos, a menudo de múltiples fuentes como bases de datos, y llevarlos a un formato adecuado para su procesamiento en Python.

Si los datos ya están disponibles en un archivo .csv, el preprocesamiento puede comenzar de inmediato y este paso puede omitirse.

Ejemplo

Un hospital proporciona registros históricos de pacientes de su base de datos junto con información demográfica de una base de datos nacional de salud, compilados en un archivo CSV. La tarea es predecir las readmisiones de pacientes, definiendo como métrica objetivo un nivel de precisión superior al 80% para considerar el rendimiento satisfactorio.

Paso 2. Preprocesar los datos

Este paso consiste en:

  • Limpieza de datos: tratamiento de valores faltantes, datos no numéricos, etc.;
  • Análisis exploratorio de datos (EDA): análisis y visualización del conjunto de datos para encontrar patrones y relaciones entre características y, en general, obtener información sobre cómo se puede mejorar el conjunto de entrenamiento;
  • Ingeniería de características: selección, transformación o creación de nuevas características basadas en los hallazgos del EDA para mejorar el rendimiento del modelo.

Ejemplo

En el conjunto de datos del hospital, los valores faltantes para métricas clave como la presión arterial pueden ser completados, y las variables categóricas como la raza pueden convertirse en códigos numéricos para su análisis.

Paso 3. Modelado

Este paso incluye:

  • Selección del modelo: elegir uno o varios modelos que sean más adecuados para el problema, según las características del algoritmo y los resultados experimentales;
  • Ajuste de hiperparámetros: modificar los hiperparámetros para lograr el mejor rendimiento posible.
Note
Estudia más

Piensa en los hiperparámetros como los botones y perillas de una máquina que puedes ajustar para controlar cómo funciona. En aprendizaje automático, estos "botones y perillas" son configuraciones (valores) que un científico de datos ajusta antes de comenzar a entrenar su modelo. Por ejemplo, los hiperparámetros pueden incluir cuánto tiempo entrenar el modelo o cuán detallado debe ser el entrenamiento.

  • Evaluación del modelo: medición del rendimiento en datos no vistos.

Ejemplo

Se selecciona un modelo de clasificación para predecir readmisiones de pacientes, lo cual es adecuado para resultados binarios (readmitido o no). Sus hiperparámetros se ajustan para optimizar el rendimiento. Finalmente, la evaluación se realiza en un conjunto de validación o prueba separado para comprobar qué tan bien generaliza el modelo más allá de los datos de entrenamiento.

Paso 4. Despliegue

Después de obtener un modelo ajustado con un rendimiento satisfactorio, el siguiente paso es el despliegue. El modelo desplegado debe ser monitorizado de forma continua, mejorado cuando sea necesario y actualizado con nuevos datos a medida que estén disponibles. Este proceso a menudo conduce de nuevo al Paso 1.

Ejemplo

Una vez que el modelo predice las readmisiones con precisión, se integra en el sistema de base de datos del hospital para alertar al personal sobre pacientes de alto riesgo al momento de la admisión, mejorando la atención al paciente.

Note
Nota

Algunos de los términos mencionados aquí pueden parecer desconocidos, pero los abordaremos en mayor detalle más adelante en este curso.

El preprocesamiento de datos y la modelización pueden realizarse con la biblioteca scikit-learn (importada como sklearn). Los siguientes capítulos se centran en los pasos básicos de preprocesamiento y la construcción de pipelines. Posteriormente, se introduce la etapa de modelización utilizando el algoritmo de k vecinos más cercanos (KNeighborsClassifier en sklearn) como ejemplo. Esto abarca la construcción del modelo, el ajuste de hiperparámetros y la evaluación del rendimiento.

1. ¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?

2. ¿Cuál de las siguientes opciones describe mejor la importancia del paso "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?

question mark

¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?

Select the correct answer

question mark

¿Cuál de las siguientes opciones describe mejor la importancia del paso "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 5

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 3.13

bookFlujo de Trabajo de Aprendizaje Automático

Desliza para mostrar el menú

Analicemos el flujo de trabajo que se sigue para construir un proyecto exitoso de aprendizaje automático.

Paso 1. Obtener los datos

Comenzar definiendo el problema e identificando qué datos son necesarios. Seleccionar una métrica para evaluar el rendimiento y determinar qué resultado se consideraría satisfactorio.

Luego, recopilar los datos, a menudo de múltiples fuentes como bases de datos, y llevarlos a un formato adecuado para su procesamiento en Python.

Si los datos ya están disponibles en un archivo .csv, el preprocesamiento puede comenzar de inmediato y este paso puede omitirse.

Ejemplo

Un hospital proporciona registros históricos de pacientes de su base de datos junto con información demográfica de una base de datos nacional de salud, compilados en un archivo CSV. La tarea es predecir las readmisiones de pacientes, definiendo como métrica objetivo un nivel de precisión superior al 80% para considerar el rendimiento satisfactorio.

Paso 2. Preprocesar los datos

Este paso consiste en:

  • Limpieza de datos: tratamiento de valores faltantes, datos no numéricos, etc.;
  • Análisis exploratorio de datos (EDA): análisis y visualización del conjunto de datos para encontrar patrones y relaciones entre características y, en general, obtener información sobre cómo se puede mejorar el conjunto de entrenamiento;
  • Ingeniería de características: selección, transformación o creación de nuevas características basadas en los hallazgos del EDA para mejorar el rendimiento del modelo.

Ejemplo

En el conjunto de datos del hospital, los valores faltantes para métricas clave como la presión arterial pueden ser completados, y las variables categóricas como la raza pueden convertirse en códigos numéricos para su análisis.

Paso 3. Modelado

Este paso incluye:

  • Selección del modelo: elegir uno o varios modelos que sean más adecuados para el problema, según las características del algoritmo y los resultados experimentales;
  • Ajuste de hiperparámetros: modificar los hiperparámetros para lograr el mejor rendimiento posible.
Note
Estudia más

Piensa en los hiperparámetros como los botones y perillas de una máquina que puedes ajustar para controlar cómo funciona. En aprendizaje automático, estos "botones y perillas" son configuraciones (valores) que un científico de datos ajusta antes de comenzar a entrenar su modelo. Por ejemplo, los hiperparámetros pueden incluir cuánto tiempo entrenar el modelo o cuán detallado debe ser el entrenamiento.

  • Evaluación del modelo: medición del rendimiento en datos no vistos.

Ejemplo

Se selecciona un modelo de clasificación para predecir readmisiones de pacientes, lo cual es adecuado para resultados binarios (readmitido o no). Sus hiperparámetros se ajustan para optimizar el rendimiento. Finalmente, la evaluación se realiza en un conjunto de validación o prueba separado para comprobar qué tan bien generaliza el modelo más allá de los datos de entrenamiento.

Paso 4. Despliegue

Después de obtener un modelo ajustado con un rendimiento satisfactorio, el siguiente paso es el despliegue. El modelo desplegado debe ser monitorizado de forma continua, mejorado cuando sea necesario y actualizado con nuevos datos a medida que estén disponibles. Este proceso a menudo conduce de nuevo al Paso 1.

Ejemplo

Una vez que el modelo predice las readmisiones con precisión, se integra en el sistema de base de datos del hospital para alertar al personal sobre pacientes de alto riesgo al momento de la admisión, mejorando la atención al paciente.

Note
Nota

Algunos de los términos mencionados aquí pueden parecer desconocidos, pero los abordaremos en mayor detalle más adelante en este curso.

El preprocesamiento de datos y la modelización pueden realizarse con la biblioteca scikit-learn (importada como sklearn). Los siguientes capítulos se centran en los pasos básicos de preprocesamiento y la construcción de pipelines. Posteriormente, se introduce la etapa de modelización utilizando el algoritmo de k vecinos más cercanos (KNeighborsClassifier en sklearn) como ejemplo. Esto abarca la construcción del modelo, el ajuste de hiperparámetros y la evaluación del rendimiento.

1. ¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?

2. ¿Cuál de las siguientes opciones describe mejor la importancia del paso "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?

question mark

¿Cuál es el propósito principal del paso "Obtener los datos" en un proyecto de aprendizaje automático?

Select the correct answer

question mark

¿Cuál de las siguientes opciones describe mejor la importancia del paso "Preprocesamiento de datos" en el flujo de trabajo de un proyecto de aprendizaje automático?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 5
some-alt