Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Escalado de Datos | Procesamiento de Datos Cuantitativos
Procesamiento Previo de Datos
course content

Contenido del Curso

Procesamiento Previo de Datos

Procesamiento Previo de Datos

1. Introducción Breve
2. Procesamiento de Datos Cuantitativos
3. Procesamiento de Datos Categóricos
4. Procesamiento de Datos de Series Temporales
5. Ingeniería de Características
6. Avanzando a Tareas

book
Escalado de Datos

El escalado de datos es una técnica utilizada para transformar los datos a una escala común, lo que facilita su comparación y análisis. Es un paso importante en el preprocesamiento de datos que ayuda a mejorar el rendimiento de los modelos de aprendizaje automático.

Los datos en el mundo real pueden estar en unidades y rangos diferentes, lo que dificulta su comparación y análisis. Escalar los datos ayuda a poner todas las características de los datos en una escala común, lo que garantiza que los modelos de aprendizaje automático den la misma importancia a cada característica.

Supongamos que tenemos un conjunto de datos de información de clientes de un banco, en el que queremos predecir si un cliente incumplirá o no el pago de su préstamo. El conjunto de datos contiene: edad, ingresos, puntuación crediticia, importe del préstamo y si el cliente ha incumplido o no (1 para sí, 0 para no).

Supongamos que la columna de edad oscila entre 20 y 70 años, la columna de ingresos entre 20.000 y 200.000 y la columna de puntuación crediticia entre 400 y 800. Sin embargo, la columna de importe del préstamo oscila entre 20.000 y 200.000 y la columna de puntuación crediticia entre 400 y 800. Sin embargo, la columna del importe del préstamo oscila entre 10.000 y 500.000, que es mucho mayor que las otras columnas.

Si utilizáramos estos datos para entrenar un modelo de aprendizaje automático sin escalar las características, el importe del préstamo tendría una influencia mucho mayor en la predicción en comparación con las otras características. Esto se debe a que el rango del importe del préstamo es mucho mayor que el rango de las otras características, y el modelo asignaría más peso al importe del préstamo a la hora de hacer predicciones.

Como resultado, el modelo no sería todo lo preciso que podría ser porque no tiene en cuenta la importancia relativa de cada característica. Para evitarlo, debemos escalar los datos de modo que todas las características tengan un rango y una influencia similares en la predicción.

Existen varias técnicas para escalar los datos, pero para más detalle, sólo examinaremos la normalización mín-máx.

La normalización min-max escala los datos a un rango fijo entre 0 y 1. La fórmula para la normalización min-max es:

donde X es el valor original, X_min es el valor mínimo de los datos y X_max es el valor máximo de los datos.

También existen métodos como la normalización Z-Score y la normalización de escala decimal.

He aquí un ejemplo de cómo normalizar los datos utilizando sklearn:

1234567891011
from sklearn.preprocessing import MinMaxScaler import numpy as np # Create simple dataset dataset = np.array([[10, 2, 3], [5, 7, 9], [11, 12, 8]]) # Create a scaler model scaler = MinMaxScaler() # Fit and transform dataset scaled_data = scaler.fit_transform(dataset)
copy

Primero importamos la clase MinMaxScaler. A continuación, creamos un objeto MinMaxScaler llamado scaler. Este escalador transformará nuestros datos en una escala común utilizando los valores mínimo y máximo de los datos.

A continuación, ajustamos y transformamos nuestros datos de muestra utilizando el objeto escalador. El resultado scaled_data es un array numpy que contiene nuestros datos escalados.

El escalado de datos es un paso importante en el preprocesado de datos que ayuda a transformar los datos a una escala común, facilitando su comparación y análisis. La elección de la técnica de escalado adecuada depende de la naturaleza de los datos y del problema específico que se quiera resolver.

El escalado de datos suele realizarse en el eje de características. Esto se debe a que el escalado se aplica por separado a cada característica (o columna) para llevarlas todas a una escala similar. El escalado en el eje de ejemplos (o filas) escalaría las observaciones individuales (o filas) y podría distorsionar la relación entre las características.

El último punto que veremos es qué datos necesitan ser escalados. ¿Los de entrenamiento, los de prueba o todo el conjunto de datos? El conjunto de datos de prueba debe escalarse utilizando los mismos parámetros utilizados para escalar los datos de entrenamiento, de modo que los datos de prueba sean coherentes con los datos de entrenamiento. Es importante escalar los datos de prueba por separado de los datos de entrenamiento para evitar fugas de datos del conjunto de prueba al conjunto de entrenamiento.

Tarea
test

Swipe to show code editor

Escala los datos en el conjunto de datos 'pr_cars.csv'.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 1
toggle bottom row

book
Escalado de Datos

El escalado de datos es una técnica utilizada para transformar los datos a una escala común, lo que facilita su comparación y análisis. Es un paso importante en el preprocesamiento de datos que ayuda a mejorar el rendimiento de los modelos de aprendizaje automático.

Los datos en el mundo real pueden estar en unidades y rangos diferentes, lo que dificulta su comparación y análisis. Escalar los datos ayuda a poner todas las características de los datos en una escala común, lo que garantiza que los modelos de aprendizaje automático den la misma importancia a cada característica.

Supongamos que tenemos un conjunto de datos de información de clientes de un banco, en el que queremos predecir si un cliente incumplirá o no el pago de su préstamo. El conjunto de datos contiene: edad, ingresos, puntuación crediticia, importe del préstamo y si el cliente ha incumplido o no (1 para sí, 0 para no).

Supongamos que la columna de edad oscila entre 20 y 70 años, la columna de ingresos entre 20.000 y 200.000 y la columna de puntuación crediticia entre 400 y 800. Sin embargo, la columna de importe del préstamo oscila entre 20.000 y 200.000 y la columna de puntuación crediticia entre 400 y 800. Sin embargo, la columna del importe del préstamo oscila entre 10.000 y 500.000, que es mucho mayor que las otras columnas.

Si utilizáramos estos datos para entrenar un modelo de aprendizaje automático sin escalar las características, el importe del préstamo tendría una influencia mucho mayor en la predicción en comparación con las otras características. Esto se debe a que el rango del importe del préstamo es mucho mayor que el rango de las otras características, y el modelo asignaría más peso al importe del préstamo a la hora de hacer predicciones.

Como resultado, el modelo no sería todo lo preciso que podría ser porque no tiene en cuenta la importancia relativa de cada característica. Para evitarlo, debemos escalar los datos de modo que todas las características tengan un rango y una influencia similares en la predicción.

Existen varias técnicas para escalar los datos, pero para más detalle, sólo examinaremos la normalización mín-máx.

La normalización min-max escala los datos a un rango fijo entre 0 y 1. La fórmula para la normalización min-max es:

donde X es el valor original, X_min es el valor mínimo de los datos y X_max es el valor máximo de los datos.

También existen métodos como la normalización Z-Score y la normalización de escala decimal.

He aquí un ejemplo de cómo normalizar los datos utilizando sklearn:

1234567891011
from sklearn.preprocessing import MinMaxScaler import numpy as np # Create simple dataset dataset = np.array([[10, 2, 3], [5, 7, 9], [11, 12, 8]]) # Create a scaler model scaler = MinMaxScaler() # Fit and transform dataset scaled_data = scaler.fit_transform(dataset)
copy

Primero importamos la clase MinMaxScaler. A continuación, creamos un objeto MinMaxScaler llamado scaler. Este escalador transformará nuestros datos en una escala común utilizando los valores mínimo y máximo de los datos.

A continuación, ajustamos y transformamos nuestros datos de muestra utilizando el objeto escalador. El resultado scaled_data es un array numpy que contiene nuestros datos escalados.

El escalado de datos es un paso importante en el preprocesado de datos que ayuda a transformar los datos a una escala común, facilitando su comparación y análisis. La elección de la técnica de escalado adecuada depende de la naturaleza de los datos y del problema específico que se quiera resolver.

El escalado de datos suele realizarse en el eje de características. Esto se debe a que el escalado se aplica por separado a cada característica (o columna) para llevarlas todas a una escala similar. El escalado en el eje de ejemplos (o filas) escalaría las observaciones individuales (o filas) y podría distorsionar la relación entre las características.

El último punto que veremos es qué datos necesitan ser escalados. ¿Los de entrenamiento, los de prueba o todo el conjunto de datos? El conjunto de datos de prueba debe escalarse utilizando los mismos parámetros utilizados para escalar los datos de entrenamiento, de modo que los datos de prueba sean coherentes con los datos de entrenamiento. Es importante escalar los datos de prueba por separado de los datos de entrenamiento para evitar fugas de datos del conjunto de prueba al conjunto de entrenamiento.

Tarea
test

Swipe to show code editor

Escala los datos en el conjunto de datos 'pr_cars.csv'.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 1
Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
We're sorry to hear that something went wrong. What happened?
some-alt