Aprende Escalado de Datos | Procesamiento de Datos Cuantitativos

Sección 2. Capítulo 1

single

Desliza para mostrar el menú

El escalado de datos es una técnica utilizada para transformar los datos a una escala común, lo que facilita su comparación y análisis. Es un paso importante en el preprocesamiento de datos que ayuda a mejorar el rendimiento de los modelos de aprendizaje automático.

Los datos en el mundo real pueden estar en unidades y rangos diferentes, lo que dificulta su comparación y análisis. Escalar los datos ayuda a poner todas las características de los datos en una escala común, lo que garantiza que los modelos de aprendizaje automático den la misma importancia a cada característica.

Supongamos que tenemos un conjunto de datos de información de clientes de un banco, en el que queremos predecir si un cliente incumplirá o no el pago de su préstamo. El conjunto de datos contiene: edad, ingresos, puntuación crediticia, importe del préstamo y si el cliente ha incumplido o no (1 para sí, 0 para no).

Supongamos que la columna de edad oscila entre 20 y 70 años, la columna de ingresos entre 20.000 y 200.000 y la columna de puntuación crediticia entre 400 y 800. Sin embargo, la columna de importe del préstamo oscila entre 20.000 y 200.000 y la columna de puntuación crediticia entre 400 y 800. Sin embargo, la columna del importe del préstamo oscila entre 10.000 y 500.000, que es mucho mayor que las otras columnas.

Si utilizáramos estos datos para entrenar un modelo de aprendizaje automático sin escalar las características, el importe del préstamo tendría una influencia mucho mayor en la predicción en comparación con las otras características. Esto se debe a que el rango del importe del préstamo es mucho mayor que el rango de las otras características, y el modelo asignaría más peso al importe del préstamo a la hora de hacer predicciones.

Como resultado, el modelo no sería todo lo preciso que podría ser porque no tiene en cuenta la importancia relativa de cada característica. Para evitarlo, debemos escalar los datos de modo que todas las características tengan un rango y una influencia similares en la predicción.

Existen varias técnicas para escalar los datos, pero para más detalle, sólo examinaremos la normalización mín-máx.

La normalización min-max escala los datos a un rango fijo entre 0 y 1. La fórmula para la normalización min-max es:

donde X es el valor original, X_min es el valor mínimo de los datos y X_max es el valor máximo de los datos.

También existen métodos como la normalización Z-Score y la normalización de escala decimal.

He aquí un ejemplo de cómo normalizar los datos utilizando sklearn:


              1234567891011
            
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# Create simple dataset
dataset = np.array([[10, 2, 3], [5, 7, 9], [11, 12, 8]])

# Create a scaler model
scaler = MinMaxScaler()

# Fit and transform dataset
scaled_data = scaler.fit_transform(dataset)

Primero importamos la clase MinMaxScaler. A continuación, creamos un objeto MinMaxScaler llamado scaler. Este escalador transformará nuestros datos en una escala común utilizando los valores mínimo y máximo de los datos.

A continuación, ajustamos y transformamos nuestros datos de muestra utilizando el objeto escalador. El resultado scaled_data es un array numpy que contiene nuestros datos escalados.

El escalado de datos es un paso importante en el preprocesado de datos que ayuda a transformar los datos a una escala común, facilitando su comparación y análisis. La elección de la técnica de escalado adecuada depende de la naturaleza de los datos y del problema específico que se quiera resolver.

El escalado de datos suele realizarse en el eje de características. Esto se debe a que el escalado se aplica por separado a cada característica (o columna) para llevarlas todas a una escala similar. El escalado en el eje de ejemplos (o filas) escalaría las observaciones individuales (o filas) y podría distorsionar la relación entre las características.

El último punto que veremos es qué datos necesitan ser escalados. ¿Los de entrenamiento, los de prueba o todo el conjunto de datos? El conjunto de datos de prueba debe escalarse utilizando los mismos parámetros utilizados para escalar los datos de entrenamiento, de modo que los datos de prueba sean coherentes con los datos de entrenamiento. Es importante escalar los datos de prueba por separado de los datos de entrenamiento para evitar fugas de datos del conjunto de prueba al conjunto de entrenamiento.

Tarea

Swipe to start coding

Escala los datos en el conjunto de datos 'pr_cars.csv'.

Solución

Cambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 2. Capítulo 1

single

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla