¿Por Qué Escalar los Datos?
Después de tratar los valores faltantes y codificar las características categóricas, el conjunto de datos está libre de problemas que puedan causar errores en el modelo. Sin embargo, aún queda otro desafío: diferentes escalas de características.
Este problema no generará errores si se introduce el conjunto de datos en su estado actual al modelo, pero puede empeorar sustancialmente algunos modelos de ML.
Considere un ejemplo donde una característica es 'age'
, con un rango de 18 a 50, y la segunda característica es 'income'
, con un rango de $25,000 a $500,000. Es evidente que una diferencia de diez años en la edad es más significativa que una diferencia de diez dólares en los ingresos.
Sin embargo, algunos modelos, como k-NN (que utilizaremos en este curso), pueden tratar estas diferencias como igual de importantes. En consecuencia, la columna 'income'
tendrá un impacto mucho mayor en el modelo. Por lo tanto, es fundamental que las características tengan aproximadamente el mismo rango para que k-NN funcione de manera efectiva.
Aunque otros modelos pueden verse menos afectados por las diferentes escalas, escalar los datos puede mejorar significativamente la velocidad de procesamiento. Por ello, el escalado de datos suele incluirse como un paso final en el preprocesamiento.
Como se mencionó anteriormente, la escala de datos suele ser el último paso de la etapa de preprocesamiento. Esto se debe a que los cambios en las características realizados después de la escala pueden hacer que los datos pierdan la escala.
El próximo capítulo abordará los tres transformadores más utilizados para la escala de datos. Estos son StandardScaler
, MinMaxScaler
y MaxAbsScaler
.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
What are the main differences between StandardScaler, MinMaxScaler, and MaxAbsScaler?
Why does k-NN require features to be on the same scale?
Can you explain how scaling improves processing speed in machine learning models?
Awesome!
Completion rate improved to 3.13
¿Por Qué Escalar los Datos?
Desliza para mostrar el menú
Después de tratar los valores faltantes y codificar las características categóricas, el conjunto de datos está libre de problemas que puedan causar errores en el modelo. Sin embargo, aún queda otro desafío: diferentes escalas de características.
Este problema no generará errores si se introduce el conjunto de datos en su estado actual al modelo, pero puede empeorar sustancialmente algunos modelos de ML.
Considere un ejemplo donde una característica es 'age'
, con un rango de 18 a 50, y la segunda característica es 'income'
, con un rango de $25,000 a $500,000. Es evidente que una diferencia de diez años en la edad es más significativa que una diferencia de diez dólares en los ingresos.
Sin embargo, algunos modelos, como k-NN (que utilizaremos en este curso), pueden tratar estas diferencias como igual de importantes. En consecuencia, la columna 'income'
tendrá un impacto mucho mayor en el modelo. Por lo tanto, es fundamental que las características tengan aproximadamente el mismo rango para que k-NN funcione de manera efectiva.
Aunque otros modelos pueden verse menos afectados por las diferentes escalas, escalar los datos puede mejorar significativamente la velocidad de procesamiento. Por ello, el escalado de datos suele incluirse como un paso final en el preprocesamiento.
Como se mencionó anteriormente, la escala de datos suele ser el último paso de la etapa de preprocesamiento. Esto se debe a que los cambios en las características realizados después de la escala pueden hacer que los datos pierdan la escala.
El próximo capítulo abordará los tres transformadores más utilizados para la escala de datos. Estos son StandardScaler
, MinMaxScaler
y MaxAbsScaler
.
¡Gracias por tus comentarios!