Por Que Escalar os Dados?
Após tratar valores ausentes e codificar características categóricas, o conjunto de dados está livre de problemas que poderiam causar erros no modelo. No entanto, ainda resta outro desafio: escalas diferentes entre as variáveis.
Esse problema não causará erros ao alimentar o modelo com os dados no estado atual, mas pode prejudicar substancialmente alguns modelos de ML.
Considere um exemplo em que uma variável é 'age', variando de 18 a 50, e a segunda variável é 'income', variando de $25,000 a $500,000. É evidente que uma diferença de dez anos em idade é mais significativa do que uma diferença de dez dólares em renda.
No entanto, alguns modelos, como o k-NN (que será utilizado neste curso), podem tratar essas diferenças como igualmente importantes. Consequentemente, a coluna 'income' terá um impacto muito maior no modelo. Portanto, é fundamental que as variáveis possuam intervalos aproximadamente iguais para que o k-NN funcione de maneira eficaz.
Embora outros modelos possam ser menos afetados por escalas diferentes, o escalonamento dos dados pode aumentar significativamente a velocidade de processamento. Por isso, o escalonamento dos dados é frequentemente incluído como etapa final no pré-processamento.
Como mencionado acima, a padronização dos dados geralmente é a última etapa do pré-processamento. Isso ocorre porque alterações nas variáveis após a padronização podem fazer com que os dados deixem de estar padronizados.
O próximo capítulo abordará os três transformadores mais utilizados para padronização de dados. São eles: StandardScaler, MinMaxScaler e MaxAbsScaler.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
What are the main differences between StandardScaler, MinMaxScaler, and MaxAbsScaler?
Why does k-NN require features to be on the same scale?
Can you explain how scaling improves processing speed in machine learning models?
Awesome!
Completion rate improved to 3.13
Por Que Escalar os Dados?
Deslize para mostrar o menu
Após tratar valores ausentes e codificar características categóricas, o conjunto de dados está livre de problemas que poderiam causar erros no modelo. No entanto, ainda resta outro desafio: escalas diferentes entre as variáveis.
Esse problema não causará erros ao alimentar o modelo com os dados no estado atual, mas pode prejudicar substancialmente alguns modelos de ML.
Considere um exemplo em que uma variável é 'age', variando de 18 a 50, e a segunda variável é 'income', variando de $25,000 a $500,000. É evidente que uma diferença de dez anos em idade é mais significativa do que uma diferença de dez dólares em renda.
No entanto, alguns modelos, como o k-NN (que será utilizado neste curso), podem tratar essas diferenças como igualmente importantes. Consequentemente, a coluna 'income' terá um impacto muito maior no modelo. Portanto, é fundamental que as variáveis possuam intervalos aproximadamente iguais para que o k-NN funcione de maneira eficaz.
Embora outros modelos possam ser menos afetados por escalas diferentes, o escalonamento dos dados pode aumentar significativamente a velocidade de processamento. Por isso, o escalonamento dos dados é frequentemente incluído como etapa final no pré-processamento.
Como mencionado acima, a padronização dos dados geralmente é a última etapa do pré-processamento. Isso ocorre porque alterações nas variáveis após a padronização podem fazer com que os dados deixem de estar padronizados.
O próximo capítulo abordará os três transformadores mais utilizados para padronização de dados. São eles: StandardScaler, MinMaxScaler e MaxAbsScaler.
Obrigado pelo seu feedback!