Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Por Que Escalar os Dados? | Pré-Processamento de Dados com Scikit-Learn
Introdução ao ML com Scikit-Learn

bookPor Que Escalar os Dados?

Após tratar valores ausentes e codificar características categóricas, o conjunto de dados está livre de problemas que poderiam causar erros no modelo. No entanto, ainda resta outro desafio: escalas diferentes entre as variáveis.

Esse problema não causará erros ao alimentar o modelo com os dados no estado atual, mas pode prejudicar substancialmente alguns modelos de ML.

Considere um exemplo em que uma variável é 'age', variando de 18 a 50, e a segunda variável é 'income', variando de $25,000 a $500,000. É evidente que uma diferença de dez anos em idade é mais significativa do que uma diferença de dez dólares em renda.

No entanto, alguns modelos, como o k-NN (que será utilizado neste curso), podem tratar essas diferenças como igualmente importantes. Consequentemente, a coluna 'income' terá um impacto muito maior no modelo. Portanto, é fundamental que as variáveis possuam intervalos aproximadamente iguais para que o k-NN funcione de maneira eficaz.

Embora outros modelos possam ser menos afetados por escalas diferentes, o escalonamento dos dados pode aumentar significativamente a velocidade de processamento. Por isso, o escalonamento dos dados é frequentemente incluído como etapa final no pré-processamento.

Note
Nota

Como mencionado acima, a padronização dos dados geralmente é a última etapa do pré-processamento. Isso ocorre porque alterações nas variáveis após a padronização podem fazer com que os dados deixem de estar padronizados.

O próximo capítulo abordará os três transformadores mais utilizados para padronização de dados. São eles: StandardScaler, MinMaxScaler e MaxAbsScaler.

question mark

Por que é importante padronizar as variáveis em modelos de aprendizado de máquina como o k-nearest neighbors (KNN)?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 9

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

What are the main differences between StandardScaler, MinMaxScaler, and MaxAbsScaler?

Why does k-NN require features to be on the same scale?

Can you explain how scaling improves processing speed in machine learning models?

Awesome!

Completion rate improved to 3.13

bookPor Que Escalar os Dados?

Deslize para mostrar o menu

Após tratar valores ausentes e codificar características categóricas, o conjunto de dados está livre de problemas que poderiam causar erros no modelo. No entanto, ainda resta outro desafio: escalas diferentes entre as variáveis.

Esse problema não causará erros ao alimentar o modelo com os dados no estado atual, mas pode prejudicar substancialmente alguns modelos de ML.

Considere um exemplo em que uma variável é 'age', variando de 18 a 50, e a segunda variável é 'income', variando de $25,000 a $500,000. É evidente que uma diferença de dez anos em idade é mais significativa do que uma diferença de dez dólares em renda.

No entanto, alguns modelos, como o k-NN (que será utilizado neste curso), podem tratar essas diferenças como igualmente importantes. Consequentemente, a coluna 'income' terá um impacto muito maior no modelo. Portanto, é fundamental que as variáveis possuam intervalos aproximadamente iguais para que o k-NN funcione de maneira eficaz.

Embora outros modelos possam ser menos afetados por escalas diferentes, o escalonamento dos dados pode aumentar significativamente a velocidade de processamento. Por isso, o escalonamento dos dados é frequentemente incluído como etapa final no pré-processamento.

Note
Nota

Como mencionado acima, a padronização dos dados geralmente é a última etapa do pré-processamento. Isso ocorre porque alterações nas variáveis após a padronização podem fazer com que os dados deixem de estar padronizados.

O próximo capítulo abordará os três transformadores mais utilizados para padronização de dados. São eles: StandardScaler, MinMaxScaler e MaxAbsScaler.

question mark

Por que é importante padronizar as variáveis em modelos de aprendizado de máquina como o k-nearest neighbors (KNN)?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 9
some-alt