Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Por Que Escalar os Dados? | Pré-Processamento de Dados com Scikit-Learn
Introdução ao ML com Scikit-Learn

bookPor Que Escalar os Dados?

Após tratar valores ausentes e codificar características categóricas, o conjunto de dados está livre de problemas que poderiam causar erros no modelo. No entanto, ainda resta outro desafio: escalas diferentes entre as variáveis.

Esse problema não causará erros ao alimentar o modelo com os dados no estado atual, mas pode prejudicar substancialmente alguns modelos de ML.

Considere um exemplo em que uma variável é 'age', variando de 18 a 50, e a segunda variável é 'income', variando de $25,000 a $500,000. Fica claro que uma diferença de dez anos na idade é mais significativa do que uma diferença de dez dólares na renda.

No entanto, alguns modelos, como o k-NN (que será utilizado neste curso), podem tratar essas diferenças como igualmente importantes. Consequentemente, a coluna 'income' terá um impacto muito maior no modelo. Portanto, é fundamental que as variáveis possuam faixas de valores aproximadamente iguais para que o k-NN funcione de maneira eficaz.

Embora outros modelos possam ser menos afetados por escalas diferentes, o escalonamento dos dados pode aumentar significativamente a velocidade de processamento. Por isso, o escalonamento dos dados é frequentemente incluído como etapa final no pré-processamento.

Note
Nota

Como mencionado acima, a padronização dos dados geralmente é a última etapa do pré-processamento. Isso ocorre porque alterações nas variáveis após a padronização podem fazer com que os dados deixem de estar padronizados.

O próximo capítulo abordará os três transformadores mais utilizados para padronização de dados: StandardScaler, MinMaxScaler e MaxAbsScaler.

question mark

Por que é importante padronizar as variáveis em modelos de aprendizado de máquina como o k-nearest neighbors (KNN)?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 9

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 3.13

bookPor Que Escalar os Dados?

Deslize para mostrar o menu

Após tratar valores ausentes e codificar características categóricas, o conjunto de dados está livre de problemas que poderiam causar erros no modelo. No entanto, ainda resta outro desafio: escalas diferentes entre as variáveis.

Esse problema não causará erros ao alimentar o modelo com os dados no estado atual, mas pode prejudicar substancialmente alguns modelos de ML.

Considere um exemplo em que uma variável é 'age', variando de 18 a 50, e a segunda variável é 'income', variando de $25,000 a $500,000. Fica claro que uma diferença de dez anos na idade é mais significativa do que uma diferença de dez dólares na renda.

No entanto, alguns modelos, como o k-NN (que será utilizado neste curso), podem tratar essas diferenças como igualmente importantes. Consequentemente, a coluna 'income' terá um impacto muito maior no modelo. Portanto, é fundamental que as variáveis possuam faixas de valores aproximadamente iguais para que o k-NN funcione de maneira eficaz.

Embora outros modelos possam ser menos afetados por escalas diferentes, o escalonamento dos dados pode aumentar significativamente a velocidade de processamento. Por isso, o escalonamento dos dados é frequentemente incluído como etapa final no pré-processamento.

Note
Nota

Como mencionado acima, a padronização dos dados geralmente é a última etapa do pré-processamento. Isso ocorre porque alterações nas variáveis após a padronização podem fazer com que os dados deixem de estar padronizados.

O próximo capítulo abordará os três transformadores mais utilizados para padronização de dados: StandardScaler, MinMaxScaler e MaxAbsScaler.

question mark

Por que é importante padronizar as variáveis em modelos de aprendizado de máquina como o k-nearest neighbors (KNN)?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 9
some-alt