Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Escalonamento de Dados | Processamento de Dados Quantitativos
Pré-processamento de Dados
course content

Conteúdo do Curso

Pré-processamento de Dados

Pré-processamento de Dados

1. Breve Introdução
2. Processamento de Dados Quantitativos
3. Processamento de Dados Categóricos
4. Processamento de Dados de Séries Temporais
5. Engenharia de Recursos
6. Passando para as Tarefas

book
Escalonamento de Dados

Escalonamento de dados é uma técnica utilizada para transformar dados em uma escala comum, facilitando a comparação e análise. É uma etapa importante no pré-processamento de dados que ajuda a melhorar o desempenho dos modelos de aprendizado de máquina.

Dados em cenários do mundo real podem estar em diferentes unidades e intervalos, dificultando a comparação e análise. Escalonar os dados ajuda a colocar todas as características dos dados em uma escala comum, o que garante que cada característica seja dada a mesma importância pelos modelos de aprendizado de máquina.

Suponha que temos um conjunto de dados com informações de clientes de um banco, onde queremos prever se um cliente vai ou não dar calote no seu empréstimo. O conjunto de dados contém: idade, renda, pontuação de crédito, valor do empréstimo e se o cliente deu calote (1 para sim, 0 para não).

Digamos que a coluna de idade varia de 20 a 70, a coluna de renda varia de 20.000 a 200.000 e a coluna de pontuação de crédito varia de 400 a 800. No entanto, a coluna de valor do empréstimo varia de 10.000 a 500.000, o que é muito maior que as outras colunas.

Se fôssemos usar esses dados para treinar um modelo de aprendizado de máquina sem escalar as características, o valor do empréstimo teria uma influência muito maior na previsão em comparação com as outras características. Isso porque o intervalo do valor do empréstimo é muito maior que o intervalo das outras características, e o modelo atribuiria mais peso ao valor do empréstimo ao fazer previsões.

Como resultado, o modelo não seria tão preciso quanto poderia ser, porque não considera a importância relativa de cada característica. Para evitar isso, precisamos usar o escalonamento de dados para que as características tenham um intervalo semelhante e influência na previsão.

Existem várias técnicas para escalonar dados, mas em mais detalhes, vamos olhar apenas para a normalização min-max.

A normalização min-max escala os dados para um intervalo fixo entre 0 e 1. A fórmula para a normalização min-max é:

onde X é o valor original, X_min é o valor mínimo nos dados e X_max é o valor máximo nos dados.

Também existem métodos como a normalização Z-Score e a normalização por escala decimal.

Aqui está um exemplo de como normalizar dados usando sklearn:

1234567891011
from sklearn.preprocessing import MinMaxScaler import numpy as np # Create simple dataset dataset = np.array([[10, 2, 3], [5, 7, 9], [11, 12, 8]]) # Create a scaler model scaler = MinMaxScaler() # Fit and transform dataset scaled_data = scaler.fit_transform(dataset)
copy

Primeiramente, importamos a classe MinMaxScaler. Em seguida, criamos um objeto chamado scaler dessa classe. Esse escalonador transformará nossos dados em uma escala comum, utilizando os valores mínimos e máximos dos dados.

Depois, ajustamos e transformamos nossa amostra de dados usando o objeto escalonador. O scaled_data resultante é um array numpy contendo nossos dados escalonados.

A escalonamento de dados é um passo importante no pré-processamento de dados, que ajuda a transformar os dados em uma escala comum, tornando-os mais fáceis de comparar e analisar. Escolher a técnica de escalonamento apropriada depende da natureza dos dados e do problema específico que está sendo resolvido.

O escalonamento de dados geralmente é feito no eixo dos atributos (feature axis). Isso acontece porque o escalonamento é aplicado separadamente a cada atributo (ou coluna) para trazê-los todos para uma escala similar. O escalonamento no eixo dos exemplos (ou linha a linha) escalonaria as observações individuais (ou linhas) e poderia distorcer a relação entre os atributos.

O último ponto que examinaremos é quais dados precisam ser escalonados. Devem ser o conjunto de treino, teste ou todo o conjunto de dados? O conjunto de teste deve ser escalonado usando os mesmos parâmetros utilizados para escalar os dados de treino, para que os dados de teste sejam consistentes com os dados de treino. É importante escalar os dados de teste separadamente dos dados de treino para evitar o vazamento de dados do conjunto de teste para o conjunto de treino.

Tarefa
test

Swipe to show code editor

Escale os dados no conjunto de dados 'pr_cars.csv'.

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 1
toggle bottom row

book
Escalonamento de Dados

Escalonamento de dados é uma técnica utilizada para transformar dados em uma escala comum, facilitando a comparação e análise. É uma etapa importante no pré-processamento de dados que ajuda a melhorar o desempenho dos modelos de aprendizado de máquina.

Dados em cenários do mundo real podem estar em diferentes unidades e intervalos, dificultando a comparação e análise. Escalonar os dados ajuda a colocar todas as características dos dados em uma escala comum, o que garante que cada característica seja dada a mesma importância pelos modelos de aprendizado de máquina.

Suponha que temos um conjunto de dados com informações de clientes de um banco, onde queremos prever se um cliente vai ou não dar calote no seu empréstimo. O conjunto de dados contém: idade, renda, pontuação de crédito, valor do empréstimo e se o cliente deu calote (1 para sim, 0 para não).

Digamos que a coluna de idade varia de 20 a 70, a coluna de renda varia de 20.000 a 200.000 e a coluna de pontuação de crédito varia de 400 a 800. No entanto, a coluna de valor do empréstimo varia de 10.000 a 500.000, o que é muito maior que as outras colunas.

Se fôssemos usar esses dados para treinar um modelo de aprendizado de máquina sem escalar as características, o valor do empréstimo teria uma influência muito maior na previsão em comparação com as outras características. Isso porque o intervalo do valor do empréstimo é muito maior que o intervalo das outras características, e o modelo atribuiria mais peso ao valor do empréstimo ao fazer previsões.

Como resultado, o modelo não seria tão preciso quanto poderia ser, porque não considera a importância relativa de cada característica. Para evitar isso, precisamos usar o escalonamento de dados para que as características tenham um intervalo semelhante e influência na previsão.

Existem várias técnicas para escalonar dados, mas em mais detalhes, vamos olhar apenas para a normalização min-max.

A normalização min-max escala os dados para um intervalo fixo entre 0 e 1. A fórmula para a normalização min-max é:

onde X é o valor original, X_min é o valor mínimo nos dados e X_max é o valor máximo nos dados.

Também existem métodos como a normalização Z-Score e a normalização por escala decimal.

Aqui está um exemplo de como normalizar dados usando sklearn:

1234567891011
from sklearn.preprocessing import MinMaxScaler import numpy as np # Create simple dataset dataset = np.array([[10, 2, 3], [5, 7, 9], [11, 12, 8]]) # Create a scaler model scaler = MinMaxScaler() # Fit and transform dataset scaled_data = scaler.fit_transform(dataset)
copy

Primeiramente, importamos a classe MinMaxScaler. Em seguida, criamos um objeto chamado scaler dessa classe. Esse escalonador transformará nossos dados em uma escala comum, utilizando os valores mínimos e máximos dos dados.

Depois, ajustamos e transformamos nossa amostra de dados usando o objeto escalonador. O scaled_data resultante é um array numpy contendo nossos dados escalonados.

A escalonamento de dados é um passo importante no pré-processamento de dados, que ajuda a transformar os dados em uma escala comum, tornando-os mais fáceis de comparar e analisar. Escolher a técnica de escalonamento apropriada depende da natureza dos dados e do problema específico que está sendo resolvido.

O escalonamento de dados geralmente é feito no eixo dos atributos (feature axis). Isso acontece porque o escalonamento é aplicado separadamente a cada atributo (ou coluna) para trazê-los todos para uma escala similar. O escalonamento no eixo dos exemplos (ou linha a linha) escalonaria as observações individuais (ou linhas) e poderia distorcer a relação entre os atributos.

O último ponto que examinaremos é quais dados precisam ser escalonados. Devem ser o conjunto de treino, teste ou todo o conjunto de dados? O conjunto de teste deve ser escalonado usando os mesmos parâmetros utilizados para escalar os dados de treino, para que os dados de teste sejam consistentes com os dados de treino. É importante escalar os dados de teste separadamente dos dados de treino para evitar o vazamento de dados do conjunto de teste para o conjunto de treino.

Tarefa
test

Swipe to show code editor

Escale os dados no conjunto de dados 'pr_cars.csv'.

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 1
Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
We're sorry to hear that something went wrong. What happened?
some-alt