Aprenda Escalonamento de Dados | Processamento de Dados Quantitativos

Seção 2. Capítulo 1

single

Deslize para mostrar o menu

Escalonamento de dados é uma técnica utilizada para transformar dados em uma escala comum, facilitando a comparação e análise. É uma etapa importante no pré-processamento de dados que ajuda a melhorar o desempenho dos modelos de aprendizado de máquina.

Dados em cenários do mundo real podem estar em diferentes unidades e intervalos, dificultando a comparação e análise. Escalonar os dados ajuda a colocar todas as características dos dados em uma escala comum, o que garante que cada característica seja dada a mesma importância pelos modelos de aprendizado de máquina.

Suponha que temos um conjunto de dados com informações de clientes de um banco, onde queremos prever se um cliente vai ou não dar calote no seu empréstimo. O conjunto de dados contém: idade, renda, pontuação de crédito, valor do empréstimo e se o cliente deu calote (1 para sim, 0 para não).

Digamos que a coluna de idade varia de 20 a 70, a coluna de renda varia de 20.000 a 200.000 e a coluna de pontuação de crédito varia de 400 a 800. No entanto, a coluna de valor do empréstimo varia de 10.000 a 500.000, o que é muito maior que as outras colunas.

Se fôssemos usar esses dados para treinar um modelo de aprendizado de máquina sem escalar as características, o valor do empréstimo teria uma influência muito maior na previsão em comparação com as outras características. Isso porque o intervalo do valor do empréstimo é muito maior que o intervalo das outras características, e o modelo atribuiria mais peso ao valor do empréstimo ao fazer previsões.

Como resultado, o modelo não seria tão preciso quanto poderia ser, porque não considera a importância relativa de cada característica. Para evitar isso, precisamos usar o escalonamento de dados para que as características tenham um intervalo semelhante e influência na previsão.

Existem várias técnicas para escalonar dados, mas em mais detalhes, vamos olhar apenas para a normalização min-max.

A normalização min-max escala os dados para um intervalo fixo entre 0 e 1. A fórmula para a normalização min-max é:

onde X é o valor original, X_min é o valor mínimo nos dados e X_max é o valor máximo nos dados.

Também existem métodos como a normalização Z-Score e a normalização por escala decimal.

Aqui está um exemplo de como normalizar dados usando sklearn:


              1234567891011
            
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# Create simple dataset
dataset = np.array([[10, 2, 3], [5, 7, 9], [11, 12, 8]])

# Create a scaler model
scaler = MinMaxScaler()

# Fit and transform dataset
scaled_data = scaler.fit_transform(dataset)

Primeiramente, importamos a classe MinMaxScaler. Em seguida, criamos um objeto chamado scaler dessa classe. Esse escalonador transformará nossos dados em uma escala comum, utilizando os valores mínimos e máximos dos dados.

Depois, ajustamos e transformamos nossa amostra de dados usando o objeto escalonador. O scaled_data resultante é um array numpy contendo nossos dados escalonados.

A escalonamento de dados é um passo importante no pré-processamento de dados, que ajuda a transformar os dados em uma escala comum, tornando-os mais fáceis de comparar e analisar. Escolher a técnica de escalonamento apropriada depende da natureza dos dados e do problema específico que está sendo resolvido.

O escalonamento de dados geralmente é feito no eixo dos atributos (feature axis). Isso acontece porque o escalonamento é aplicado separadamente a cada atributo (ou coluna) para trazê-los todos para uma escala similar. O escalonamento no eixo dos exemplos (ou linha a linha) escalonaria as observações individuais (ou linhas) e poderia distorcer a relação entre os atributos.

O último ponto que examinaremos é quais dados precisam ser escalonados. Devem ser o conjunto de treino, teste ou todo o conjunto de dados? O conjunto de teste deve ser escalonado usando os mesmos parâmetros utilizados para escalar os dados de treino, para que os dados de teste sejam consistentes com os dados de treino. É importante escalar os dados de teste separadamente dos dados de treino para evitar o vazamento de dados do conjunto de teste para o conjunto de treino.

Tarefa

Swipe to start coding

Escale os dados no conjunto de dados 'pr_cars.csv'.

Solução

Mude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 1

single

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo