Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Escalonamento e Normalização | Técnicas de Transformação de Dados
Pré-Processamento de Dados e Engenharia de Features

bookEscalonamento e Normalização

As variáveis numéricas em seus dados frequentemente apresentam escalas muito diferentes, o que pode prejudicar o desempenho de algoritmos de aprendizado de máquina—especialmente aqueles que utilizam cálculos de distância ou assumem distribuições normais. Escalonamento garante que todas as variáveis contribuam igualmente para o treinamento do modelo.

As duas principais técnicas de escalonamento são:

  • Normalização: reescala as variáveis para um intervalo fixo, geralmente entre 0 e 1;
  • Padronização: transforma as variáveis para que tenham média 0 e desvio padrão 1.

Cada método altera o intervalo dos dados de maneira diferente e é mais adequado para cenários específicos.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Quando Usar Cada Método de Escalonamento

Padronização é mais indicada quando os dados seguem uma distribuição Gaussiana (normal), ou quando os algoritmos esperam dados centralizados, como linear regression, logistic regression ou k-means clustering.

Normalização é preferida quando se deseja que todas as variáveis tenham a mesma escala, especialmente para algoritmos que utilizam métricas de distância, como k-nearest neighbors ou neural networks.

question mark

Qual método de escalonamento deve ser escolhido se suas variáveis possuem intervalos muito diferentes e você está utilizando um classificador k-vizinhos mais próximos?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 1

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain when to use normalization versus standardization?

What are the effects of scaling on different machine learning algorithms?

Can you show how to inverse transform the scaled data back to the original values?

Awesome!

Completion rate improved to 8.33

bookEscalonamento e Normalização

Deslize para mostrar o menu

As variáveis numéricas em seus dados frequentemente apresentam escalas muito diferentes, o que pode prejudicar o desempenho de algoritmos de aprendizado de máquina—especialmente aqueles que utilizam cálculos de distância ou assumem distribuições normais. Escalonamento garante que todas as variáveis contribuam igualmente para o treinamento do modelo.

As duas principais técnicas de escalonamento são:

  • Normalização: reescala as variáveis para um intervalo fixo, geralmente entre 0 e 1;
  • Padronização: transforma as variáveis para que tenham média 0 e desvio padrão 1.

Cada método altera o intervalo dos dados de maneira diferente e é mais adequado para cenários específicos.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Quando Usar Cada Método de Escalonamento

Padronização é mais indicada quando os dados seguem uma distribuição Gaussiana (normal), ou quando os algoritmos esperam dados centralizados, como linear regression, logistic regression ou k-means clustering.

Normalização é preferida quando se deseja que todas as variáveis tenham a mesma escala, especialmente para algoritmos que utilizam métricas de distância, como k-nearest neighbors ou neural networks.

question mark

Qual método de escalonamento deve ser escolhido se suas variáveis possuem intervalos muito diferentes e você está utilizando um classificador k-vizinhos mais próximos?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 1
some-alt