Escalonamento e Normalização
As variáveis numéricas em seus dados frequentemente apresentam escalas muito diferentes, o que pode prejudicar o desempenho de algoritmos de aprendizado de máquina—especialmente aqueles que utilizam cálculos de distância ou assumem distribuições normais. Escalonamento garante que todas as variáveis contribuam igualmente para o treinamento do modelo.
As duas principais técnicas de escalonamento são:
- Normalização: reescala as variáveis para um intervalo fixo, geralmente entre
0e1; - Padronização: transforma as variáveis para que tenham média
0e desvio padrão1.
Cada método altera o intervalo dos dados de maneira diferente e é mais adequado para cenários específicos.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
Padronização é mais indicada quando os dados seguem uma distribuição Gaussiana (normal), ou quando os algoritmos esperam dados centralizados, como linear regression, logistic regression ou k-means clustering.
Normalização é preferida quando se deseja que todas as variáveis tenham a mesma escala, especialmente para algoritmos que utilizam métricas de distância, como k-nearest neighbors ou neural networks.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain when to use normalization versus standardization?
What are the effects of scaling on different machine learning algorithms?
Can you show how to inverse transform the scaled data back to the original values?
Awesome!
Completion rate improved to 8.33
Escalonamento e Normalização
Deslize para mostrar o menu
As variáveis numéricas em seus dados frequentemente apresentam escalas muito diferentes, o que pode prejudicar o desempenho de algoritmos de aprendizado de máquina—especialmente aqueles que utilizam cálculos de distância ou assumem distribuições normais. Escalonamento garante que todas as variáveis contribuam igualmente para o treinamento do modelo.
As duas principais técnicas de escalonamento são:
- Normalização: reescala as variáveis para um intervalo fixo, geralmente entre
0e1; - Padronização: transforma as variáveis para que tenham média
0e desvio padrão1.
Cada método altera o intervalo dos dados de maneira diferente e é mais adequado para cenários específicos.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
Padronização é mais indicada quando os dados seguem uma distribuição Gaussiana (normal), ou quando os algoritmos esperam dados centralizados, como linear regression, logistic regression ou k-means clustering.
Normalização é preferida quando se deseja que todas as variáveis tenham a mesma escala, especialmente para algoritmos que utilizam métricas de distância, como k-nearest neighbors ou neural networks.
Obrigado pelo seu feedback!