Aprenda Escalonamento e Normalização | Técnicas de Transformação de Dados

As variáveis numéricas em seus dados frequentemente apresentam escalas muito diferentes, o que pode prejudicar o desempenho de algoritmos de aprendizado de máquina—especialmente aqueles que utilizam cálculos de distância ou assumem distribuições normais. Escalonamento garante que todas as variáveis contribuam igualmente para o treinamento do modelo.

As duas principais técnicas de escalonamento são:

Normalização: reescala as variáveis para um intervalo fixo, geralmente entre 0 e 1;
Padronização: transforma as variáveis para que tenham média 0 e desvio padrão 1.

Cada método altera o intervalo dos dados de maneira diferente e é mais adequado para cenários específicos.


              1234567891011121314151617181920212223242526272829
            
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Load Titanic dataset from seaborn
import seaborn as sns
titanic = sns.load_dataset('titanic')

# Select numerical features for scaling
features = ['age', 'fare', 'sibsp', 'parch']
df = titanic[features].dropna()

# Standardization
scaler_standard = StandardScaler()
df_standardized = pd.DataFrame(
    scaler_standard.fit_transform(df),
    columns=df.columns
)

# Normalization
scaler_minmax = MinMaxScaler()
df_normalized = pd.DataFrame(
    scaler_minmax.fit_transform(df),
    columns=df.columns
)

print("Standardized Data (first 5 rows):")
print(df_standardized.head())
print("\nNormalized Data (first 5 rows):")
print(df_normalized.head())

Quando Usar Cada Método de Escalonamento

Padronização é mais indicada quando os dados seguem uma distribuição Gaussiana (normal), ou quando os algoritmos esperam dados centralizados, como linear regression, logistic regression ou k-means clustering.

Normalização é preferida quando se deseja que todas as variáveis tenham a mesma escala, especialmente para algoritmos que utilizam métricas de distância, como k-nearest neighbors ou neural networks.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 1

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain when to use normalization versus standardization?

What are the effects of scaling on different machine learning algorithms?

Can you show how to inverse transform the scaled data back to the original values?

Awesome!

Completion rate improved to 8.33

Deslize para mostrar o menu