Realizando PCA em um Conjunto de Dados Real
Realize PCA em um conjunto de dados real utilizando scikit-learn. Utilize o conjunto de dados Iris, um clássico em aprendizado de máquina, e siga estes passos:
- Carregamento dos dados;
- Preparação para análise;
- Padronização das variáveis;
- Aplicação do
PCApara redução de dimensionalidade.
Este processo demonstra como implementar a redução de dimensionalidade em cenários práticos.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
O código acima executa o PCA no conjunto de dados Iris seguindo várias etapas principais:
1. Carregamento dos Dados
O conjunto de dados Iris é carregado utilizando load_iris() do scikit-learn. Este conjunto contém 150 amostras de flores de íris, cada uma descrita por quatro variáveis: comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala.
2. Padronização das Variáveis
A padronização garante que cada variável tenha média 0 e variância 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Esta etapa é essencial porque o PCA é sensível à variância de cada variável. Sem padronização, variáveis com escalas maiores dominariam os componentes principais, levando a resultados distorcidos.
3. Aplicação do PCA
PCA(n_components=2) reduz o conjunto de dados de quatro dimensões para duas:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Componentes principais são novos eixos que capturam as direções de maior variância nos dados. Cada amostra é projetada nesses eixos, resultando em uma representação compacta que retém o máximo de informação possível.
4. Interpretação do Resultado do PCA
É possível verificar quanta variância cada componente principal explica:
print(pca.explained_variance_ratio_)
Isso retorna um array, como [0.7277, 0.2303], indicando que o primeiro componente explica cerca de 73% da variância e o segundo cerca de 23%. Juntos, eles capturam a maior parte da informação dos dados originais.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Incrível!
Completion taxa melhorada para 8.33
Realizando PCA em um Conjunto de Dados Real
Deslize para mostrar o menu
Realize PCA em um conjunto de dados real utilizando scikit-learn. Utilize o conjunto de dados Iris, um clássico em aprendizado de máquina, e siga estes passos:
- Carregamento dos dados;
- Preparação para análise;
- Padronização das variáveis;
- Aplicação do
PCApara redução de dimensionalidade.
Este processo demonstra como implementar a redução de dimensionalidade em cenários práticos.
12345678910111213141516171819202122import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
O código acima executa o PCA no conjunto de dados Iris seguindo várias etapas principais:
1. Carregamento dos Dados
O conjunto de dados Iris é carregado utilizando load_iris() do scikit-learn. Este conjunto contém 150 amostras de flores de íris, cada uma descrita por quatro variáveis: comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala.
2. Padronização das Variáveis
A padronização garante que cada variável tenha média 0 e variância 1:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
Esta etapa é essencial porque o PCA é sensível à variância de cada variável. Sem padronização, variáveis com escalas maiores dominariam os componentes principais, levando a resultados distorcidos.
3. Aplicação do PCA
PCA(n_components=2) reduz o conjunto de dados de quatro dimensões para duas:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
Componentes principais são novos eixos que capturam as direções de maior variância nos dados. Cada amostra é projetada nesses eixos, resultando em uma representação compacta que retém o máximo de informação possível.
4. Interpretação do Resultado do PCA
É possível verificar quanta variância cada componente principal explica:
print(pca.explained_variance_ratio_)
Isso retorna um array, como [0.7277, 0.2303], indicando que o primeiro componente explica cerca de 73% da variância e o segundo cerca de 23%. Juntos, eles capturam a maior parte da informação dos dados originais.
Obrigado pelo seu feedback!