Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Realizando PCA em um Conjunto de Dados Real | Implementando PCA em Python
Practice
Projects
Quizzes & Challenges
Questionários
Challenges
/
Redução de Dimensionalidade com PCA

bookRealizando PCA em um Conjunto de Dados Real

Realize PCA em um conjunto de dados real utilizando scikit-learn. Utilize o conjunto de dados Iris, um clássico em aprendizado de máquina, e siga estes passos:

  • Carregamento dos dados;
  • Preparação para análise;
  • Padronização das variáveis;
  • Aplicação do PCA para redução de dimensionalidade.

Este processo demonstra como implementar a redução de dimensionalidade em cenários práticos.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

O código acima executa o PCA no conjunto de dados Iris seguindo várias etapas principais:

1. Carregamento dos Dados

O conjunto de dados Iris é carregado utilizando load_iris() do scikit-learn. Este conjunto contém 150 amostras de flores de íris, cada uma descrita por quatro variáveis: comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala.

2. Padronização das Variáveis

A padronização garante que cada variável tenha média 0 e variância 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Esta etapa é essencial porque o PCA é sensível à variância de cada variável. Sem padronização, variáveis com escalas maiores dominariam os componentes principais, levando a resultados distorcidos.

3. Aplicação do PCA

PCA(n_components=2) reduz o conjunto de dados de quatro dimensões para duas:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Componentes principais são novos eixos que capturam as direções de maior variância nos dados. Cada amostra é projetada nesses eixos, resultando em uma representação compacta que retém o máximo de informação possível.

4. Interpretação do Resultado do PCA

É possível verificar quanta variância cada componente principal explica:

print(pca.explained_variance_ratio_)

Isso retorna um array, como [0.7277, 0.2303], indicando que o primeiro componente explica cerca de 73% da variância e o segundo cerca de 23%. Juntos, eles capturam a maior parte da informação dos dados originais.

question mark

Qual afirmação está correta sobre a execução da ACP no conjunto de dados Iris conforme mostrado no exemplo?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 1

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

bookRealizando PCA em um Conjunto de Dados Real

Deslize para mostrar o menu

Realize PCA em um conjunto de dados real utilizando scikit-learn. Utilize o conjunto de dados Iris, um clássico em aprendizado de máquina, e siga estes passos:

  • Carregamento dos dados;
  • Preparação para análise;
  • Padronização das variáveis;
  • Aplicação do PCA para redução de dimensionalidade.

Este processo demonstra como implementar a redução de dimensionalidade em cenários práticos.

12345678910111213141516171819202122
import numpy as np import pandas as pd from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler from sklearn.decomposition import PCA # Load the Iris dataset data = load_iris() X = data.data feature_names = data.feature_names # Standardize features (important for PCA) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # Apply PCA to reduce to 2 components pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) print("Original shape:", X.shape) print("Transformed shape:", X_pca.shape) # Each row in X_pca is a sample projected onto the first two principal components
copy

O código acima executa o PCA no conjunto de dados Iris seguindo várias etapas principais:

1. Carregamento dos Dados

O conjunto de dados Iris é carregado utilizando load_iris() do scikit-learn. Este conjunto contém 150 amostras de flores de íris, cada uma descrita por quatro variáveis: comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala.

2. Padronização das Variáveis

A padronização garante que cada variável tenha média 0 e variância 1:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Esta etapa é essencial porque o PCA é sensível à variância de cada variável. Sem padronização, variáveis com escalas maiores dominariam os componentes principais, levando a resultados distorcidos.

3. Aplicação do PCA

PCA(n_components=2) reduz o conjunto de dados de quatro dimensões para duas:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

Componentes principais são novos eixos que capturam as direções de maior variância nos dados. Cada amostra é projetada nesses eixos, resultando em uma representação compacta que retém o máximo de informação possível.

4. Interpretação do Resultado do PCA

É possível verificar quanta variância cada componente principal explica:

print(pca.explained_variance_ratio_)

Isso retorna um array, como [0.7277, 0.2303], indicando que o primeiro componente explica cerca de 73% da variância e o segundo cerca de 23%. Juntos, eles capturam a maior parte da informação dos dados originais.

question mark

Qual afirmação está correta sobre a execução da ACP no conjunto de dados Iris conforme mostrado no exemplo?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 1
some-alt