Summary  
This chapter demonstrates how to standardize features and apply principal component analysis (PCA) using scikit-learn to reduce the dimensionality of a dataset.

General domain of usage  
Machine learning

Realize **PCA** em um conjunto de dados real utilizando `scikit-learn`. Utilize o **conjunto de dados Iris**, um clássico em aprendizado de máquina, e siga estes passos:

- Carregamento dos dados;
- Preparação para análise;
- Padronização das variáveis;
- Aplicação do `PCA` para redução de dimensionalidade.

Este processo demonstra como implementar a redução de dimensionalidade em cenários práticos.

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Load the Iris dataset
data = load_iris()
X = data.data
feature_names = data.feature_names

# Standardize features (important for PCA)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Apply PCA to reduce to 2 components
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print("Original shape:", X.shape)
print("Transformed shape:", X_pca.shape)
# Each row in X_pca is a sample projected onto the first two principal components

O código acima executa o **PCA** no conjunto de dados Iris seguindo várias etapas principais:

#### 1. Carregamento dos Dados
O conjunto de dados Iris é carregado utilizando `load_iris()` do `scikit-learn`. Este conjunto contém 150 amostras de flores de íris, cada uma descrita por quatro variáveis: comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala.

#### 2. Padronização das Variáveis
A **padronização** garante que cada variável tenha média `0` e variância `1`:

```python
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
```

Esta etapa é essencial porque o **PCA** é sensível à variância de cada variável. Sem padronização, variáveis com escalas maiores dominariam os componentes principais, levando a resultados distorcidos.

### 3. Aplicação do PCA
`PCA(n_components=2)` reduz o conjunto de dados de quatro dimensões para duas:

```python
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
```

**Componentes principais** são novos eixos que capturam as direções de maior variância nos dados. Cada amostra é projetada nesses eixos, resultando em uma representação compacta que retém o máximo de informação possível.

### 4. Interpretação do Resultado do PCA
É possível verificar quanta variância cada componente principal explica:

```python
print(pca.explained_variance_ratio_)
```

Isso retorna um array, como `[0.7277, 0.2303]`, indicando que o primeiro componente explica cerca de 73% da variância e o segundo cerca de 23%. Juntos, eles capturam a maior parte da informação dos dados originais.

Qual afirmação está correta sobre a execução da ACP no conjunto de dados Iris conforme mostrado no exemplo?

Um curso intermediário abrangente que orienta os alunos pela motivação, fundamentos matemáticos e implementação prática da Análise de Componentes Principais (PCA) para redução de dimensionalidade em ciência de dados e aprendizado de máquina.

Explore a motivação, os desafios e os benefícios da redução de dimensões de dados em machine learning e ciência de dados.

Explore os conceitos matemáticos que fundamentam o PCA, incluindo variância, covariância e autovetores.

Aplicação de PCA em conjuntos de dados reais utilizando Python, interpretação dos resultados, visualização da variância explicada e dos carregamentos dos componentes, e comparação do desempenho do modelo antes e depois do PCA.

Realizando PCA em um Conjunto de Dados Real

1. Carregamento dos Dados

2. Padronização das Variáveis

3. Aplicação do PCA

4. Interpretação do Resultado do PCA