Summary  
This chapter covers transforming categorical features into numerical form using ordinal encoding for ordered categories and one-hot encoding for nominal categories.

General domain of usage  
Machine learning data preprocessing

Algoritmos de clusterização como o **K-means** exigem **dados numéricos**. Características categóricas devem ser convertidas para formato numérico utilizando codificação. Você aprenderá sobre **codificação ordinal** e **one-hot encoding**.

## Codificação Ordinal

A **codificação ordinal** converte categorias ordenadas em valores numéricos, preservando seu **rankeamento**. Por exemplo, a codificação ordinal da coluna `'education_level'` transformará seus valores de `"High School"`, `"Bachelor's"`, `"Master's"`, `'PhD'` para `0`, `1`, `2`, `3`.

Isso pressupõe uma **diferença numérica significativa** entre os valores codificados, o que pode não ser sempre preciso.

```python
from sklearn.preprocessing import OrdinalEncoder

education_levels = [['High School',
                     "Bachelor's",
                     "Master's",
                     "PhD"]]
encoder = OrdinalEncoder(categories=education_levels)

df[['education_encoded']] = encoder.fit_transform(df[['education_level']]) 
```

Essa codificação deve ser utilizada apenas para **características ordinais** onde a ordem das categorias é relevante.

Nota

## Codificação One-Hot

A codificação one-hot converte categorias **nominais** (sem ordem) em colunas binárias, onde cada categoria se torna uma **nova coluna**. Para uma característica com `n` categorias, normalmente são criadas `n` colunas — uma coluna recebe `1` para a categoria correspondente e as demais recebem `0`. No entanto, apenas `n-1` colunas são realmente necessárias para representar a informação **sem redundância**.

Por exemplo, uma coluna `'color'` com valores `'red'`, `'blue'` e `'green'` pode ser codificada com apenas **duas** colunas: `'color_red'` e `'color_blue'`. Se uma linha tiver `0` em ambas, isso implica que a cor é `'green'`. Ao remover uma coluna, evitamos a **redundância**.

A remoção da coluna redundante é especificada via `drop='first'`:

```python
from sklearn.preprocessing import OneHotEncoder 

encoder = OneHotEncoder(drop='first', sparse=False) 

encoded = encoder.fit_transform(df[['color']]) 
```



Embora a codificação one-hot evite impor ordem e seja adequada para características nominais, pode aumentar a **dimensionalidade dos dados**.

Qual método de codificação é mais adequado para uma característica categórica como `'country'` com valores como `"USA"`, `"Canada"` e `"Germany"`, onde não há ordem natural?

Obtenha uma compreensão sólida da análise de clusters, uma técnica fundamental de aprendizado não supervisionado para descobrir padrões em dados não rotulados. Explore os conceitos essenciais de K-Means, Clusterização Hierárquica, DBSCAN e GMMs, e adquira experiência prática com conjuntos de dados reais para desenvolver confiança na aplicação de clusterização em problemas do mundo real.

Aprofunde-se nos fundamentos do clustering e descubra como ele difere da classificação. Explore algoritmos, ferramentas e bibliotecas essenciais que impulsionam essa técnica de aprendizado não supervisionado para revelar padrões ocultos nos dados.

Obtenha uma compreensão sólida das principais técnicas de pré-processamento que garantem uma clusterização eficaz. Aprenda a lidar com valores ausentes, codificar variáveis categóricas, normalizar dados e escolher medidas de distância e métodos de ligação apropriados para aumentar a precisão da clusterização.

Domine as habilidades necessárias para aplicar a clusterização K-Means de forma eficaz. Aprenda como o algoritmo funciona, determine o número ideal de clusters e obtenha experiência prática implementando o K-Means em conjuntos de dados sintéticos e do mundo real.

Explore os conceitos essenciais do agrupamento hierárquico e aprenda a agrupar dados em clusters significativos utilizando dendrogramas. Desenvolva confiança na identificação do número ideal de clusters e na aplicação da técnica em conjuntos de dados sintéticos e do mundo real.

Descubra como o DBSCAN se destaca na detecção de clusters com formatos variados e no tratamento de ruídos nos dados. Compreenda a mecânica por trás deste algoritmo baseado em densidade, como atribuir pontos a clusters e aplicá-lo com confiança em conjuntos de dados sintéticos e reais.

Obtenha uma compreensão sólida dos Modelos de Mistura Gaussiana e de como utilizam probabilidade para modelar formas de clusters complexas. Explore os princípios da distribuição Gaussiana, entenda o funcionamento dos GMMs e desenvolva confiança ao aplicá-los em dados simulados e reais.

Codificação de Características Categóricas

Codificação Ordinal

Codificação One-Hot