Summary  
This chapter covers transforming categorical features into numerical form using ordinal encoding for ordered categories and one-hot encoding for nominal categories.

General domain of usage  
Machine learning data preprocessing

Los algoritmos de clustering como **K-means** requieren **datos numéricos**. Las características categóricas deben convertirse a formato numérico mediante codificación. Aprenderá sobre la **codificación ordinal** y la **codificación one-hot**.

## Codificación Ordinal

La **codificación ordinal** convierte categorías ordenadas en valores numéricos, preservando su **rango**. Por ejemplo, la codificación ordinal de la columna `'education_level'` transformará sus valores de `"High School"`, `"Bachelor's"`, `"Master's"`, `'PhD'` a `0`, `1`, `2`, `3`.

Esto asume una **diferencia numérica significativa** entre los valores codificados, lo cual puede no ser siempre preciso.

```python
from sklearn.preprocessing import OrdinalEncoder

education_levels = [['High School',
                     "Bachelor's",
                     "Master's",
                     "PhD"]]
encoder = OrdinalEncoder(categories=education_levels)

df[['education_encoded']] = encoder.fit_transform(df[['education_level']]) 
```

Esta codificación solo debe utilizarse para **características ordinales** donde el orden de las categorías sea relevante.

Nota

## Codificación One-Hot

La codificación one-hot convierte categorías **nominales** (sin orden) en columnas binarias, donde cada categoría se transforma en una **nueva columna**. Para una característica con `n` categorías, normalmente se crean `n` columnas: una columna es `1` para la categoría correspondiente y las demás son `0`. Sin embargo, solo se necesitan realmente `n-1` columnas para representar la información **sin redundancia**.

Por ejemplo, una columna `'color'` con valores `'red'`, `'blue'` y `'green'` puede codificarse con solo **dos** columnas: `'color_red'` y `'color_blue'`. Si una fila tiene `0` en ambas, implica que el color es `'green'`. Al eliminar una columna, se evita la **redundancia**.

La eliminación de la columna redundante se especifica mediante `drop='first'`:

```python
from sklearn.preprocessing import OneHotEncoder 

encoder = OneHotEncoder(drop='first', sparse=False) 

encoded = encoder.fit_transform(df[['color']]) 
```



Aunque la codificación one-hot evita imponer un orden y es adecuada para características nominales, puede aumentar la **dimensionalidad de los datos**.

¿Qué método de codificación es más adecuado para una característica categórica como `'country'` con valores como `"USA"`, `"Canada"` y `"Germany"`, donde no existe un orden natural?

Adquiera una comprensión sólida del análisis de conglomerados, una técnica clave de aprendizaje no supervisado para descubrir patrones en datos no etiquetados. Explore los conceptos esenciales de K-Means, Clustering Jerárquico, DBSCAN y GMM, y obtenga experiencia práctica con conjuntos de datos reales para desarrollar confianza en la aplicación del clustering a problemas del mundo real.

Adéntrese en los fundamentos del clustering y descubra cómo se diferencia de la clasificación. Explore algoritmos, herramientas y bibliotecas esenciales que impulsan esta técnica de aprendizaje no supervisado para revelar patrones ocultos en los datos.

Obtenga una comprensión sólida de las principales técnicas de preprocesamiento que garantizan una agrupación efectiva. Incluye el manejo de valores faltantes, la codificación de características categóricas, la normalización de datos y la selección de medidas de distancia y métodos de enlace apropiados para mejorar la precisión del agrupamiento.

Domine las habilidades necesarias para aplicar el agrupamiento K-Means de manera efectiva. Aprenda cómo funciona el algoritmo, determine el número óptimo de grupos y adquiera experiencia práctica implementando K-Means en conjuntos de datos sintéticos y del mundo real.

Explore los conceptos esenciales del clustering jerárquico y aprenda a agrupar datos en clústeres significativos utilizando dendrogramas. Adquiera confianza en la identificación del número óptimo de clústeres y en la implementación de la técnica tanto en conjuntos de datos sintéticos como reales.

Descubra cómo DBSCAN destaca en la detección de agrupamientos de formas variadas y en el manejo de ruido en los datos. Conozca la mecánica detrás de este algoritmo basado en densidad, el proceso de asignación de puntos a agrupamientos y su aplicación tanto en conjuntos de datos sintéticos como reales con confianza.

Adquiera una comprensión sólida de los Modelos de Mezcla Gaussiana y cómo utilizan la probabilidad para modelar formas de clúster complejas. Explore los principios de la distribución gaussiana, analice el funcionamiento de los GMM y consolide conocimientos aplicándolos tanto a datos simulados como reales.

Codificación de Características Categóricas

Codificación Ordinal

Codificación One-Hot