Summary
This chapter covers techniques for handling missing data by either removing incomplete rows or imputing missing values using a column’s mean or median.

General domain of usage
Clustering in machine learning

Los **valores faltantes** son comunes en los conjuntos de datos del mundo real y deben ser tratados **antes de la agrupación**. Se presentan tres métodos básicos: imputación por media, imputación por mediana y eliminación de filas.

### Rellenar con la media

Este método reemplaza los valores faltantes en una columna con el **promedio** de sus valores no faltantes. Es sencillo y mantiene el **promedio de la columna**.

```python
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
```

Sin embargo, puede reducir la varianza y puede no ser adecuado para **datos sesgados** o **características categóricas**.

### Rellenar con la mediana

Este método reemplaza los valores faltantes con la **mediana** de los valores no faltantes en la columna. La mediana es **menos sensible a los valores atípicos** que la media, lo que la hace más adecuada para datos sesgados o con valores atípicos.

```python
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
```

### Eliminación de filas con valores faltantes

Este método elimina cualquier fila que contenga valores faltantes. Es sencillo y no introduce **datos imputados**. Sin embargo, puede provocar una **pérdida significativa de datos** y **sesgo** si se eliminan muchas filas o si la ausencia de datos no es aleatoria.
  
```python
# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()
```
  
La elección del mejor método depende de tus **datos** y los objetivos del **análisis**. El archivo de código muestra ejemplos prácticos de cada técnica con más detalle.

El archivo de código a continuación proporciona ejemplos prácticos de cada **técnica de preprocesamiento** cubierta en esta sección, incluyendo el manejo de valores faltantes:

Descargar el código

¿Qué método es más apropiado para manejar valores faltantes en una columna con datos sesgados y valores atípicos?

Adquiera una comprensión sólida del análisis de conglomerados, una técnica clave de aprendizaje no supervisado para descubrir patrones en datos no etiquetados. Explore los conceptos esenciales de K-Means, Clustering Jerárquico, DBSCAN y GMM, y obtenga experiencia práctica con conjuntos de datos reales para desarrollar confianza en la aplicación del clustering a problemas del mundo real.

Adéntrese en los fundamentos del clustering y descubra cómo se diferencia de la clasificación. Explore algoritmos, herramientas y bibliotecas esenciales que impulsan esta técnica de aprendizaje no supervisado para revelar patrones ocultos en los datos.

Obtenga una comprensión sólida de las principales técnicas de preprocesamiento que garantizan una agrupación efectiva. Incluye el manejo de valores faltantes, la codificación de características categóricas, la normalización de datos y la selección de medidas de distancia y métodos de enlace apropiados para mejorar la precisión del agrupamiento.

Domine las habilidades necesarias para aplicar el agrupamiento K-Means de manera efectiva. Aprenda cómo funciona el algoritmo, determine el número óptimo de grupos y adquiera experiencia práctica implementando K-Means en conjuntos de datos sintéticos y del mundo real.

Explore los conceptos esenciales del clustering jerárquico y aprenda a agrupar datos en clústeres significativos utilizando dendrogramas. Adquiera confianza en la identificación del número óptimo de clústeres y en la implementación de la técnica tanto en conjuntos de datos sintéticos como reales.

Descubra cómo DBSCAN destaca en la detección de agrupamientos de formas variadas y en el manejo de ruido en los datos. Conozca la mecánica detrás de este algoritmo basado en densidad, el proceso de asignación de puntos a agrupamientos y su aplicación tanto en conjuntos de datos sintéticos como reales con confianza.

Adquiera una comprensión sólida de los Modelos de Mezcla Gaussiana y cómo utilizan la probabilidad para modelar formas de clúster complejas. Explore los principios de la distribución gaussiana, analice el funcionamiento de los GMM y consolide conocimientos aplicándolos tanto a datos simulados como reales.

Gestión de Valores Faltantes

Rellenar con la media

Rellenar con la mediana

Eliminación de filas con valores faltantes