La clase `SimpleImputer` reemplaza automáticamente los valores faltantes.

```python
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
```

Sus parámetros clave:

* `missing_value`: marcador considerado como valor faltante (por defecto `np.nan`);
* `strategy`: método para rellenar los huecos (`'mean'` por defecto);
* `fill_value`: valor utilizado cuando `strategy='constant'`.

Como transformador, proporciona métodos como `.fit()`, `.transform()` y `.fit_transform()`.

Elegir cómo rellenar los datos faltantes es fundamental. Un enfoque común:

* características numéricas → **media**;
* características categóricas → **valor más frecuente**.

Opciones de `strategy`:

* `'mean'` — rellenar con la media;
* `'median'` — rellenar con la mediana;
* `'most_frequent'` — rellenar con la moda;
* `'constant'` — rellenar con un valor especificado mediante `fill_value`.

`missing_values` define qué valores se consideran como faltantes (por defecto `NaN`, pero puede ser `''` u otro marcador).

`SimpleImputer` espera un **DataFrame**, no una Serie.
Se debe seleccionar un DataFrame de una sola columna utilizando dobles corchetes:

```python
imputer.fit_transform(df[['column']])
```

Nota

`fit_transform()` devuelve un **array 2D**, pero para asignar de nuevo a una columna de un DataFrame se requiere un array **1D**.
Aplana el resultado usando `.ravel()`:

```python
df['column'] = imputer.fit_transform(df[['column']]).ravel()
```

import unittest
import pandas as pd

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestSimpleImputerMostFrequent(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ñ Ð´Ð°Ð½Ñ Ð±ÐµÐ· ÑÐ¼Ð¿ÑÑÐ°ÑÑÐ¹
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv'
        )
        cls.df_raw = cls.df_raw[cls.df_raw.isna().sum(axis=1) < 2]

        import user_code
        cls.user_code = user_code

    def test_uses_simpleimputer_most_frequent(self):
        from sklearn.impute import SimpleImputer
        uc = self.user_code
        cond = isinstance(getattr(uc, 'imputer', None), SimpleImputer) and getattr(uc.imputer, 'strategy', None) == 'most_frequent'
        _dynamic_test(
            self,
            cond,
            "Used SimpleImputer with strategy='most_frequent'",
            "You must use sklearn.impute.SimpleImputer with strategy='most_frequent'"
        )

    def test_no_nans_in_sex(self):
        uc = self.user_code
        cond = 'sex' in uc.df.columns and not uc.df['sex'].isna().any()
        _dynamic_test(
            self,
            cond,
            "Column 'sex' contains no NaN after imputation",
            "Column 'sex' still contains NaN values after imputation"
        )

    def test_nans_reduced_vs_raw(self):
        raw_nans = self.df_raw['sex'].isna().sum()
        uc = self.user_code
        after_nans = uc.df['sex'].isna().sum() if 'sex' in uc.df.columns else raw_nans
        cond = raw_nans > 0 and after_nans < raw_nans
        _dynamic_test(
            self,
            cond,
            "Number of NaN in 'sex' decreased compared to raw data",
            "The number of NaN in 'sex' did not decrease compared to raw data"
        )

    def test_imputer_fitted_on_sex_mode(self):
        uc = self.user_code
        has_stats = hasattr(getattr(uc, 'imputer', object()), 'statistics_')
        try:
            mode_val = uc.df['sex'].mode(dropna=True).iloc[0]
        except Exception:
            mode_val = None
        stats_match = False
        if has_stats and getattr(uc.imputer, 'statistics_', None) is not None and len(uc.imputer.statistics_) > 0:
            stats_match = uc.imputer.statistics_[0] == mode_val
        cond = has_stats and stats_match
        _dynamic_test(
            self,
            cond,
            "Imputer appears fitted on 'sex' (statistics_ matches column mode)",
            "Imputer does not seem fitted correctly on 'sex' (statistics_ mismatch)"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

El aprendizaje automático se utiliza actualmente en todas partes. ¿Quieres aprenderlo por ti mismo? Este curso es una introducción al mundo del aprendizaje automático para que puedas aprender los conceptos básicos, trabajar con Scikit-learn – la biblioteca más popular para ML – y construir tu primer proyecto de aprendizaje automático.
Este curso está dirigido a estudiantes con conocimientos básicos de Python, Pandas y Numpy.

Aprenda los conceptos de Machine Learning y el flujo de trabajo de un proyecto de ML.

El preprocesamiento es probablemente la etapa más importante de un proyecto de ML. Este capítulo abarca los pasos de preprocesamiento necesarios para casi cualquier conjunto de datos.

Una tubería es una forma ordenada de combinar todos los pasos de preprocesamiento junto con un modelo. Las tuberías facilitan considerablemente el entrenamiento y uso de un modelo.

El modelado es la etapa más divertida de un proyecto de ML. Aprendamos a construir, ajustar y evaluar el modelo.

Desafío: Imputación de Valores Faltantes

Solución