Klassen `SimpleImputer` erstatter manglende verdier automatisk.

```python
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
```

Viktige parametere:

* `missing_value`: plassholder som behandles som manglende (standard `np.nan`);
* `strategy`: metode for å fylle hull (`'mean'` som standard);
* `fill_value`: brukes når `strategy='constant'`.

Som en transformer tilbyr den metoder som `.fit()`, `.transform()`, og `.fit_transform()`.

Valg av metode for å fylle manglende data er viktig. En vanlig tilnærming:

* numeriske egenskaper → **gjennomsnitt**;
* kategoriske egenskaper → **mest vanlige verdi**.

Alternativer for `strategy`:

* `'mean'` — fyll med gjennomsnitt;
* `'median'` — fyll med median;
* `'most_frequent'` — fyll med modus;
* `'constant'` — fyll med en spesifisert verdi via `fill_value`.

`missing_values` definerer hvilke verdier som behandles som manglende (standard `NaN`, men kan være `''` eller en annen markør).

`SimpleImputer` forventer en **DataFrame**, ikke en Series.
En DataFrame med én kolonne må velges med doble klammeparenteser:

```python
imputer.fit_transform(df[['column']])
```

Merk

`fit_transform()` returnerer et **2D-array**, men ved tildeling tilbake til en DataFrame-kolonne kreves et **1D** array.
Flat ut resultatet med `.ravel()`:

```python
df['column'] = imputer.fit_transform(df[['column']]).ravel()
```

import unittest
import pandas as pd

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestSimpleImputerMostFrequent(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        # ÐÑÐ¸Ð³ÑÐ½Ð°Ð»ÑÐ½Ñ Ð´Ð°Ð½Ñ Ð±ÐµÐ· ÑÐ¼Ð¿ÑÑÐ°ÑÑÐ¹
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv'
        )
        cls.df_raw = cls.df_raw[cls.df_raw.isna().sum(axis=1) < 2]

        import user_code
        cls.user_code = user_code

    def test_uses_simpleimputer_most_frequent(self):
        from sklearn.impute import SimpleImputer
        uc = self.user_code
        cond = isinstance(getattr(uc, 'imputer', None), SimpleImputer) and getattr(uc.imputer, 'strategy', None) == 'most_frequent'
        _dynamic_test(
            self,
            cond,
            "Used SimpleImputer with strategy='most_frequent'",
            "You must use sklearn.impute.SimpleImputer with strategy='most_frequent'"
        )

    def test_no_nans_in_sex(self):
        uc = self.user_code
        cond = 'sex' in uc.df.columns and not uc.df['sex'].isna().any()
        _dynamic_test(
            self,
            cond,
            "Column 'sex' contains no NaN after imputation",
            "Column 'sex' still contains NaN values after imputation"
        )

    def test_nans_reduced_vs_raw(self):
        raw_nans = self.df_raw['sex'].isna().sum()
        uc = self.user_code
        after_nans = uc.df['sex'].isna().sum() if 'sex' in uc.df.columns else raw_nans
        cond = raw_nans > 0 and after_nans < raw_nans
        _dynamic_test(
            self,
            cond,
            "Number of NaN in 'sex' decreased compared to raw data",
            "The number of NaN in 'sex' did not decrease compared to raw data"
        )

    def test_imputer_fitted_on_sex_mode(self):
        uc = self.user_code
        has_stats = hasattr(getattr(uc, 'imputer', object()), 'statistics_')
        try:
            mode_val = uc.df['sex'].mode(dropna=True).iloc[0]
        except Exception:
            mode_val = None
        stats_match = False
        if has_stats and getattr(uc.imputer, 'statistics_', None) is not None and len(uc.imputer.statistics_) > 0:
            stats_match = uc.imputer.statistics_[0] == mode_val
        cond = has_stats and stats_match
        _dynamic_test(
            self,
            cond,
            "Imputer appears fitted on 'sex' (statistics_ matches column mode)",
            "Imputer does not seem fitted correctly on 'sex' (statistics_ mismatch)"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

Maskinlæring brukes nå overalt. Vil du lære det selv? Dette kurset er en introduksjon til maskinlæring hvor du lærer grunnleggende konsepter, arbeider med Scikit-learn – det mest populære biblioteket for ML, og bygger ditt første maskinlæringsprosjekt.
Kurset er beregnet på studenter med grunnleggende kunnskaper i Python, Pandas og Numpy.

Lær om maskinlæringskonsepter og arbeidsflyten i et ML-prosjekt.

Forbehandling er sannsynligvis den viktigste fasen i et ML-prosjekt. Dette kapittelet dekker forbehandlingsstegene som trengs for nesten alle datasett.

En pipeline er en ryddig måte å kombinere alle forhåndsprosesseringssteg samt en modell. Pipeliner gjør det mye enklere å trene og bruke en modell.

Modellering er den mest spennende fasen i et ML-prosjekt. La oss lære å bygge, finjustere og evaluere modellen!

Utfordring: Imputering av manglende verdier

Løsning