Challenge: Ontbrekende Waarden Imputeren

De klasse SimpleImputer vervangt automatisch ontbrekende waarden.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer()

Belangrijkste parameters:

missing_value: aanduiding die als ontbrekend wordt beschouwd (standaard np.nan);
strategy: methode voor het opvullen van ontbrekende waarden (standaard 'mean');
fill_value: gebruikt wanneer strategy='constant' is.

Als transformer biedt het methoden zoals .fit(), .transform(), en .fit_transform().

De keuze voor het opvullen van ontbrekende data is essentieel. Een veelgebruikte aanpak:

numerieke kenmerken → gemiddelde;
categorische kenmerken → meest voorkomende waarde.

Opties voor strategy:

'mean' — opvullen met het gemiddelde;
'median' — opvullen met de mediaan;
'most_frequent' — opvullen met de modus;
'constant' — opvullen met een opgegeven waarde via fill_value.

missing_values bepaalt welke waarden als ontbrekend worden beschouwd (standaard NaN, maar kan ook '' of een andere aanduiding zijn).

Opmerking

SimpleImputer verwacht een DataFrame, geen Series. Een DataFrame met één kolom moet geselecteerd worden met dubbele haken:

imputer.fit_transform(df[['column']])

fit_transform() geeft een 2D-array terug, maar toewijzen aan een DataFrame-kolom vereist een 1D array. Maak het resultaat plat met .ravel():

df['column'] = imputer.fit_transform(df[['column']]).ravel()

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 4

single

Veeg om het menu te tonen

De klasse SimpleImputer vervangt automatisch ontbrekende waarden.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer()

Belangrijkste parameters:

missing_value: aanduiding die als ontbrekend wordt beschouwd (standaard np.nan);
strategy: methode voor het opvullen van ontbrekende waarden (standaard 'mean');
fill_value: gebruikt wanneer strategy='constant' is.

Als transformer biedt het methoden zoals .fit(), .transform(), en .fit_transform().

De keuze voor het opvullen van ontbrekende data is essentieel. Een veelgebruikte aanpak:

numerieke kenmerken → gemiddelde;
categorische kenmerken → meest voorkomende waarde.

Opties voor strategy:

'mean' — opvullen met het gemiddelde;
'median' — opvullen met de mediaan;
'most_frequent' — opvullen met de modus;
'constant' — opvullen met een opgegeven waarde via fill_value.

missing_values bepaalt welke waarden als ontbrekend worden beschouwd (standaard NaN, maar kan ook '' of een andere aanduiding zijn).

Opmerking

SimpleImputer verwacht een DataFrame, geen Series. Een DataFrame met één kolom moet geselecteerd worden met dubbele haken:

imputer.fit_transform(df[['column']])

fit_transform() geeft een 2D-array terug, maar toewijzen aan een DataFrame-kolom vereist een 1D array. Maak het resultaat plat met .ravel():

df['column'] = imputer.fit_transform(df[['column']]).ravel()

Taak

Veeg om te beginnen met coderen

Je krijgt een DataFrame df met gegevens over pinguïns. De kolom 'sex' bevat ontbrekende waarden. Vul deze aan met de meest voorkomende categorie.

Importeer SimpleImputer;
Maak een imputer aan met strategy='most_frequent';
Pas deze toe op df[['sex']];
Wijs de geïmputeerde waarden toe aan df['sex'].

Oplossing

Schakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 4

single

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.