Challenge: Imputing Missing Values

Die Klasse SimpleImputer ersetzt fehlende Werte automatisch.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer()

Wichtige Parameter:

missing_value: Platzhalter, der als fehlend behandelt wird (Standard: np.nan)
strategy: Methode zum Auffüllen der Lücken (Standard: 'mean')
fill_value: Wird verwendet, wenn strategy='constant'.

Als Transformer bietet sie Methoden wie .fit(), .transform() und .fit_transform().

Die Wahl der Methode zum Auffüllen fehlender Daten ist entscheidend. Ein gängiger Ansatz:

numerische Merkmale → Mittelwert
kategoriale Merkmale → häufigster Wert

strategy-Optionen:

'mean' — Auffüllen mit Mittelwert
'median' — Auffüllen mit Median
'most_frequent' — Auffüllen mit Modus
'constant' — Auffüllen mit einem angegebenen Wert über fill_value

missing_values definiert, welche Werte als fehlend behandelt werden (Standard: NaN, kann aber auch '' oder ein anderes Zeichen sein).

Hinweis

SimpleImputer erwartet ein DataFrame, nicht eine Series. Ein DataFrame mit nur einer Spalte muss mit doppelten eckigen Klammern ausgewählt werden:

imputer.fit_transform(df[['column']])

fit_transform() gibt ein 2D-Array zurück, aber das Zurückschreiben in eine DataFrame-Spalte erfordert ein 1D-Array. Das Ergebnis mit .ravel() flach machen:

df['column'] = imputer.fit_transform(df[['column']]).ravel()

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 4

single

Swipe um das Menü anzuzeigen

Die Klasse SimpleImputer ersetzt fehlende Werte automatisch.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer()

Wichtige Parameter:

missing_value: Platzhalter, der als fehlend behandelt wird (Standard: np.nan)
strategy: Methode zum Auffüllen der Lücken (Standard: 'mean')
fill_value: Wird verwendet, wenn strategy='constant'.

Als Transformer bietet sie Methoden wie .fit(), .transform() und .fit_transform().

Die Wahl der Methode zum Auffüllen fehlender Daten ist entscheidend. Ein gängiger Ansatz:

numerische Merkmale → Mittelwert
kategoriale Merkmale → häufigster Wert

strategy-Optionen:

'mean' — Auffüllen mit Mittelwert
'median' — Auffüllen mit Median
'most_frequent' — Auffüllen mit Modus
'constant' — Auffüllen mit einem angegebenen Wert über fill_value

missing_values definiert, welche Werte als fehlend behandelt werden (Standard: NaN, kann aber auch '' oder ein anderes Zeichen sein).

Hinweis

SimpleImputer erwartet ein DataFrame, nicht eine Series. Ein DataFrame mit nur einer Spalte muss mit doppelten eckigen Klammern ausgewählt werden:

imputer.fit_transform(df[['column']])

fit_transform() gibt ein 2D-Array zurück, aber das Zurückschreiben in eine DataFrame-Spalte erfordert ein 1D-Array. Das Ergebnis mit .ravel() flach machen:

df['column'] = imputer.fit_transform(df[['column']]).ravel()

Aufgabe

Wischen, um mit dem Codieren zu beginnen

Sie erhalten ein DataFrame df mit Pinguindaten. Die Spalte 'sex' enthält fehlende Werte. Füllen Sie diese mit der häufigsten Kategorie.

Import von SimpleImputer;
Erstellen eines Imputers mit strategy='most_frequent';
Anwenden auf df[['sex']];
Die imputierten Werte zurück in df['sex'] zuweisen.

Lösung

Wechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 4

single

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen