Großartig!
Completion Rate verbessert auf 3.13single
Herausforderung: Fehlende Werte Imputieren
Swipe um das Menü anzuzeigen
Die Klasse SimpleImputer ersetzt fehlende Werte automatisch.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Wichtige Parameter:
missing_value: Platzhalter, der als fehlend behandelt wird (Standard:np.nan);strategy: Methode zum Auffüllen der Lücken (Standard:'mean');fill_value: Wird verwendet, wennstrategy='constant'.
Als Transformer stellt sie Methoden wie .fit(), .transform() und .fit_transform() bereit.
Die Auswahl der Methode zum Auffüllen fehlender Daten ist entscheidend. Ein gängiger Ansatz:
- numerische Merkmale → Mittelwert;
- kategoriale Merkmale → häufigster Wert.
Optionen für strategy:
'mean'— Auffüllen mit Mittelwert;'median'— Auffüllen mit Median;'most_frequent'— Auffüllen mit Modus;'constant'— Auffüllen mit einem angegebenen Wert überfill_value.
missing_values definiert, welche Werte als fehlend betrachtet werden (Standard: NaN, kann aber auch '' oder ein anderes Zeichen sein).
SimpleImputer erwartet ein DataFrame, keine Series.
Ein DataFrame mit nur einer Spalte muss mit doppelten eckigen Klammern ausgewählt werden:
imputer.fit_transform(df[['column']])
fit_transform() gibt ein 2D-Array zurück, aber das Zurückschreiben in eine DataFrame-Spalte erfordert ein 1D-Array.
Das Ergebnis mit .ravel() flach machen:
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Sie erhalten ein DataFrame df mit Pinguindaten. Die Spalte 'sex' enthält fehlende Werte. Füllen Sie diese mit der häufigsten Kategorie.
- Importieren Sie
SimpleImputer; - Erstellen Sie einen Imputer mit
strategy='most_frequent'; - Wenden Sie ihn auf
df[['sex']]an; - Weisen Sie die imputierten Werte wieder
df['sex']zu.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen