Utmaning: Förbehandlingspipeline
Swipe to start coding
Du får Titanic-datasetet från seaborn-biblioteket.
Din uppgift är att bygga en fullständig förbehandlingspipeline som utför alla nödvändiga datatransformationer före maskininlärning.
Följ dessa steg:
- Läs in datasetet med
sns.load_dataset("titanic"). - Hantera saknade värden:
- Numeriska kolumner → fyll med medelvärde.
- Kategoriska kolumner → fyll med typvärde.
- Koda de kategoriska variablerna
sexochembarkedmedpd.get_dummies(). - Skala de numeriska kolumnerna
ageochfaremedStandardScaler. - Skapa en ny variabel
family_size = sibsp + parch + 1. - Kombinera alla transformationer i en funktion kallad
preprocess_titanic(data)som returnerar den slutliga bearbetade DataFrame. - Tilldela det bearbetade datasetet till en variabel som heter
processed_data.
Skriv ut de första 5 raderna i den slutliga DataFrame.
Lösning
Tack för dina kommentarer!
single
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you explain that in simpler terms?
What are the main benefits of this approach?
Are there any common mistakes to avoid with this?
Awesome!
Completion rate improved to 8.33
Utmaning: Förbehandlingspipeline
Svep för att visa menyn
Swipe to start coding
Du får Titanic-datasetet från seaborn-biblioteket.
Din uppgift är att bygga en fullständig förbehandlingspipeline som utför alla nödvändiga datatransformationer före maskininlärning.
Följ dessa steg:
- Läs in datasetet med
sns.load_dataset("titanic"). - Hantera saknade värden:
- Numeriska kolumner → fyll med medelvärde.
- Kategoriska kolumner → fyll med typvärde.
- Koda de kategoriska variablerna
sexochembarkedmedpd.get_dummies(). - Skala de numeriska kolumnerna
ageochfaremedStandardScaler. - Skapa en ny variabel
family_size = sibsp + parch + 1. - Kombinera alla transformationer i en funktion kallad
preprocess_titanic(data)som returnerar den slutliga bearbetade DataFrame. - Tilldela det bearbetade datasetet till en variabel som heter
processed_data.
Skriv ut de första 5 raderna i den slutliga DataFrame.
Lösning
Tack för dina kommentarer!
single