Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Utmaning: Förbehandlingspipeline | Feature Engineering för Maskininlärning
Datapreprocessering och Feature Engineering

bookUtmaning: Förbehandlingspipeline

Uppgift

Swipe to start coding

Du får Titanic-datasetet från seaborn-biblioteket. Din uppgift är att bygga en fullständig förbehandlingspipeline som utför alla nödvändiga datatransformationer före maskininlärning.

Följ dessa steg:

  1. Läs in datasetet med sns.load_dataset("titanic").
  2. Hantera saknade värden:
  • Numeriska kolumner → fyll med medelvärde.
  • Kategoriska kolumner → fyll med typvärde.
  1. Koda de kategoriska variablerna sex och embarked med pd.get_dummies().
  2. Skala de numeriska kolumnerna age och fare med StandardScaler.
  3. Skapa en ny variabel family_size = sibsp + parch + 1.
  4. Kombinera alla transformationer i en funktion kallad preprocess_titanic(data) som returnerar den slutliga bearbetade DataFrame.
  5. Tilldela det bearbetade datasetet till en variabel som heter processed_data.

Skriv ut de första 5 raderna i den slutliga DataFrame.

Lösning

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 4
single

single

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain that in simpler terms?

What are the main benefits of this approach?

Are there any common mistakes to avoid with this?

close

Awesome!

Completion rate improved to 8.33

bookUtmaning: Förbehandlingspipeline

Svep för att visa menyn

Uppgift

Swipe to start coding

Du får Titanic-datasetet från seaborn-biblioteket. Din uppgift är att bygga en fullständig förbehandlingspipeline som utför alla nödvändiga datatransformationer före maskininlärning.

Följ dessa steg:

  1. Läs in datasetet med sns.load_dataset("titanic").
  2. Hantera saknade värden:
  • Numeriska kolumner → fyll med medelvärde.
  • Kategoriska kolumner → fyll med typvärde.
  1. Koda de kategoriska variablerna sex och embarked med pd.get_dummies().
  2. Skala de numeriska kolumnerna age och fare med StandardScaler.
  3. Skapa en ny variabel family_size = sibsp + parch + 1.
  4. Kombinera alla transformationer i en funktion kallad preprocess_titanic(data) som returnerar den slutliga bearbetade DataFrame.
  5. Tilldela det bearbetade datasetet till en variabel som heter processed_data.

Skriv ut de första 5 raderna i den slutliga DataFrame.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 4
single

single

some-alt