Utfordring: Forhåndsbehandlingspipeline
Swipe to start coding
Du får utdelt Titanic-datasettet fra seaborn-biblioteket.
Din oppgave er å bygge en fullstendig preprosesseringspipeline som utfører alle nødvendige datatransformasjoner før maskinlæring.
Følg disse stegene:
- Last inn datasettet med
sns.load_dataset("titanic"). - Håndter manglende verdier:
- Numeriske kolonner → fyll med gjennomsnitt.
- Kategoriske kolonner → fyll med modus.
- Kode de kategoriske variablene
sexogembarkedved å brukepd.get_dummies(). - Skaler de numeriske kolonnene
ageogfaremedStandardScaler. - Lag en ny variabel
family_size = sibsp + parch + 1. - Kombiner alle transformasjoner i en funksjon kalt
preprocess_titanic(data)som returnerer den ferdig prosesserte DataFrame. - Tildel det prosesserte datasettet til en variabel kalt
processed_data.
Skriv ut de første 5 radene av den endelige DataFrame.
Løsning
Takk for tilbakemeldingene dine!
single
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain that in simpler terms?
What are the main benefits of this approach?
Are there any common mistakes to avoid with this?
Awesome!
Completion rate improved to 8.33
Utfordring: Forhåndsbehandlingspipeline
Sveip for å vise menyen
Swipe to start coding
Du får utdelt Titanic-datasettet fra seaborn-biblioteket.
Din oppgave er å bygge en fullstendig preprosesseringspipeline som utfører alle nødvendige datatransformasjoner før maskinlæring.
Følg disse stegene:
- Last inn datasettet med
sns.load_dataset("titanic"). - Håndter manglende verdier:
- Numeriske kolonner → fyll med gjennomsnitt.
- Kategoriske kolonner → fyll med modus.
- Kode de kategoriske variablene
sexogembarkedved å brukepd.get_dummies(). - Skaler de numeriske kolonnene
ageogfaremedStandardScaler. - Lag en ny variabel
family_size = sibsp + parch + 1. - Kombiner alle transformasjoner i en funksjon kalt
preprocess_titanic(data)som returnerer den ferdig prosesserte DataFrame. - Tildel det prosesserte datasettet til en variabel kalt
processed_data.
Skriv ut de første 5 radene av den endelige DataFrame.
Løsning
Takk for tilbakemeldingene dine!
single