Uitdaging: Preprocessing-Pijplijn
Swipe to start coding
Je krijgt de Titanic dataset uit de seaborn-bibliotheek.
Je opdracht is om een volledige preprocessing-pijplijn te bouwen die alle essentiële datatransformaties uitvoert die vóór machine learning worden gebruikt.
Volg deze stappen:
- Laad de dataset met
sns.load_dataset("titanic"). - Behandel ontbrekende waarden:
- Numerieke kolommen → opvullen met het gemiddelde.
- Categorische kolommen → opvullen met de modus.
- Encodeer de categorische kenmerken
sexenembarkedmetpd.get_dummies(). - Schaal de numerieke kolommen
ageenfaremetStandardScaler. - Maak een nieuw kenmerk aan:
family_size = sibsp + parch + 1. - Combineer alle transformaties in een functie genaamd
preprocess_titanic(data)die de uiteindelijk verwerkte DataFrame retourneert. - Wijs de verwerkte dataset toe aan een variabele genaamd
processed_data.
Print de eerste 5 rijen van de uiteindelijke DataFrame.
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 8.33
Uitdaging: Preprocessing-Pijplijn
Veeg om het menu te tonen
Swipe to start coding
Je krijgt de Titanic dataset uit de seaborn-bibliotheek.
Je opdracht is om een volledige preprocessing-pijplijn te bouwen die alle essentiële datatransformaties uitvoert die vóór machine learning worden gebruikt.
Volg deze stappen:
- Laad de dataset met
sns.load_dataset("titanic"). - Behandel ontbrekende waarden:
- Numerieke kolommen → opvullen met het gemiddelde.
- Categorische kolommen → opvullen met de modus.
- Encodeer de categorische kenmerken
sexenembarkedmetpd.get_dummies(). - Schaal de numerieke kolommen
ageenfaremetStandardScaler. - Maak een nieuw kenmerk aan:
family_size = sibsp + parch + 1. - Combineer alle transformaties in een functie genaamd
preprocess_titanic(data)die de uiteindelijk verwerkte DataFrame retourneert. - Wijs de verwerkte dataset toe aan een variabele genaamd
processed_data.
Print de eerste 5 rijen van de uiteindelijke DataFrame.
Oplossing
Bedankt voor je feedback!
single