Introduktion til Datasættet
Påbegynd forbehandling ved at udforske datasættet. Gennem dette kursus vil pingvin-datasættet blive anvendt, med opgaven at forudsige arten af en pingvin.
Der er tre mulige muligheder, ofte omtalt som klasser inden for maskinlæring:
Egenskaberne er: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
og 'sex'
.
Datasættet er gemt i filen penguins.csv
. Det kan indlæses fra et link med funktionen pd.read_csv()
for at undersøge indholdet:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Dette datasæt præsenterer flere udfordringer, der skal håndteres:
- Manglende data;
- Kategoriske variabler;
- Forskellige skalaer for egenskaber.
Manglende data
De fleste ML-algoritmer kan ikke behandle manglende værdier direkte, så disse skal håndteres før træning. Manglende værdier kan enten fjernes eller imputeres (erstattes med erstatningsværdier).
I pandas
repræsenteres tomme celler som NaN
. Mange ML-modeller vil give en fejl, hvis datasættet indeholder blot én NaN
.
Kategoriske data
Datasættet indeholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.
Kategoriske data skal kodes til numerisk form.
Forskellige skalaer
'culmen_depth_mm'
værdier spænder fra 13.1 til 21.5, mens 'body_mass_g'
værdier spænder fra 2700 til 6300. På grund af dette kan nogle ML-modeller betragte 'body_mass_g'
-egenskaben som meget vigtigere end 'culmen_depth_mm'
.
Skalering løser dette problem. Det vil blive gennemgået i senere kapitler.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
What are the three classes of penguins in the dataset?
How do I handle missing data in the penguin dataset?
Can you explain how to encode categorical variables for machine learning?
Awesome!
Completion rate improved to 3.13
Introduktion til Datasættet
Stryg for at vise menuen
Påbegynd forbehandling ved at udforske datasættet. Gennem dette kursus vil pingvin-datasættet blive anvendt, med opgaven at forudsige arten af en pingvin.
Der er tre mulige muligheder, ofte omtalt som klasser inden for maskinlæring:
Egenskaberne er: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
og 'sex'
.
Datasættet er gemt i filen penguins.csv
. Det kan indlæses fra et link med funktionen pd.read_csv()
for at undersøge indholdet:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Dette datasæt præsenterer flere udfordringer, der skal håndteres:
- Manglende data;
- Kategoriske variabler;
- Forskellige skalaer for egenskaber.
Manglende data
De fleste ML-algoritmer kan ikke behandle manglende værdier direkte, så disse skal håndteres før træning. Manglende værdier kan enten fjernes eller imputeres (erstattes med erstatningsværdier).
I pandas
repræsenteres tomme celler som NaN
. Mange ML-modeller vil give en fejl, hvis datasættet indeholder blot én NaN
.
Kategoriske data
Datasættet indeholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.
Kategoriske data skal kodes til numerisk form.
Forskellige skalaer
'culmen_depth_mm'
værdier spænder fra 13.1 til 21.5, mens 'body_mass_g'
værdier spænder fra 2700 til 6300. På grund af dette kan nogle ML-modeller betragte 'body_mass_g'
-egenskaben som meget vigtigere end 'culmen_depth_mm'
.
Skalering løser dette problem. Det vil blive gennemgået i senere kapitler.
Tak for dine kommentarer!