Bli Kjent Med Datasettet
Start forbehandling ved å utforske datasettet. Gjennom dette kurset vil penguin-datasettet bli brukt, med oppgaven å forutsi arten til en pingvin.
Det finnes tre mulige alternativer, ofte omtalt som klasser innen maskinlæring:
Egenskapene er: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
og 'sex'
.
Datasettet er lagret i filen penguins.csv
. Det kan lastes inn fra en lenke med funksjonen pd.read_csv()
for å undersøke innholdet:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Dette datasettet har flere utfordringer som må håndteres:
- Manglende data;
- Kategoriske variabler;
- Ulike skalaer på egenskaper.
Manglende data
De fleste ML-algoritmer kan ikke håndtere manglende verdier direkte, så disse må behandles før trening. Manglende verdier kan enten fjernes eller imputeres (erstattes med andre verdier).
I pandas
representeres tomme celler som NaN
. Mange ML-modeller vil gi en feil hvis datasettet inneholder selv én NaN
.
Kategoriske data
Datasettet inneholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.
Kategoriske data må kodes om til numerisk form.
Ulike skalaer
'culmen_depth_mm'
-verdier varierer fra 13.1 til 21.5, mens 'body_mass_g'
-verdier varierer fra 2700 til 6300. På grunn av dette kan enkelte ML-modeller anse 'body_mass_g'
-egenskapen som mye viktigere enn 'culmen_depth_mm'
.
Skalering løser dette problemet. Dette vil bli gjennomgått i senere kapitler.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
What are the three classes of penguins in the dataset?
How do I handle missing data in the penguin dataset?
Can you explain how to encode categorical variables for machine learning?
Awesome!
Completion rate improved to 3.13
Bli Kjent Med Datasettet
Sveip for å vise menyen
Start forbehandling ved å utforske datasettet. Gjennom dette kurset vil penguin-datasettet bli brukt, med oppgaven å forutsi arten til en pingvin.
Det finnes tre mulige alternativer, ofte omtalt som klasser innen maskinlæring:
Egenskapene er: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
og 'sex'
.
Datasettet er lagret i filen penguins.csv
. Det kan lastes inn fra en lenke med funksjonen pd.read_csv()
for å undersøke innholdet:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Dette datasettet har flere utfordringer som må håndteres:
- Manglende data;
- Kategoriske variabler;
- Ulike skalaer på egenskaper.
Manglende data
De fleste ML-algoritmer kan ikke håndtere manglende verdier direkte, så disse må behandles før trening. Manglende verdier kan enten fjernes eller imputeres (erstattes med andre verdier).
I pandas
representeres tomme celler som NaN
. Mange ML-modeller vil gi en feil hvis datasettet inneholder selv én NaN
.
Kategoriske data
Datasettet inneholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.
Kategoriske data må kodes om til numerisk form.
Ulike skalaer
'culmen_depth_mm'
-verdier varierer fra 13.1 til 21.5, mens 'body_mass_g'
-verdier varierer fra 2700 til 6300. På grunn av dette kan enkelte ML-modeller anse 'body_mass_g'
-egenskapen som mye viktigere enn 'culmen_depth_mm'
.
Skalering løser dette problemet. Dette vil bli gjennomgått i senere kapitler.
Takk for tilbakemeldingene dine!