Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Bli Kjent Med Datasettet | Forbehandling av Data med Scikit-learn
ML-Introduksjon med Scikit-learn

bookBli Kjent Med Datasettet

Start forbehandling ved å utforske datasettet. Gjennom dette kurset vil penguin-datasettet bli brukt, med oppgaven å forutsi arten til en pingvin.

Det finnes tre mulige alternativer, ofte omtalt som klasser innen maskinlæring:

Egenskapene er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.

Datasettet er lagret i filen penguins.csv. Det kan lastes inn fra en lenke med funksjonen pd.read_csv() for å undersøke innholdet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Dette datasettet har flere utfordringer som må håndteres:

  • Manglende data;
  • Kategoriske variabler;
  • Ulike skalaer på egenskaper.

Manglende data

De fleste ML-algoritmer kan ikke håndtere manglende verdier direkte, så disse må behandles før trening. Manglende verdier kan enten fjernes eller imputeres (erstattes med andre verdier).

I pandas representeres tomme celler som NaN. Mange ML-modeller vil gi en feil hvis datasettet inneholder selv én NaN.

Kategoriske data

Datasettet inneholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.

Kategoriske data må kodes om til numerisk form.

Ulike skalaer

'culmen_depth_mm'-verdier varierer fra 13.1 til 21.5, mens 'body_mass_g'-verdier varierer fra 2700 til 6300. På grunn av dette kan enkelte ML-modeller anse 'body_mass_g'-egenskapen som mye viktigere enn 'culmen_depth_mm'.

Skalering løser dette problemet. Dette vil bli gjennomgått i senere kapitler.

question-icon

Koble problemet til en måte å løse det på.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 2

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

What are the three classes of penguins in the dataset?

How do I handle missing data in the penguin dataset?

Can you explain how to encode categorical variables for machine learning?

Awesome!

Completion rate improved to 3.13

bookBli Kjent Med Datasettet

Sveip for å vise menyen

Start forbehandling ved å utforske datasettet. Gjennom dette kurset vil penguin-datasettet bli brukt, med oppgaven å forutsi arten til en pingvin.

Det finnes tre mulige alternativer, ofte omtalt som klasser innen maskinlæring:

Egenskapene er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.

Datasettet er lagret i filen penguins.csv. Det kan lastes inn fra en lenke med funksjonen pd.read_csv() for å undersøke innholdet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Dette datasettet har flere utfordringer som må håndteres:

  • Manglende data;
  • Kategoriske variabler;
  • Ulike skalaer på egenskaper.

Manglende data

De fleste ML-algoritmer kan ikke håndtere manglende verdier direkte, så disse må behandles før trening. Manglende verdier kan enten fjernes eller imputeres (erstattes med andre verdier).

I pandas representeres tomme celler som NaN. Mange ML-modeller vil gi en feil hvis datasettet inneholder selv én NaN.

Kategoriske data

Datasettet inneholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.

Kategoriske data må kodes om til numerisk form.

Ulike skalaer

'culmen_depth_mm'-verdier varierer fra 13.1 til 21.5, mens 'body_mass_g'-verdier varierer fra 2700 til 6300. På grunn av dette kan enkelte ML-modeller anse 'body_mass_g'-egenskapen som mye viktigere enn 'culmen_depth_mm'.

Skalering løser dette problemet. Dette vil bli gjennomgått i senere kapitler.

question-icon

Koble problemet til en måte å løse det på.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 2
some-alt