Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Introduktion til Datasættet | Forbehandling af Data med Scikit-learn
ML Introduktion med Scikit-learn

bookIntroduktion til Datasættet

Påbegynd forbehandling ved at udforske datasættet. Gennem dette kursus vil pingvin-datasættet blive anvendt, med opgaven at forudsige arten af en pingvin.

Der er tre mulige muligheder, ofte omtalt som klasser inden for maskinlæring:

Egenskaberne er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.

Datasættet er gemt i filen penguins.csv. Det kan indlæses fra et link med funktionen pd.read_csv() for at undersøge indholdet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Dette datasæt præsenterer flere udfordringer, der skal håndteres:

  • Manglende data;
  • Kategoriske variabler;
  • Forskellige skalaer for egenskaber.

Manglende data

De fleste ML-algoritmer kan ikke behandle manglende værdier direkte, så disse skal håndteres før træning. Manglende værdier kan enten fjernes eller imputeres (erstattes med erstatningsværdier).

I pandas repræsenteres tomme celler som NaN. Mange ML-modeller vil give en fejl, hvis datasættet indeholder blot én NaN.

Kategoriske data

Datasættet indeholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.

Kategoriske data skal kodes til numerisk form.

Forskellige skalaer

'culmen_depth_mm' værdier spænder fra 13.1 til 21.5, mens 'body_mass_g' værdier spænder fra 2700 til 6300. På grund af dette kan nogle ML-modeller betragte 'body_mass_g'-egenskaben som meget vigtigere end 'culmen_depth_mm'.

Skalering løser dette problem. Det vil blive gennemgået i senere kapitler.

question-icon

Match problemet med en måde at løse det på.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 2

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

What are the three classes of penguins in the dataset?

How do I handle missing data in the penguin dataset?

Can you explain how to encode categorical variables for machine learning?

Awesome!

Completion rate improved to 3.13

bookIntroduktion til Datasættet

Stryg for at vise menuen

Påbegynd forbehandling ved at udforske datasættet. Gennem dette kursus vil pingvin-datasættet blive anvendt, med opgaven at forudsige arten af en pingvin.

Der er tre mulige muligheder, ofte omtalt som klasser inden for maskinlæring:

Egenskaberne er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.

Datasættet er gemt i filen penguins.csv. Det kan indlæses fra et link med funktionen pd.read_csv() for at undersøge indholdet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Dette datasæt præsenterer flere udfordringer, der skal håndteres:

  • Manglende data;
  • Kategoriske variabler;
  • Forskellige skalaer for egenskaber.

Manglende data

De fleste ML-algoritmer kan ikke behandle manglende værdier direkte, så disse skal håndteres før træning. Manglende værdier kan enten fjernes eller imputeres (erstattes med erstatningsværdier).

I pandas repræsenteres tomme celler som NaN. Mange ML-modeller vil give en fejl, hvis datasættet indeholder blot én NaN.

Kategoriske data

Datasættet indeholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.

Kategoriske data skal kodes til numerisk form.

Forskellige skalaer

'culmen_depth_mm' værdier spænder fra 13.1 til 21.5, mens 'body_mass_g' værdier spænder fra 2700 til 6300. På grund af dette kan nogle ML-modeller betragte 'body_mass_g'-egenskaben som meget vigtigere end 'culmen_depth_mm'.

Skalering løser dette problem. Det vil blive gennemgået i senere kapitler.

question-icon

Match problemet med en måde at løse det på.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 2
some-alt