Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Tutustuminen Aineistoon | Datan Esikäsittely Scikit-learnilla
Koneoppimisen Perusteet Scikit-learnilla

bookTutustuminen Aineistoon

Aloita esikäsittely tutustumalla aineistoon. Tämän kurssin aikana käytetään pingviiniaineistoa, jonka tavoitteena on ennustaa pingviinin lajia.

Mahdollisia vaihtoehtoja on kolme, joita kutsutaan koneoppimisessa usein luokiksi:

Ominaisuudet ovat: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' ja 'sex'.

Aineisto on tallennettu tiedostoon penguins.csv. Sen voi ladata linkistä pd.read_csv() -funktiolla ja tarkastella sisältöä:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Tässä tietoaineistossa on useita ongelmia, jotka täytyy ratkaista:

  • Puuttuvat tiedot;
  • Kategoriset muuttujat;
  • Eri mittakaavat ominaisuuksissa.

Puuttuvat tiedot

Useimmat koneoppimisalgoritmit eivät pysty käsittelemään puuttuvia arvoja suoraan, joten ne täytyy käsitellä ennen mallin koulutusta. Puuttuvat arvot voidaan joko poistaa tai imputoida (korvata sijaisarvoilla).

pandas-kirjastossa tyhjät solut esitetään arvolla NaN. Monet koneoppimismallit aiheuttavat virheen, jos tietoaineistossa on yksikin NaN-arvo.

Kategoriset tiedot

Aineisto sisältää kategorisia muuttujia, joita koneoppimismallit eivät pysty käsittelemään suoraan.

Kategoriset tiedot on koodattava numeeriseen muotoon.

Eri asteikot

'culmen_depth_mm'-arvot vaihtelevat välillä 13.1–21.5, kun taas 'body_mass_g'-arvot vaihtelevat välillä 2700–6300. Tämän vuoksi jotkin koneoppimismallit saattavat pitää 'body_mass_g'-ominaisuutta paljon tärkeämpänä kuin 'culmen_depth_mm'-ominaisuutta.

Skaalaus ratkaisee tämän ongelman. Se käsitellään myöhemmissä luvuissa.

question-icon

Yhdistä ongelma ratkaisukeinoon.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 2

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 3.13

bookTutustuminen Aineistoon

Pyyhkäise näyttääksesi valikon

Aloita esikäsittely tutustumalla aineistoon. Tämän kurssin aikana käytetään pingviiniaineistoa, jonka tavoitteena on ennustaa pingviinin lajia.

Mahdollisia vaihtoehtoja on kolme, joita kutsutaan koneoppimisessa usein luokiksi:

Ominaisuudet ovat: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' ja 'sex'.

Aineisto on tallennettu tiedostoon penguins.csv. Sen voi ladata linkistä pd.read_csv() -funktiolla ja tarkastella sisältöä:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Tässä tietoaineistossa on useita ongelmia, jotka täytyy ratkaista:

  • Puuttuvat tiedot;
  • Kategoriset muuttujat;
  • Eri mittakaavat ominaisuuksissa.

Puuttuvat tiedot

Useimmat koneoppimisalgoritmit eivät pysty käsittelemään puuttuvia arvoja suoraan, joten ne täytyy käsitellä ennen mallin koulutusta. Puuttuvat arvot voidaan joko poistaa tai imputoida (korvata sijaisarvoilla).

pandas-kirjastossa tyhjät solut esitetään arvolla NaN. Monet koneoppimismallit aiheuttavat virheen, jos tietoaineistossa on yksikin NaN-arvo.

Kategoriset tiedot

Aineisto sisältää kategorisia muuttujia, joita koneoppimismallit eivät pysty käsittelemään suoraan.

Kategoriset tiedot on koodattava numeeriseen muotoon.

Eri asteikot

'culmen_depth_mm'-arvot vaihtelevat välillä 13.1–21.5, kun taas 'body_mass_g'-arvot vaihtelevat välillä 2700–6300. Tämän vuoksi jotkin koneoppimismallit saattavat pitää 'body_mass_g'-ominaisuutta paljon tärkeämpänä kuin 'culmen_depth_mm'-ominaisuutta.

Skaalaus ratkaisee tämän ongelman. Se käsitellään myöhemmissä luvuissa.

question-icon

Yhdistä ongelma ratkaisukeinoon.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 2
some-alt