Datan Tyypit
Jokaisella koulutusjoukon sarakkeella (ominaisuudella) on siihen liittyvä tietotyyppi. Nämä tietotyypit voidaan ryhmitellä numeerisiin, kategorisiin sekä päivämäärä- ja/tai aika -tyyppeihin.
Useimmat koneoppimisalgoritmit toimivat hyvin vain numeerisen datan kanssa, joten kategoriset ja aika-arvot täytyy muuntaa numeroiksi.
Päivämäärä- ja aika-arvoista voidaan tarpeen mukaan poimia ominaisuuksia, kuten 'year'
, 'month'
ja vastaavat. Nämä ovat jo numeerisia arvoja, joten niitä voidaan käyttää suoraan.
Kategorisen datan käsittely on hieman haastavampaa.
Kategorisen datan tyypit
Kategorinen data jaetaan kahteen tyyppiin:
-
Ordinaalinen data on kategorista dataa, jossa kategoriat ovat luonnollisessa järjestyksessä. Esimerkiksi koulutustaso (alakoulusta tohtorintutkintoon) tai arviot (erittäin huono – erittäin hyvä) jne.;
-
Nominaalinen data on kategorista dataa, jossa ei ole luonnollista järjestystä. Esimerkiksi nimi, sukupuoli, kotimaa jne.
Ordinaalisen ja nominaalisen datan muuntaminen numeerisiksi arvoiksi vaatii erilaisia lähestymistapoja, joten ne tulee käsitellä erikseen.
On olemassa parempia tapoja muuntaa päivämääriä numeerisiksi arvoiksi, mutta ne eivät kuulu tämän johdantokurssin piiriin. Esimerkiksi, jos käytämme vain 'month'
-ominaisuutta, se ei huomioi sitä, että 12. kuukausi on todellisuudessa lähempänä 1. kuin 9. kuukautta.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain how to convert ordinal data into numerical values?
What are the common methods for encoding nominal data?
Why do machine learning algorithms require numerical data?
Awesome!
Completion rate improved to 3.13
Datan Tyypit
Pyyhkäise näyttääksesi valikon
Jokaisella koulutusjoukon sarakkeella (ominaisuudella) on siihen liittyvä tietotyyppi. Nämä tietotyypit voidaan ryhmitellä numeerisiin, kategorisiin sekä päivämäärä- ja/tai aika -tyyppeihin.
Useimmat koneoppimisalgoritmit toimivat hyvin vain numeerisen datan kanssa, joten kategoriset ja aika-arvot täytyy muuntaa numeroiksi.
Päivämäärä- ja aika-arvoista voidaan tarpeen mukaan poimia ominaisuuksia, kuten 'year'
, 'month'
ja vastaavat. Nämä ovat jo numeerisia arvoja, joten niitä voidaan käyttää suoraan.
Kategorisen datan käsittely on hieman haastavampaa.
Kategorisen datan tyypit
Kategorinen data jaetaan kahteen tyyppiin:
-
Ordinaalinen data on kategorista dataa, jossa kategoriat ovat luonnollisessa järjestyksessä. Esimerkiksi koulutustaso (alakoulusta tohtorintutkintoon) tai arviot (erittäin huono – erittäin hyvä) jne.;
-
Nominaalinen data on kategorista dataa, jossa ei ole luonnollista järjestystä. Esimerkiksi nimi, sukupuoli, kotimaa jne.
Ordinaalisen ja nominaalisen datan muuntaminen numeerisiksi arvoiksi vaatii erilaisia lähestymistapoja, joten ne tulee käsitellä erikseen.
On olemassa parempia tapoja muuntaa päivämääriä numeerisiksi arvoiksi, mutta ne eivät kuulu tämän johdantokurssin piiriin. Esimerkiksi, jos käytämme vain 'month'
-ominaisuutta, se ei huomioi sitä, että 12. kuukausi on todellisuudessa lähempänä 1. kuin 9. kuukautta.
Kiitos palautteestasi!