Datatyper
Hver kolonne (feature) i et træningssæt har en datatype tilknyttet. Disse datatyper kan grupperes i numeriske, kategoriske og dato og(/eller) tid.
De fleste ML-algoritmer fungerer kun godt med numeriske data, så kategoriske og datetime-værdier skal konverteres til tal.
For dato og tid kan features som 'year'
, 'month'
og lignende udtrækkes, afhængigt af opgaven. Disse er allerede numeriske værdier, så de kan bruges direkte.
Kategoriske data er lidt mere udfordrende at håndtere.
Typer af kategoriske data
Kategoriske data klassificeres i to typer:
-
Ordinal data er en type kategoriske data, hvor kategorierne følger en naturlig rækkefølge. For eksempel uddannelsesniveau (fra folkeskole til ph.d.) eller vurderinger (fra meget dårlig til meget god) osv.;
-
Nominale data er en type kategoriske data, der ikke følger nogen naturlig rækkefølge. For eksempel navn, køn, oprindelsesland osv.
Konvertering af ordinal og nominale datatyper til numeriske værdier kræver forskellige tilgange, så de skal behandles hver for sig.
Der findes bedre metoder til at konvertere datoer til numeriske værdier, som ligger uden for dette introduktionskursus' rammer. For eksempel, hvis vi kun bruger egenskaben 'month'
, tager det ikke højde for, at 12. måned faktisk er tættere på 1. end på 9..
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain how to convert ordinal data into numerical values?
What are the common methods for encoding nominal data?
Why do machine learning algorithms require numerical data?
Awesome!
Completion rate improved to 3.13
Datatyper
Stryg for at vise menuen
Hver kolonne (feature) i et træningssæt har en datatype tilknyttet. Disse datatyper kan grupperes i numeriske, kategoriske og dato og(/eller) tid.
De fleste ML-algoritmer fungerer kun godt med numeriske data, så kategoriske og datetime-værdier skal konverteres til tal.
For dato og tid kan features som 'year'
, 'month'
og lignende udtrækkes, afhængigt af opgaven. Disse er allerede numeriske værdier, så de kan bruges direkte.
Kategoriske data er lidt mere udfordrende at håndtere.
Typer af kategoriske data
Kategoriske data klassificeres i to typer:
-
Ordinal data er en type kategoriske data, hvor kategorierne følger en naturlig rækkefølge. For eksempel uddannelsesniveau (fra folkeskole til ph.d.) eller vurderinger (fra meget dårlig til meget god) osv.;
-
Nominale data er en type kategoriske data, der ikke følger nogen naturlig rækkefølge. For eksempel navn, køn, oprindelsesland osv.
Konvertering af ordinal og nominale datatyper til numeriske værdier kræver forskellige tilgange, så de skal behandles hver for sig.
Der findes bedre metoder til at konvertere datoer til numeriske værdier, som ligger uden for dette introduktionskursus' rammer. For eksempel, hvis vi kun bruger egenskaben 'month'
, tager det ikke højde for, at 12. måned faktisk er tættere på 1. end på 9..
Tak for dine kommentarer!