Datatyper
Hver kolonne (funksjon) i et treningssett har en tilknyttet datatype. Disse datatypene kan grupperes i numeriske, kategoriske og dato og/eller tid.
De fleste ML-algoritmer fungerer godt kun med numeriske data, så kategoriske og dato-/tid-verdier må konverteres til tall.
For dato og tid kan funksjoner som 'year'
, 'month'
og lignende trekkes ut, avhengig av oppgaven. Disse er allerede numeriske verdier, så de kan brukes direkte.
Kategoriske data er litt mer utfordrende å håndtere.
Typer av kategoriske data
Kategoriske data deles inn i to typer:
-
Ordinal data er en type kategoriske data der kategoriene følger en naturlig rekkefølge. For eksempel utdanningsnivå (fra barneskole til Ph.D.) eller vurderinger (fra svært dårlig til svært bra), osv.;
-
Nominale data er en type kategoriske data som ikke følger noen naturlig rekkefølge. For eksempel navn, kjønn, opprinnelsesland, osv.
Konvertering av ordinale og nominale datatyper til numeriske verdier krever ulike tilnærminger, så de må behandles separat.
Det finnes bedre måter å konvertere datoer til numeriske verdier på, som ligger utenfor rammen for dette introduksjonskurset. For eksempel, hvis vi kun bruker 'month'
-funksjonen, tar det ikke hensyn til at 12. måned faktisk er nærmere 1. enn 9..
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 3.13
Datatyper
Sveip for å vise menyen
Hver kolonne (funksjon) i et treningssett har en tilknyttet datatype. Disse datatypene kan grupperes i numeriske, kategoriske og dato og/eller tid.
De fleste ML-algoritmer fungerer godt kun med numeriske data, så kategoriske og dato-/tid-verdier må konverteres til tall.
For dato og tid kan funksjoner som 'year'
, 'month'
og lignende trekkes ut, avhengig av oppgaven. Disse er allerede numeriske verdier, så de kan brukes direkte.
Kategoriske data er litt mer utfordrende å håndtere.
Typer av kategoriske data
Kategoriske data deles inn i to typer:
-
Ordinal data er en type kategoriske data der kategoriene følger en naturlig rekkefølge. For eksempel utdanningsnivå (fra barneskole til Ph.D.) eller vurderinger (fra svært dårlig til svært bra), osv.;
-
Nominale data er en type kategoriske data som ikke følger noen naturlig rekkefølge. For eksempel navn, kjønn, opprinnelsesland, osv.
Konvertering av ordinale og nominale datatyper til numeriske verdier krever ulike tilnærminger, så de må behandles separat.
Det finnes bedre måter å konvertere datoer til numeriske verdier på, som ligger utenfor rammen for dette introduksjonskurset. For eksempel, hvis vi kun bruker 'month'
-funksjonen, tar det ikke hensyn til at 12. måned faktisk er nærmere 1. enn 9..
Takk for tilbakemeldingene dine!