Træningssæt
I overvåget eller ikke-overvåget læring præsenteres træningssættet typisk i tabelformat.
Et eksempel er diabetes-datasættet, som bruges til at forudsige, om en person har diabetes. Det indeholder registreringer af 768 kvinder med parametre såsom alder, body mass index og blodtryk. Disse parametre kaldes features.
Datasættet indeholder også en 'Outcome'
-kolonne, der angiver, om personen har diabetes. Dette er den target-variabel.
Hver række i tabellen er en instance (også kaldet et data point eller en sample), der repræsenterer information om et enkelt individ.
Tabellen (træningssættet) har en target-kolonne, hvilket betyder, at den er mærket.
Opgaven er at træne ML-modellen på dette træningssæt, og når den er trænet, kan den forudsige for andre personer (nye instances), om de har diabetes baseret udelukkende på features.
Dette træningssæt er et eksempel på et biased datasæt, da det udelukkende indeholder information om kvinder, der er mindst 21 år gamle. Derfor kan modellen give mindre præcise forudsigelser for mænd eller for kvinder under 21, da den ikke er blevet trænet på disse grupper.
Ved kodning tildeles feature-kolonner normalt til X
, og target-kolonner tildeles som y
.
Og features for nye instanser tildeles som X_new
.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
What is the difference between features and the target variable?
Can you explain what X, y, and X_new represent in machine learning?
How does the model use X_new to make predictions?
Awesome!
Completion rate improved to 3.13
Træningssæt
Stryg for at vise menuen
I overvåget eller ikke-overvåget læring præsenteres træningssættet typisk i tabelformat.
Et eksempel er diabetes-datasættet, som bruges til at forudsige, om en person har diabetes. Det indeholder registreringer af 768 kvinder med parametre såsom alder, body mass index og blodtryk. Disse parametre kaldes features.
Datasættet indeholder også en 'Outcome'
-kolonne, der angiver, om personen har diabetes. Dette er den target-variabel.
Hver række i tabellen er en instance (også kaldet et data point eller en sample), der repræsenterer information om et enkelt individ.
Tabellen (træningssættet) har en target-kolonne, hvilket betyder, at den er mærket.
Opgaven er at træne ML-modellen på dette træningssæt, og når den er trænet, kan den forudsige for andre personer (nye instances), om de har diabetes baseret udelukkende på features.
Dette træningssæt er et eksempel på et biased datasæt, da det udelukkende indeholder information om kvinder, der er mindst 21 år gamle. Derfor kan modellen give mindre præcise forudsigelser for mænd eller for kvinder under 21, da den ikke er blevet trænet på disse grupper.
Ved kodning tildeles feature-kolonner normalt til X
, og target-kolonner tildeles som y
.
Og features for nye instanser tildeles som X_new
.
Tak for dine kommentarer!