Träningsmängd
Vid övervakad eller oövervakad inlärning presenteras träningsuppsättningen vanligtvis i tabellformat.
Ett exempel är diabetesdatasetet, som används för att förutsäga om en person har diabetes. Det innehåller poster om 768 kvinnor med parametrar såsom ålder, kroppsmassaindex och blodtryck. Dessa parametrar kallas funktioner.
Datasetet innehåller även en 'Outcome'
-kolumn som anger om personen har diabetes. Detta är den målvariabel.
Varje rad i tabellen är en instans (även kallad datapunkt eller prov), som representerar information om en enskild individ.
Tabellen (träningsuppsättningen) har en målkolumn, vilket innebär att den är märkt.
Uppgiften är att träna ML-modellen på denna träningsuppsättning, och när den är tränad kan den förutsäga för andra personer (nya instanser) om de har diabetes baserat enbart på funktionerna.
Denna träningsuppsättning är ett exempel på ett partiskt dataset eftersom det uteslutande innehåller information om kvinnor som är minst 21 år gamla. Därför kan modellen ge mindre exakta förutsägelser för män eller för kvinnor under 21, eftersom den inte har tränats på dessa grupper.
Vid kodning tilldelas funktionskolumner vanligtvis till X
och målkolumner tilldelas som y
.
Och egenskaper för nya instanser tilldelas som X_new
.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 3.13
Träningsmängd
Svep för att visa menyn
Vid övervakad eller oövervakad inlärning presenteras träningsuppsättningen vanligtvis i tabellformat.
Ett exempel är diabetesdatasetet, som används för att förutsäga om en person har diabetes. Det innehåller poster om 768 kvinnor med parametrar såsom ålder, kroppsmassaindex och blodtryck. Dessa parametrar kallas funktioner.
Datasetet innehåller även en 'Outcome'
-kolumn som anger om personen har diabetes. Detta är den målvariabel.
Varje rad i tabellen är en instans (även kallad datapunkt eller prov), som representerar information om en enskild individ.
Tabellen (träningsuppsättningen) har en målkolumn, vilket innebär att den är märkt.
Uppgiften är att träna ML-modellen på denna träningsuppsättning, och när den är tränad kan den förutsäga för andra personer (nya instanser) om de har diabetes baserat enbart på funktionerna.
Denna träningsuppsättning är ett exempel på ett partiskt dataset eftersom det uteslutande innehåller information om kvinnor som är minst 21 år gamla. Därför kan modellen ge mindre exakta förutsägelser för män eller för kvinnor under 21, eftersom den inte har tränats på dessa grupper.
Vid kodning tilldelas funktionskolumner vanligtvis till X
och målkolumner tilldelas som y
.
Och egenskaper för nya instanser tilldelas som X_new
.
Tack för dina kommentarer!