Lära Träningsuppsättning | Maskininlärningskoncept

Svep för att visa menyn

Vid övervakad eller oövervakad inlärning presenteras träningsuppsättningen vanligtvis i tabellformat.

Ett exempel är diabetesdatasetet, som används för att förutsäga om en person har diabetes. Det innehåller poster för 768 kvinnor med parametrar såsom ålder, kroppsmassaindex och blodtryck. Dessa parametrar kallas funktioner.

Datasetet innehåller också en 'Outcome'-kolumn som anger om personen har diabetes. Detta är den målvariabel.

Varje rad i tabellen är en instans (även kallad datapunkt eller prov), som representerar information om en enskild individ.

Tabellen (träningsuppsättningen) har en målkolumn, vilket innebär att den är märkt.

Uppgiften är att träna ML-modellen på denna träningsuppsättning, och när den är tränad kan den förutsäga för andra personer (nya instanser) om de har diabetes baserat endast på funktionerna.

Notering

Denna träningsuppsättning är ett exempel på en snedvriden datamängd eftersom den uteslutande innehåller information om kvinnor som är minst 21 år gamla. Därför kan modellen ge mindre exakta förutsägelser för män eller för kvinnor under 21, eftersom den inte har tränats på dessa grupper.

Vid kodning tilldelas funktionskolumner vanligtvis till X och målkolumner tilldelas som y.

Och egenskaperna för nya instanser tilldelas som X_new.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 3

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 1. Kapitel 3