Arbetsflöde för maskininlärning
Låt oss titta på arbetsflödet du skulle följa för att bygga ett framgångsrikt maskininlärningsprojekt.
Steg 1. Hämta data
Börja med att definiera problemet och identifiera vilken data som krävs. Välj en metrisk för att utvärdera prestanda och bestäm vilket resultat som anses vara tillfredsställande.
Samla sedan in data, ofta från flera källor såsom databaser, och omvandla den till ett format som är lämpligt för bearbetning i Python.
Om datan redan finns tillgänglig i en .csv
-fil kan förbehandlingen påbörjas omedelbart, och detta steg kan hoppas över.
Exempel
Ett sjukhus tillhandahåller historiska patientjournaler från sin databas tillsammans med demografisk information från en nationell hälsodatabas, sammanställt i en CSV-fil. Uppgiften är att förutsäga återinläggningar av patienter, med noggrannhet över 80% definierat som målmetrik för tillfredsställande prestanda.
Steg 2. Förbehandla data
Detta steg består av:
- Datastädning: hantering av saknade värden, icke-numerisk data, etc;
- Explorativ dataanalys (EDA): analys och visualisering av datasetet för att hitta mönster och samband mellan variabler och generellt få insikter om hur träningsmängden kan förbättras;
- Feature Engineering: val, omvandling eller skapande av nya variabler baserat på EDA-insikter för att förbättra modellens prestanda.
Exempel
I sjukhusets dataset kan saknade värden för nyckelmetrik såsom blodtryck fyllas i, och kategoriska variabler såsom ras kan omvandlas till numeriska koder för analys.
Steg 3. Modellering
Detta steg inkluderar:
- Val av modell: urval av en eller flera modeller som är mest lämpliga för problemet, baserat på algoritmens egenskaper och experimentella resultat;
- Justering av hyperparametrar: anpassning av hyperparametrar för att uppnå bästa möjliga prestanda.
Tänk på hyperparametrar som rattar och reglage på en maskin som du kan justera för att styra hur den fungerar. Inom maskininlärning är dessa "rattar och reglage" inställningar (värden) som en data scientist justerar innan de börjar träna sin modell. Till exempel kan hyperparametrar inkludera hur länge modellen ska tränas eller hur detaljerad träningen ska vara.
- Utvärdering av modellen: mätning av prestanda på osedda data.
Exempel
En klassificeringsmodell väljs för att förutsäga återinläggningar av patienter, vilket passar binära utfall (återinlagd eller inte). Dess hyperparametrar justeras för att optimera prestandan. Slutligen genomförs utvärdering på en separat validerings- eller testuppsättning för att kontrollera hur väl modellen generaliserar utöver träningsdatan.
Steg 4. Driftsättning
Efter att ha erhållit en finjusterad modell med tillfredsställande prestanda är nästa steg driftsättning. Den driftsatta modellen måste kontinuerligt övervakas, förbättras vid behov och uppdateras med ny data när den blir tillgänglig. Denna process leder ofta tillbaka till Steg 1.
Exempel
När modellen förutsäger återinläggningar korrekt, integreras den i sjukhusets databassystem för att varna personal om högriskpatienter vid inläggning, vilket förbättrar patientvården.
Vissa av dessa termer som nämns här kan låta obekanta, men vi kommer att diskutera dem mer ingående senare i denna kurs.
Datapreprocessering och modellering kan utföras med biblioteket scikit-learn
(importerat som sklearn
). Följande kapitel fokuserar på grundläggande steg för datapreprocessering och konstruktion av pipelines. Modellering introduceras därefter med algoritmen k-nearest neighbors (KNeighborsClassifier
i sklearn
) som exempel. Detta omfattar att bygga modellen, justera hyperparametrar och utvärdera prestanda.
1. Vad är det primära syftet med steget "Hämta data" i ett maskininlärningsprojekt?
2. Vilket av följande beskriver bäst vikten av steget "Datapreprocessering" i arbetsflödet för ett maskininlärningsprojekt?
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Can you explain more about the data preprocessing steps?
What is feature engineering and why is it important?
How does the k-nearest neighbors algorithm work in this context?
Awesome!
Completion rate improved to 3.13
Arbetsflöde för maskininlärning
Svep för att visa menyn
Låt oss titta på arbetsflödet du skulle följa för att bygga ett framgångsrikt maskininlärningsprojekt.
Steg 1. Hämta data
Börja med att definiera problemet och identifiera vilken data som krävs. Välj en metrisk för att utvärdera prestanda och bestäm vilket resultat som anses vara tillfredsställande.
Samla sedan in data, ofta från flera källor såsom databaser, och omvandla den till ett format som är lämpligt för bearbetning i Python.
Om datan redan finns tillgänglig i en .csv
-fil kan förbehandlingen påbörjas omedelbart, och detta steg kan hoppas över.
Exempel
Ett sjukhus tillhandahåller historiska patientjournaler från sin databas tillsammans med demografisk information från en nationell hälsodatabas, sammanställt i en CSV-fil. Uppgiften är att förutsäga återinläggningar av patienter, med noggrannhet över 80% definierat som målmetrik för tillfredsställande prestanda.
Steg 2. Förbehandla data
Detta steg består av:
- Datastädning: hantering av saknade värden, icke-numerisk data, etc;
- Explorativ dataanalys (EDA): analys och visualisering av datasetet för att hitta mönster och samband mellan variabler och generellt få insikter om hur träningsmängden kan förbättras;
- Feature Engineering: val, omvandling eller skapande av nya variabler baserat på EDA-insikter för att förbättra modellens prestanda.
Exempel
I sjukhusets dataset kan saknade värden för nyckelmetrik såsom blodtryck fyllas i, och kategoriska variabler såsom ras kan omvandlas till numeriska koder för analys.
Steg 3. Modellering
Detta steg inkluderar:
- Val av modell: urval av en eller flera modeller som är mest lämpliga för problemet, baserat på algoritmens egenskaper och experimentella resultat;
- Justering av hyperparametrar: anpassning av hyperparametrar för att uppnå bästa möjliga prestanda.
Tänk på hyperparametrar som rattar och reglage på en maskin som du kan justera för att styra hur den fungerar. Inom maskininlärning är dessa "rattar och reglage" inställningar (värden) som en data scientist justerar innan de börjar träna sin modell. Till exempel kan hyperparametrar inkludera hur länge modellen ska tränas eller hur detaljerad träningen ska vara.
- Utvärdering av modellen: mätning av prestanda på osedda data.
Exempel
En klassificeringsmodell väljs för att förutsäga återinläggningar av patienter, vilket passar binära utfall (återinlagd eller inte). Dess hyperparametrar justeras för att optimera prestandan. Slutligen genomförs utvärdering på en separat validerings- eller testuppsättning för att kontrollera hur väl modellen generaliserar utöver träningsdatan.
Steg 4. Driftsättning
Efter att ha erhållit en finjusterad modell med tillfredsställande prestanda är nästa steg driftsättning. Den driftsatta modellen måste kontinuerligt övervakas, förbättras vid behov och uppdateras med ny data när den blir tillgänglig. Denna process leder ofta tillbaka till Steg 1.
Exempel
När modellen förutsäger återinläggningar korrekt, integreras den i sjukhusets databassystem för att varna personal om högriskpatienter vid inläggning, vilket förbättrar patientvården.
Vissa av dessa termer som nämns här kan låta obekanta, men vi kommer att diskutera dem mer ingående senare i denna kurs.
Datapreprocessering och modellering kan utföras med biblioteket scikit-learn
(importerat som sklearn
). Följande kapitel fokuserar på grundläggande steg för datapreprocessering och konstruktion av pipelines. Modellering introduceras därefter med algoritmen k-nearest neighbors (KNeighborsClassifier
i sklearn
) som exempel. Detta omfattar att bygga modellen, justera hyperparametrar och utvärdera prestanda.
1. Vad är det primära syftet med steget "Hämta data" i ett maskininlärningsprojekt?
2. Vilket av följande beskriver bäst vikten av steget "Datapreprocessering" i arbetsflödet för ett maskininlärningsprojekt?
Tack för dina kommentarer!