Maskinlæringsarbejdsgang
Lad os se på arbejdsgangen, du ville følge for at opbygge et succesfuldt maskinlæringsprojekt.
Trin 1. Indsamling af data
Start med at definere problemet og identificere, hvilke data der er nødvendige. Vælg en metrik til at evaluere ydeevnen og fastlæg, hvilket resultat der anses for tilfredsstillende.
Indsaml derefter dataene, ofte fra flere kilder såsom databaser, og bring dem i et format, der er egnet til behandling i Python.
Hvis dataene allerede findes i en .csv
-fil, kan forbehandlingen begynde med det samme, og dette trin kan springes over.
Eksempel
Et hospital stiller historiske patientjournaler fra sin database til rådighed sammen med demografiske oplysninger fra en national sundhedsdatabase, samlet i en CSV-fil. Opgaven er at forudsige genindlæggelser af patienter, hvor nøjagtighed over 80% er defineret som den målemetrik, der anses for tilfredsstillende.
Trin 2. Forbehandling af data
Dette trin består af:
- Datavask: håndtering af manglende værdier, ikke-numeriske data osv.;
- Explorativ dataanalyse (EDA): analyse og visualisering af datasættet for at finde mønstre og relationer mellem variable og generelt opnå indsigt i, hvordan træningssættet kan forbedres;
- Feature Engineering: udvælgelse, transformation eller oprettelse af nye variable baseret på EDA-indsigter for at forbedre modellens ydeevne.
Eksempel
I hospitalsdatasættet kan manglende værdier for nøglemålinger såsom blodtryk udfyldes, og kategoriske variable såsom race kan konverteres til numeriske koder til analyse.
Trin 3. Modellering
Dette trin omfatter:
- Valg af model: udvælgelse af en eller flere modeller, der er mest egnede til problemet, baseret på algoritmens egenskaber og eksperimentelle resultater;
- Justering af hyperparametre: tilpasning af hyperparametre for at opnå den bedst mulige ydeevne.
Tænk på hyperparametre som knapper og drejeknapper på en maskine, som du kan justere for at kontrollere, hvordan den fungerer. I maskinlæring er disse "knapper og drejeknapper" indstillinger (værdier), som en data scientist justerer før de begynder at træne deres model. For eksempel kan hyperparametre omfatte, hvor længe modellen skal trænes, eller hvor detaljeret træningen skal være.
- Evaluering af modellen: måling af ydeevne på usete data.
Eksempel
En klassifikationsmodel vælges til at forudsige patientgenindlæggelser, hvilket passer til binære udfald (genindlagt eller ej). Dens hyperparametre justeres for at optimere ydeevnen. Endelig udføres evaluering på et separat validations- eller testdatasæt for at kontrollere, hvor godt modellen generaliserer ud over træningsdataene.
Trin 4. Implementering
Efter at have opnået en finjusteret model med tilfredsstillende ydeevne, er det næste skridt implementering. Den implementerede model skal løbende overvåges, forbedres når det er nødvendigt, og opdateres med nye data efterhånden som de bliver tilgængelige. Denne proces fører ofte tilbage til Trin 1.
Eksempel
Når modellen forudsiger genindlæggelser nøjagtigt, bliver den integreret i hospitalets databasesystem for at advare personalet om højrisikopatienter ved indlæggelse, hvilket forbedrer patientplejen.
Nogle af de begreber, der nævnes her, kan virke ukendte, men vi vil gennemgå dem mere detaljeret senere i dette kursus.
Datapræbehandling og modellering kan udføres med biblioteket scikit-learn
(importeret som sklearn
). De følgende kapitler fokuserer på grundlæggende præbehandlingsskridt og opbygning af pipelines. Modellering introduceres derefter ved hjælp af k-nearest neighbors-algoritmen (KNeighborsClassifier
i sklearn
) som eksempel. Dette omfatter opbygning af modellen, tuning af hyperparametre og evaluering af ydeevne.
1. Hvad er det primære formål med "Hent data"-trinnet i et maskinlæringsprojekt?
2. Hvilket af følgende beskriver bedst vigtigheden af "Datapræbehandling"-trinnet i en maskinlæringsprojektarbejdsgang?
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 3.13
Maskinlæringsarbejdsgang
Stryg for at vise menuen
Lad os se på arbejdsgangen, du ville følge for at opbygge et succesfuldt maskinlæringsprojekt.
Trin 1. Indsamling af data
Start med at definere problemet og identificere, hvilke data der er nødvendige. Vælg en metrik til at evaluere ydeevnen og fastlæg, hvilket resultat der anses for tilfredsstillende.
Indsaml derefter dataene, ofte fra flere kilder såsom databaser, og bring dem i et format, der er egnet til behandling i Python.
Hvis dataene allerede findes i en .csv
-fil, kan forbehandlingen begynde med det samme, og dette trin kan springes over.
Eksempel
Et hospital stiller historiske patientjournaler fra sin database til rådighed sammen med demografiske oplysninger fra en national sundhedsdatabase, samlet i en CSV-fil. Opgaven er at forudsige genindlæggelser af patienter, hvor nøjagtighed over 80% er defineret som den målemetrik, der anses for tilfredsstillende.
Trin 2. Forbehandling af data
Dette trin består af:
- Datavask: håndtering af manglende værdier, ikke-numeriske data osv.;
- Explorativ dataanalyse (EDA): analyse og visualisering af datasættet for at finde mønstre og relationer mellem variable og generelt opnå indsigt i, hvordan træningssættet kan forbedres;
- Feature Engineering: udvælgelse, transformation eller oprettelse af nye variable baseret på EDA-indsigter for at forbedre modellens ydeevne.
Eksempel
I hospitalsdatasættet kan manglende værdier for nøglemålinger såsom blodtryk udfyldes, og kategoriske variable såsom race kan konverteres til numeriske koder til analyse.
Trin 3. Modellering
Dette trin omfatter:
- Valg af model: udvælgelse af en eller flere modeller, der er mest egnede til problemet, baseret på algoritmens egenskaber og eksperimentelle resultater;
- Justering af hyperparametre: tilpasning af hyperparametre for at opnå den bedst mulige ydeevne.
Tænk på hyperparametre som knapper og drejeknapper på en maskine, som du kan justere for at kontrollere, hvordan den fungerer. I maskinlæring er disse "knapper og drejeknapper" indstillinger (værdier), som en data scientist justerer før de begynder at træne deres model. For eksempel kan hyperparametre omfatte, hvor længe modellen skal trænes, eller hvor detaljeret træningen skal være.
- Evaluering af modellen: måling af ydeevne på usete data.
Eksempel
En klassifikationsmodel vælges til at forudsige patientgenindlæggelser, hvilket passer til binære udfald (genindlagt eller ej). Dens hyperparametre justeres for at optimere ydeevnen. Endelig udføres evaluering på et separat validations- eller testdatasæt for at kontrollere, hvor godt modellen generaliserer ud over træningsdataene.
Trin 4. Implementering
Efter at have opnået en finjusteret model med tilfredsstillende ydeevne, er det næste skridt implementering. Den implementerede model skal løbende overvåges, forbedres når det er nødvendigt, og opdateres med nye data efterhånden som de bliver tilgængelige. Denne proces fører ofte tilbage til Trin 1.
Eksempel
Når modellen forudsiger genindlæggelser nøjagtigt, bliver den integreret i hospitalets databasesystem for at advare personalet om højrisikopatienter ved indlæggelse, hvilket forbedrer patientplejen.
Nogle af de begreber, der nævnes her, kan virke ukendte, men vi vil gennemgå dem mere detaljeret senere i dette kursus.
Datapræbehandling og modellering kan udføres med biblioteket scikit-learn
(importeret som sklearn
). De følgende kapitler fokuserer på grundlæggende præbehandlingsskridt og opbygning af pipelines. Modellering introduceres derefter ved hjælp af k-nearest neighbors-algoritmen (KNeighborsClassifier
i sklearn
) som eksempel. Dette omfatter opbygning af modellen, tuning af hyperparametre og evaluering af ydeevne.
1. Hvad er det primære formål med "Hent data"-trinnet i et maskinlæringsprojekt?
2. Hvilket af følgende beskriver bedst vigtigheden af "Datapræbehandling"-trinnet i en maskinlæringsprojektarbejdsgang?
Tak for dine kommentarer!