Arbeidsflyt for maskinlæring
La oss se på arbeidsflyten du vil følge for å bygge et vellykket maskinlæringsprosjekt.
Steg 1. Skaff dataene
Start med å definere problemet og identifisere hvilke data som kreves. Velg en metrikk for å evaluere ytelsen og bestem hvilket resultat som skal anses som tilfredsstillende.
Deretter samles dataene inn, ofte fra flere kilder som databaser, og bringes inn i et format som egner seg for behandling i Python.
Hvis dataene allerede er tilgjengelige i en .csv
-fil, kan forbehandlingen starte umiddelbart, og dette steget kan hoppes over.
Eksempel
Et sykehus gir historiske pasientjournaler fra sin database sammen med demografisk informasjon fra en nasjonal helsedatabase, samlet i en CSV-fil. Oppgaven er å forutsi pasientinnleggelser på nytt, med nøyaktighet over 80 % definert som mål for tilfredsstillende ytelse.
Steg 2. Forbehandle dataene
Dette steget består av:
- Datavask: håndtering av manglende verdier, ikke-numeriske data, osv;
- Utforskende dataanalyse (EDA): analysere og visualisere datasettet for å finne mønstre og sammenhenger mellom variabler, og generelt få innsikt i hvordan treningssettet kan forbedres;
- Feature engineering: velge, transformere eller lage nye variabler basert på innsikt fra EDA for å forbedre modellens ytelse.
Eksempel
I sykehusdatasettet kan manglende verdier for nøkkelparametere som blodtrykk fylles inn, og kategoriske variabler som rase kan konverteres til numeriske koder for analyse.
Steg 3. Modellering
Dette steget inkluderer:
- Valg av modell: velge én eller flere modeller som er mest egnet for problemet, basert på algoritmens egenskaper og eksperimentelle resultater;
- Justering av hyperparametere: tilpasse hyperparametere for å oppnå best mulig ytelse.
Tenk på hyperparametere som knotter og brytere på en maskin som du kan justere for å kontrollere hvordan den fungerer. I maskinlæring er disse "knottene og bryterne" innstillinger (verdier) som en dataforsker justerer før de begynner å trene modellen sin. For eksempel kan hyperparametere inkludere hvor lenge modellen skal trenes eller hvor detaljert treningen skal være.
- Evaluering av modellen: måling av ytelse på ukjente data.
Eksempel
En klassifiseringsmodell velges for å forutsi pasientinnleggelser, noe som passer for binære utfall (gjeninnlagt eller ikke). Dens hyperparametere justeres for å optimalisere ytelsen. Til slutt gjennomføres evaluering på et separat validerings- eller testsett for å sjekke hvor godt modellen generaliserer utover treningsdataene.
Steg 4. Distribusjon
Etter å ha oppnådd en finjustert modell med tilfredsstillende ytelse, er neste steg distribusjon. Den distribuerte modellen må kontinuerlig overvåkes, forbedres ved behov, og oppdateres med nye data etter hvert som de blir tilgjengelige. Denne prosessen fører ofte tilbake til Steg 1.
Eksempel
Når modellen forutsier reinnleggelser nøyaktig, blir den integrert i sykehusets databasesystem for å varsle ansatte om pasienter med høy risiko ved innleggelse, noe som forbedrer pasientbehandlingen.
Noen av begrepene som er nevnt her kan virke ukjente, men vi vil gå nærmere inn på dem senere i kurset.
Dataprosessering og modellering kan utføres med scikit-learn
-biblioteket (importert som sklearn
). De følgende kapitlene fokuserer på grunnleggende prosesseringssteg og oppbygging av pipelines. Modellering introduseres deretter ved bruk av k-nærmeste naboer-algoritmen (KNeighborsClassifier
i sklearn
) som et eksempel. Dette dekker bygging av modellen, justering av hyperparametere og evaluering av ytelse.
1. Hva er hovedformålet med steget «Hent data» i et maskinlæringsprosjekt?
2. Hvilket av følgende beskriver best viktigheten av steget «Dataprosessering» i arbeidsflyten for et maskinlæringsprosjekt?
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Can you explain more about the data preprocessing steps?
What is feature engineering and why is it important?
How does the k-nearest neighbors algorithm work in this context?
Awesome!
Completion rate improved to 3.13
Arbeidsflyt for maskinlæring
Sveip for å vise menyen
La oss se på arbeidsflyten du vil følge for å bygge et vellykket maskinlæringsprosjekt.
Steg 1. Skaff dataene
Start med å definere problemet og identifisere hvilke data som kreves. Velg en metrikk for å evaluere ytelsen og bestem hvilket resultat som skal anses som tilfredsstillende.
Deretter samles dataene inn, ofte fra flere kilder som databaser, og bringes inn i et format som egner seg for behandling i Python.
Hvis dataene allerede er tilgjengelige i en .csv
-fil, kan forbehandlingen starte umiddelbart, og dette steget kan hoppes over.
Eksempel
Et sykehus gir historiske pasientjournaler fra sin database sammen med demografisk informasjon fra en nasjonal helsedatabase, samlet i en CSV-fil. Oppgaven er å forutsi pasientinnleggelser på nytt, med nøyaktighet over 80 % definert som mål for tilfredsstillende ytelse.
Steg 2. Forbehandle dataene
Dette steget består av:
- Datavask: håndtering av manglende verdier, ikke-numeriske data, osv;
- Utforskende dataanalyse (EDA): analysere og visualisere datasettet for å finne mønstre og sammenhenger mellom variabler, og generelt få innsikt i hvordan treningssettet kan forbedres;
- Feature engineering: velge, transformere eller lage nye variabler basert på innsikt fra EDA for å forbedre modellens ytelse.
Eksempel
I sykehusdatasettet kan manglende verdier for nøkkelparametere som blodtrykk fylles inn, og kategoriske variabler som rase kan konverteres til numeriske koder for analyse.
Steg 3. Modellering
Dette steget inkluderer:
- Valg av modell: velge én eller flere modeller som er mest egnet for problemet, basert på algoritmens egenskaper og eksperimentelle resultater;
- Justering av hyperparametere: tilpasse hyperparametere for å oppnå best mulig ytelse.
Tenk på hyperparametere som knotter og brytere på en maskin som du kan justere for å kontrollere hvordan den fungerer. I maskinlæring er disse "knottene og bryterne" innstillinger (verdier) som en dataforsker justerer før de begynner å trene modellen sin. For eksempel kan hyperparametere inkludere hvor lenge modellen skal trenes eller hvor detaljert treningen skal være.
- Evaluering av modellen: måling av ytelse på ukjente data.
Eksempel
En klassifiseringsmodell velges for å forutsi pasientinnleggelser, noe som passer for binære utfall (gjeninnlagt eller ikke). Dens hyperparametere justeres for å optimalisere ytelsen. Til slutt gjennomføres evaluering på et separat validerings- eller testsett for å sjekke hvor godt modellen generaliserer utover treningsdataene.
Steg 4. Distribusjon
Etter å ha oppnådd en finjustert modell med tilfredsstillende ytelse, er neste steg distribusjon. Den distribuerte modellen må kontinuerlig overvåkes, forbedres ved behov, og oppdateres med nye data etter hvert som de blir tilgjengelige. Denne prosessen fører ofte tilbake til Steg 1.
Eksempel
Når modellen forutsier reinnleggelser nøyaktig, blir den integrert i sykehusets databasesystem for å varsle ansatte om pasienter med høy risiko ved innleggelse, noe som forbedrer pasientbehandlingen.
Noen av begrepene som er nevnt her kan virke ukjente, men vi vil gå nærmere inn på dem senere i kurset.
Dataprosessering og modellering kan utføres med scikit-learn
-biblioteket (importert som sklearn
). De følgende kapitlene fokuserer på grunnleggende prosesseringssteg og oppbygging av pipelines. Modellering introduseres deretter ved bruk av k-nærmeste naboer-algoritmen (KNeighborsClassifier
i sklearn
) som et eksempel. Dette dekker bygging av modellen, justering av hyperparametere og evaluering av ytelse.
1. Hva er hovedformålet med steget «Hent data» i et maskinlæringsprosjekt?
2. Hvilket av følgende beskriver best viktigheten av steget «Dataprosessering» i arbeidsflyten for et maskinlæringsprosjekt?
Takk for tilbakemeldingene dine!