Impara Flusso di Lavoro del Machine Learning | Concetti di Machine Learning

Esaminiamo il flusso di lavoro necessario per sviluppare con successo un progetto di machine learning.

Passaggio 1. Ottenere i dati

Definizione del problema, scelta di una metrica di performance e determinazione di cosa costituisce un buon risultato. Successivamente, raccolta dei dati necessari dalle fonti disponibili e conversione in un formato pronto per Python. Se i dati sono già disponibili in un file CSV, la fase di pre-elaborazione può iniziare immediatamente.

Esempio

Un ospedale raccoglie le cartelle cliniche e i dati demografici dei pazienti in un file CSV. L'obiettivo è prevedere i ricoveri ripetuti, puntando a una precisione superiore all'80%.

Passaggio 2. Pre-elaborazione dei dati

Questa fase include:

Pulizia dei dati: gestione dei valori mancanti e degli input non numerici;
EDA: analisi ed esplorazione visiva dei dati per comprendere le relazioni e individuare eventuali problemi;
Feature engineering: selezione o creazione di caratteristiche che migliorano le prestazioni del modello.

Esempio

I valori mancanti (ad esempio, pressione sanguigna) vengono riempiti e le caratteristiche categoriche (ad esempio, razza) vengono convertite in formato numerico.

Passaggio 3. Modellizzazione

Questa fase include:

Scelta di un modello in base al tipo di problema e agli esperimenti;
Ottimizzazione degli iperparametri per migliorare le prestazioni;
Valutazione del modello su dati non visti.

Approfondisci

Gli iperparametri sono come controlli regolabili che definiscono come il modello si allena—ad esempio la durata dell'addestramento o la complessità del modello.

Esempio

Un modello di classificazione viene selezionato per prevedere la riammissione (sì/no). Dopo l'ottimizzazione, viene valutato su un set di validazione/test per valutare la generalizzazione.

Passaggio 4. Distribuzione

Quando un modello offre buone prestazioni, viene distribuito nei sistemi reali. Il modello deve essere monitorato, aggiornato con nuovi dati e migliorato nel tempo, spesso ricominciando il ciclo dal Passaggio 1.

Esempio

Il modello viene integrato nel sistema ospedaliero per segnalare i pazienti ad alto rischio al momento dell'ammissione, aiutando il personale ad agire tempestivamente.

Nota

Alcuni dei termini menzionati qui potrebbero risultare poco familiari, ma li approfondiremo più avanti in questo corso.

La pre-elaborazione dei dati e la modellazione possono essere effettuate con scikit-learn. I prossimi capitoli introducono i flussi di lavoro di pre-elaborazione e le pipeline, seguiti dalla modellazione tramite k-nearest neighbors (KNeighborsClassifier), inclusi addestramento, ottimizzazione e valutazione.

1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

2. Quale delle seguenti affermazioni descrive meglio l'importanza della fase di "Preprocessing dei dati" nel workflow di un progetto di machine learning?

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 5

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Scorri per mostrare il menu

Esaminiamo il flusso di lavoro necessario per sviluppare con successo un progetto di machine learning.

Passaggio 1. Ottenere i dati

Esempio

Un ospedale raccoglie le cartelle cliniche e i dati demografici dei pazienti in un file CSV. L'obiettivo è prevedere i ricoveri ripetuti, puntando a una precisione superiore all'80%.

Passaggio 2. Pre-elaborazione dei dati

Questa fase include:

Pulizia dei dati: gestione dei valori mancanti e degli input non numerici;
EDA: analisi ed esplorazione visiva dei dati per comprendere le relazioni e individuare eventuali problemi;
Feature engineering: selezione o creazione di caratteristiche che migliorano le prestazioni del modello.

Esempio

I valori mancanti (ad esempio, pressione sanguigna) vengono riempiti e le caratteristiche categoriche (ad esempio, razza) vengono convertite in formato numerico.

Passaggio 3. Modellizzazione

Questa fase include:

Scelta di un modello in base al tipo di problema e agli esperimenti;
Ottimizzazione degli iperparametri per migliorare le prestazioni;
Valutazione del modello su dati non visti.

Approfondisci

Gli iperparametri sono come controlli regolabili che definiscono come il modello si allena—ad esempio la durata dell'addestramento o la complessità del modello.

Esempio

Un modello di classificazione viene selezionato per prevedere la riammissione (sì/no). Dopo l'ottimizzazione, viene valutato su un set di validazione/test per valutare la generalizzazione.

Passaggio 4. Distribuzione

Esempio

Il modello viene integrato nel sistema ospedaliero per segnalare i pazienti ad alto rischio al momento dell'ammissione, aiutando il personale ad agire tempestivamente.

Nota

Alcuni dei termini menzionati qui potrebbero risultare poco familiari, ma li approfondiremo più avanti in questo corso.

1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

2. Quale delle seguenti affermazioni descrive meglio l'importanza della fase di "Preprocessing dei dati" nel workflow di un progetto di machine learning?

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 5