Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Flusso di Lavoro del Machine Learning | Concetti di Machine Learning
Introduzione al ML con Scikit-Learn

bookFlusso di Lavoro del Machine Learning

Esaminiamo il flusso di lavoro che si seguirebbe per costruire un progetto di machine learning di successo.

Passo 1. Ottenere i dati

Iniziare definendo il problema e identificando quali dati sono necessari. Selezionare una metrica per valutare le prestazioni e determinare quale risultato sarebbe considerato soddisfacente.

Successivamente, raccogliere i dati, spesso da più fonti come database, e portarli in un formato adatto all'elaborazione in Python.

Se i dati sono già disponibili in un file .csv, la fase di pre-elaborazione può iniziare immediatamente e questo passaggio può essere saltato.

Esempio

Un ospedale fornisce registri storici dei pazienti dal proprio database insieme a informazioni demografiche da un database sanitario nazionale, compilati in un file CSV. Il compito è prevedere le riammissioni dei pazienti, con accuratezza superiore all'80% definita come metrica target per una prestazione soddisfacente.

Passo 2. Pre-elaborare i dati

Questa fase consiste in:

  • Pulizia dei dati: gestione dei valori mancanti, dati non numerici, ecc.;
  • Analisi esplorativa dei dati (EDA): analisi e visualizzazione del dataset per individuare pattern e relazioni tra le caratteristiche e, in generale, ottenere informazioni su come migliorare il set di addestramento;
  • Feature Engineering: selezione, trasformazione o creazione di nuove caratteristiche basate sulle intuizioni dell'EDA per migliorare le prestazioni del modello.

Esempio

Nel dataset dell'ospedale, i valori mancanti per metriche chiave come la pressione sanguigna possono essere riempiti e le variabili categoriche come la razza possono essere convertite in codici numerici per l'analisi.

Passaggio 3. Modellazione

Questa fase include:

  • Scelta del modello: selezione di uno o più modelli più adatti al problema, in base alle caratteristiche dell'algoritmo e ai risultati sperimentali;
  • Ottimizzazione degli iperparametri: regolazione degli iperparametri per ottenere le migliori prestazioni possibili.
Note
Approfondisci

Considera gli iperparametri come le manopole e i quadranti di una macchina che puoi regolare per controllarne il funzionamento. Nel machine learning, queste "manopole e quadranti" sono impostazioni (valori) che un data scientist regola prima di iniziare l'addestramento del modello. Ad esempio, gli iperparametri possono includere la durata dell'addestramento del modello o il livello di dettaglio dell'addestramento.

  • Valutazione del modello: misurazione delle prestazioni su dati non visti.

Esempio

Viene selezionato un modello di classificazione per prevedere le riammissioni dei pazienti, adatto a risultati binari (riammesso o meno). I suoi iperparametri vengono ottimizzati per migliorare le prestazioni. Infine, la valutazione viene effettuata su un set di validazione o test separato per verificare quanto bene il modello generalizza oltre i dati di addestramento.

Passaggio 4. Distribuzione

Dopo aver ottenuto un modello ottimizzato con prestazioni soddisfacenti, il passo successivo è la distribuzione. Il modello distribuito deve essere costantemente monitorato, migliorato quando necessario e aggiornato con nuovi dati man mano che diventano disponibili. Questo processo spesso riporta al Passaggio 1.

Esempio

Una volta che il modello prevede accuratamente le riammissioni, viene integrato nel sistema di database dell'ospedale per avvisare il personale sui pazienti ad alto rischio al momento dell'ammissione, migliorando così la qualità dell'assistenza.

Note
Nota

Alcuni dei termini menzionati qui potrebbero sembrare poco familiari, ma li approfondiremo più avanti in questo corso.

La pre-elaborazione dei dati e la modellazione possono essere eseguite con la libreria scikit-learn (importata come sklearn). I capitoli seguenti si concentrano sui passaggi base di pre-elaborazione e sulla costruzione di pipeline. La fase di modellazione viene poi introdotta utilizzando l'algoritmo k-nearest neighbors (KNeighborsClassifier in sklearn) come esempio. Questo include la costruzione del modello, l'ottimizzazione degli iperparametri e la valutazione delle prestazioni.

1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

2. Quale delle seguenti affermazioni descrive meglio l'importanza della fase di "Pre-elaborazione dei dati" nel workflow di un progetto di machine learning?

question mark

Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

Select the correct answer

question mark

Quale delle seguenti affermazioni descrive meglio l'importanza della fase di "Pre-elaborazione dei dati" nel workflow di un progetto di machine learning?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 5

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 3.13

bookFlusso di Lavoro del Machine Learning

Scorri per mostrare il menu

Esaminiamo il flusso di lavoro che si seguirebbe per costruire un progetto di machine learning di successo.

Passo 1. Ottenere i dati

Iniziare definendo il problema e identificando quali dati sono necessari. Selezionare una metrica per valutare le prestazioni e determinare quale risultato sarebbe considerato soddisfacente.

Successivamente, raccogliere i dati, spesso da più fonti come database, e portarli in un formato adatto all'elaborazione in Python.

Se i dati sono già disponibili in un file .csv, la fase di pre-elaborazione può iniziare immediatamente e questo passaggio può essere saltato.

Esempio

Un ospedale fornisce registri storici dei pazienti dal proprio database insieme a informazioni demografiche da un database sanitario nazionale, compilati in un file CSV. Il compito è prevedere le riammissioni dei pazienti, con accuratezza superiore all'80% definita come metrica target per una prestazione soddisfacente.

Passo 2. Pre-elaborare i dati

Questa fase consiste in:

  • Pulizia dei dati: gestione dei valori mancanti, dati non numerici, ecc.;
  • Analisi esplorativa dei dati (EDA): analisi e visualizzazione del dataset per individuare pattern e relazioni tra le caratteristiche e, in generale, ottenere informazioni su come migliorare il set di addestramento;
  • Feature Engineering: selezione, trasformazione o creazione di nuove caratteristiche basate sulle intuizioni dell'EDA per migliorare le prestazioni del modello.

Esempio

Nel dataset dell'ospedale, i valori mancanti per metriche chiave come la pressione sanguigna possono essere riempiti e le variabili categoriche come la razza possono essere convertite in codici numerici per l'analisi.

Passaggio 3. Modellazione

Questa fase include:

  • Scelta del modello: selezione di uno o più modelli più adatti al problema, in base alle caratteristiche dell'algoritmo e ai risultati sperimentali;
  • Ottimizzazione degli iperparametri: regolazione degli iperparametri per ottenere le migliori prestazioni possibili.
Note
Approfondisci

Considera gli iperparametri come le manopole e i quadranti di una macchina che puoi regolare per controllarne il funzionamento. Nel machine learning, queste "manopole e quadranti" sono impostazioni (valori) che un data scientist regola prima di iniziare l'addestramento del modello. Ad esempio, gli iperparametri possono includere la durata dell'addestramento del modello o il livello di dettaglio dell'addestramento.

  • Valutazione del modello: misurazione delle prestazioni su dati non visti.

Esempio

Viene selezionato un modello di classificazione per prevedere le riammissioni dei pazienti, adatto a risultati binari (riammesso o meno). I suoi iperparametri vengono ottimizzati per migliorare le prestazioni. Infine, la valutazione viene effettuata su un set di validazione o test separato per verificare quanto bene il modello generalizza oltre i dati di addestramento.

Passaggio 4. Distribuzione

Dopo aver ottenuto un modello ottimizzato con prestazioni soddisfacenti, il passo successivo è la distribuzione. Il modello distribuito deve essere costantemente monitorato, migliorato quando necessario e aggiornato con nuovi dati man mano che diventano disponibili. Questo processo spesso riporta al Passaggio 1.

Esempio

Una volta che il modello prevede accuratamente le riammissioni, viene integrato nel sistema di database dell'ospedale per avvisare il personale sui pazienti ad alto rischio al momento dell'ammissione, migliorando così la qualità dell'assistenza.

Note
Nota

Alcuni dei termini menzionati qui potrebbero sembrare poco familiari, ma li approfondiremo più avanti in questo corso.

La pre-elaborazione dei dati e la modellazione possono essere eseguite con la libreria scikit-learn (importata come sklearn). I capitoli seguenti si concentrano sui passaggi base di pre-elaborazione e sulla costruzione di pipeline. La fase di modellazione viene poi introdotta utilizzando l'algoritmo k-nearest neighbors (KNeighborsClassifier in sklearn) come esempio. Questo include la costruzione del modello, l'ottimizzazione degli iperparametri e la valutazione delle prestazioni.

1. Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

2. Quale delle seguenti affermazioni descrive meglio l'importanza della fase di "Pre-elaborazione dei dati" nel workflow di un progetto di machine learning?

question mark

Qual è lo scopo principale della fase "Ottenere i dati" in un progetto di machine learning?

Select the correct answer

question mark

Quale delle seguenti affermazioni descrive meglio l'importanza della fase di "Pre-elaborazione dei dati" nel workflow di un progetto di machine learning?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 5
some-alt