Conoscere il Dataset
Inizia la fase di preprocessing esplorando il dataset. In tutto il corso verrà utilizzato il dataset dei pinguini, con l'obiettivo di prevedere la specie di un pinguino.
Sono disponibili tre possibili opzioni, spesso chiamate classi nell'ambito del machine learning:
Le feature sono: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
e 'sex'
.
Il dataset è memorizzato nel file penguins.csv
. Può essere caricato da un link utilizzando la funzione pd.read_csv()
per esaminarne il contenuto:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Questo dataset presenta diverse problematiche che devono essere affrontate:
- Dati mancanti;
- Variabili categoriche;
- Scale delle caratteristiche differenti.
Dati Mancanti
La maggior parte degli algoritmi di ML non può elaborare direttamente i valori mancanti, quindi questi devono essere gestiti prima dell'addestramento. I valori mancanti possono essere rimossi oppure imputati (sostituiti con valori alternativi).
In pandas
, le celle vuote sono rappresentate come NaN
. Molti modelli di ML genereranno un errore se il dataset contiene anche un solo NaN
.
Dati Categoriali
Il dataset include variabili categoriali, che i modelli di machine learning non sono in grado di elaborare direttamente.
I dati categoriali devono essere codificati in forma numerica.
Scale Diverse
I valori di 'culmen_depth_mm'
variano da 13.1 a 21.5, mentre i valori di 'body_mass_g'
variano da 2700 a 6300. Per questo motivo, alcuni modelli di ML potrebbero considerare la caratteristica 'body_mass_g'
molto più importante rispetto a 'culmen_depth_mm'
.
La normalizzazione risolve questo problema. Verrà trattata nei capitoli successivi.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 3.13
Conoscere il Dataset
Scorri per mostrare il menu
Inizia la fase di preprocessing esplorando il dataset. In tutto il corso verrà utilizzato il dataset dei pinguini, con l'obiettivo di prevedere la specie di un pinguino.
Sono disponibili tre possibili opzioni, spesso chiamate classi nell'ambito del machine learning:
Le feature sono: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
e 'sex'
.
Il dataset è memorizzato nel file penguins.csv
. Può essere caricato da un link utilizzando la funzione pd.read_csv()
per esaminarne il contenuto:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Questo dataset presenta diverse problematiche che devono essere affrontate:
- Dati mancanti;
- Variabili categoriche;
- Scale delle caratteristiche differenti.
Dati Mancanti
La maggior parte degli algoritmi di ML non può elaborare direttamente i valori mancanti, quindi questi devono essere gestiti prima dell'addestramento. I valori mancanti possono essere rimossi oppure imputati (sostituiti con valori alternativi).
In pandas
, le celle vuote sono rappresentate come NaN
. Molti modelli di ML genereranno un errore se il dataset contiene anche un solo NaN
.
Dati Categoriali
Il dataset include variabili categoriali, che i modelli di machine learning non sono in grado di elaborare direttamente.
I dati categoriali devono essere codificati in forma numerica.
Scale Diverse
I valori di 'culmen_depth_mm'
variano da 13.1 a 21.5, mentre i valori di 'body_mass_g'
variano da 2700 a 6300. Per questo motivo, alcuni modelli di ML potrebbero considerare la caratteristica 'body_mass_g'
molto più importante rispetto a 'culmen_depth_mm'
.
La normalizzazione risolve questo problema. Verrà trattata nei capitoli successivi.
Grazie per i tuoi commenti!