Scorri per mostrare il menu

Per semplificare la preparazione dei dati per i modelli di apprendimento automatico e abilitare un'efficiente elaborazione a blocchi, mescolamento e gestione dei dati, PyTorch mette a disposizione le utilità TensorDataset e DataLoader.

Caricamento e ispezione del dataset

Utilizzeremo un dataset (wine.csv) contenente dati su diverse tipologie di vino, incluse le loro caratteristiche e le rispettive etichette di classe.

Per prima cosa, carichiamo il dataset e ispezioniamone la struttura per comprendere le caratteristiche e la variabile target:


              123
            
import pandas as pd
wine_df = pd.read_csv('https://staging-content-media-cdn.codefinity.com/courses/1dd2b0f6-6ec0-40e6-a570-ed0ac2209666/section_2/wine.csv')
print(wine_df.head())

Creazione di un TensorDataset

Il passo successivo consiste nel separare le feature e il target, convertirli in tensori PyTorch e utilizzare direttamente questi tensori per creare un TensorDataset. Si assicura che le feature siano di tipo float32 (per la gestione dei numeri in virgola mobile) e il target sia di tipo long (un intero a 64 bit adatto per le etichette).

import pandas as pd
import torch
from torch.utils.data import TensorDataset
wine_df = pd.read_csv('https://staging-content-media-cdn.codefinity.com/courses/1dd2b0f6-6ec0-40e6-a570-ed0ac2209666/section_2/wine.csv')
# Separate features and target
features = wine_df.drop(columns='quality').values
target = wine_df['quality'].values
# Create TensorDataset
wine_dataset = TensorDataset(
    torch.tensor(features, dtype=torch.float32),  # Features tensor
    torch.tensor(target, dtype=torch.long)        # Target tensor
)

Utilizzo di DataLoader per l'elaborazione a batch

Per facilitare l'elaborazione a batch, la mescolatura e il caricamento efficiente dei dati durante l'addestramento, si incapsula il TensorDataset in un DataLoader. Questo passaggio è fondamentale per gestire il flusso dei dati verso il modello durante l'addestramento, soprattutto quando si lavora con dataset di grandi dimensioni. Il DataLoader consente di:

Elaborazione a batch: suddividere i dati in blocchi più piccoli e gestibili (batch) per l'addestramento, ottimizzando l'uso della memoria e permettendo aggiornamenti del gradiente dopo ogni batch;
Mescolatura: randomizzare l'ordine del dataset, aiutando a rompere eventuali ordinamenti intrinseci nei dati e prevenendo che il modello apprenda schemi spurii;
Caricamento efficiente: gestire automaticamente il recupero e la pre-elaborazione dei dati per ogni batch durante l'addestramento, riducendo l'overhead.


              123456789101112131415161718
            
import pandas as pd
import torch
from torch.utils.data import TensorDataset, DataLoader
wine_df = pd.read_csv('https://staging-content-media-cdn.codefinity.com/courses/1dd2b0f6-6ec0-40e6-a570-ed0ac2209666/section_2/wine.csv')
# Separate features and target
features = wine_df.drop(columns='quality').values
target = wine_df['quality'].values
# Create TensorDataset
wine_dataset = TensorDataset(
    torch.tensor(features, dtype=torch.float32),  # Features tensor
    torch.tensor(target, dtype=torch.long)        # Target tensor
)
# Wrap the dataset in a DataLoader
wine_loader = DataLoader(
    wine_dataset,  # TensorDataset
    batch_size=32, # Number of samples per batch
    shuffle=True   # Randomize the order of the data
)

Con questa configurazione, il DataLoader garantisce che il modello riceva batch di dati in modo efficiente e in ordine casuale. Questo è particolarmente importante per l'addestramento delle reti neurali, poiché aiuta il modello a generalizzare meglio su dati non visti.

Iterazione sul DataLoader

Ora è possibile iterare sul DataLoader per accedere ai batch di dati. Ogni batch contiene una tupla (batch_features, batch_targets):


              123456789101112131415161718192021222324
            
import pandas as pd
import torch
from torch.utils.data import TensorDataset, DataLoader
wine_df = pd.read_csv('https://staging-content-media-cdn.codefinity.com/courses/1dd2b0f6-6ec0-40e6-a570-ed0ac2209666/section_2/wine.csv')
# Separate features and target
features = wine_df.drop(columns='quality').values
target = wine_df['quality'].values
# Create TensorDataset
wine_dataset = TensorDataset(
    torch.tensor(features, dtype=torch.float32),  # Features tensor
    torch.tensor(target, dtype=torch.long)        # Target tensor
)
# Wrap the dataset in a DataLoader
wine_loader = DataLoader(
    wine_dataset,  # TensorDataset
    batch_size=32, # Number of samples per batch
    shuffle=True   # Randomize the order of the data
)
# Iterate through batches
for batch_idx, (batch_features, batch_targets) in enumerate(wine_loader):
    print(f"Batch {batch_idx+1}")
    print(f"Features: {batch_features}")
    print(f"Targets: {batch_targets}")
    print("-" * 30)

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 5

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Lavorare con i dataset