Summary  
This chapter covers preprocessing time series data by applying feature scaling with a MinMax scaler, performing a chronological train-test split, and transforming the series into fixed-length input-output sequences for model training.

General domain of usage  
Financial time series forecasting (e.g., stock price prediction)

Vengono trattati i passaggi fondamentali della **pre-elaborazione dei dati di serie temporali** per un progetto di previsione. La pre-elaborazione garantisce che i dati siano puliti, ben strutturati e pronti per l'addestramento del modello. Gli argomenti includono **scalatura delle caratteristiche**, **suddivisione train-test** e **creazione delle sequenze**, tutti essenziali per una preparazione efficace dei dati.


- **Scalatura delle caratteristiche**: la scalatura delle caratteristiche è importante per garantire che tutte le variabili in ingresso siano su una scala simile. Questo aiuta modelli come LSTM e ARIMA a convergere più rapidamente e a migliorare le loro prestazioni. Le tecniche comuni di scalatura includono la **scalatura min-max** e la **standardizzazione** (normalizzazione z-score). La scalatura consente al modello di concentrarsi sulle relazioni all'interno dei dati invece di essere influenzato da variabili con intervalli più ampi;
```python
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_train_data = scaler.fit_transform(train_data_raw)
scaled_test_data = scaler.transform(test_data_raw)
```

- **Suddivisione train-test**: suddividere il dataset in sottoinsiemi di addestramento e test è essenziale per valutare le prestazioni del modello. Tipicamente, un dataset di serie temporali viene suddiviso in ordine cronologico, utilizzando la parte iniziale dei dati per l'addestramento e la parte finale per il test. Questo garantisce che il modello venga valutato su dati mai visti prima e simula scenari reali di previsione. Un rapporto comune è 80% per l'addestramento e 20% per il test, ma può variare in base alla dimensione e alle caratteristiche dei dati;
```python
train_split_ratio = 0.8
train_size = int(len(price_data) * train_split_ratio)
train_data_raw = price_data[:train_size]
test_data_raw = price_data[train_size:]
```

- **Creazione delle sequenze**: nella previsione di serie temporali, specialmente con modelli come LSTM, i dati devono essere trasformati in formato sequenziale. Il passaggio di creazione delle sequenze consiste nel modellare i dati in coppie input-output, dove ogni input corrisponde a una sequenza di osservazioni passate e l'output è il valore previsto per il passo temporale successivo. Questo è fondamentale affinché i modelli apprendano dai passi temporali precedenti e producano previsioni accurate per i passi futuri.
```python
def create_sequences(data, seq_length):
xs = []
ys = []
      for i in range(len(data) - seq_length):
x = data[i:(i + seq_length)]
y = data[i + seq_length]
xs.append(x)
ys.append(y)
# Ensure numpy arrays are returned, helps with tensor conversion later
return np.array(xs), np.array(ys)
```

In sintesi, la pre-elaborazione è un passaggio fondamentale nella previsione di serie temporali. Scalando le caratteristiche, suddividendo i dati per addestramento e test e creando sequenze per l'input del modello, si garantisce che i dati siano ben preparati per una previsione accurata ed efficiente.


Qual è lo scopo della scalatura delle caratteristiche nella pre-elaborazione delle serie temporali?

Padroneggiare le reti neurali ricorrenti e le loro varianti avanzate come LSTM e GRU utilizzando PyTorch. Acquisire esperienza pratica nell'elaborazione di dati sequenziali per applicazioni concrete. Applicare questi potenti modelli per affrontare sfide reali nella previsione di serie temporali e in diversi compiti di elaborazione del linguaggio naturale.

Tratta le limitazioni delle reti neurali tradizionali per i dati sequenziali e introduce i fondamenti delle Reti Neurali Ricorrenti. Spiega l'architettura delle RNN, le tipologie e l'implementazione passo dopo passo tramite esempi di base e una sfida di programmazione.

Esplora le comuni sfide di addestramento come la scomparsa e l'esplosione dei gradienti. Introduce varianti avanzate di RNN, tra cui LSTM e GRU, evidenziando i loro meccanismi interni e casi d'uso, con esempi pratici di implementazione per ciascuna.

Si concentra sull'elaborazione e la previsione di dati di serie temporali utilizzando modelli basati su RNN. Include caricamento dei dati, tecniche di preprocessamento, addestramento del modello e valutazione delle prestazioni, con enfasi sul confronto tra architetture LSTM e GRU.

Dimostra l'applicazione delle RNN ai compiti di classificazione del testo. Copre i concetti fondamentali di NLP, i metodi di codifica del testo, le fasi di preparazione dei dati e la costruzione di un modello basato su LSTM per la previsione del sentiment.

Pre-elaborazione dei Dati delle Serie Temporali