Summary  
This chapter covers recurrent neural networks as a programming concept, detailing how to implement sequential stateful computation by updating a hidden state at each time step, generating outputs, and training shared weights via backpropagation through time.  

General domain of usage  
Natural language processing

Le reti neurali ricorrenti (**RNN**) sono progettate per gestire **dati sequenziali** mantenendo le informazioni degli input precedenti nei loro **stati interni**. Questo le rende ideali per attività come la **modellazione del linguaggio** e la **previsione di sequenze**.




Definizione

- **Elaborazione sequenziale**: l'RNN elabora i dati **passo dopo passo**, tenendo traccia di ciò che è già stato elaborato;  
- **Completamento di frasi**: data la frase incompleta `"My favourite dish is sushi. So, my favourite cuisine is _____."` l'RNN elabora le parole una alla volta. Dopo aver visto `"sushi"`, prevede la parola successiva come `"Japanese"` in base al **contesto** precedente;  
- **Memoria nelle RNN**: a ogni passo, l'RNN aggiorna il proprio **stato interno** (**memoria**) con nuove informazioni, garantendo la conservazione del contesto per i **passi futuri**;  
- **Addestramento dell'RNN**: le RNN vengono addestrate tramite la **retropropagazione nel tempo** (**BPTT**), in cui gli errori vengono propagati all'indietro attraverso ogni passo temporale per regolare i **pesi** e migliorare le previsioni.  



#### Propagazione in avanti

Durante la propagazione in avanti, la RNN elabora i dati di input passo dopo passo:

1. **Input al passo temporale** $$t$$: la rete riceve un input $$x_t$$ a ogni passo temporale;

2. **Aggiornamento dello stato nascosto**: lo stato nascosto corrente $$h_t$$ viene aggiornato in base allo stato nascosto precedente $$h_{t-1}$$ e all'input corrente $$x_t$$ utilizzando la seguente formula:

   <div style="align=center"><math display="block" class="tml-display" style="display:block math;"><mrow><msub><mi>h</mi><mi>t</mi></msub><mo>=</mo><mi>f</mi><mrow><mo fence="true" form="prefix">(</mo><mi>W</mi><mo>⋅</mo><mrow><mo fence="true" form="prefix">[</mo><mtable><mtr><mtd style="padding-left:0em;padding-right:0em;"><mrow><msub><mi>h</mi><mrow><mi>t</mi><mo>−</mo><mn>1</mn></mrow></msub><mo separator="true">,</mo><msub><mi>x</mi><mi>t</mi></msub></mrow></mtd></mtr></mtable><mo fence="true" form="postfix">]</mo></mrow><mo>+</mo><mi>b</mi><mo fence="true" form="postfix">)</mo></mrow></mrow></math><div>

   - Dove:
     - $$W$$ è la matrice dei pesi;
     - $$b$$ è il vettore di bias;
     - $$f$$ è la funzione di attivazione.

3. **Generazione dell'output**: l'output $$y_t$$ viene generato in base allo stato nascosto corrente $$h_t$$ utilizzando la formula:

   <math display="block" class="tml-display" style="display:block math;"><mrow><msub><mi>y</mi><mi>t</mi></msub><mo>=</mo><mi>g</mi><mo form="prefix" stretchy="false">(</mo><mi>V</mi><mo>⋅</mo><msub><mi>h</mi><mi>t</mi></msub><mo>+</mo><mi>c</mi><mo form="postfix" stretchy="false">)</mo></mrow></math>

   - Dove:
     - $$V$$ è la matrice dei pesi di output;
     - $$c$$ è il bias di output;
     - $$g$$ è la funzione di attivazione utilizzata nello strato di output.



#### Processo di Backpropagation

La backpropagation nelle RNN è fondamentale per aggiornare i pesi e migliorare il modello. Il processo viene modificato per tenere conto della natura sequenziale delle RNN tramite la **backpropagation through time (BPTT)**:

1. **Calcolo dell'errore**: il primo passo nella BPTT è calcolare l'errore a ogni passo temporale. Questo errore è tipicamente la differenza tra l'output previsto e il target reale;

2. **Calcolo del gradiente**: nelle Reti Neurali Ricorrenti, i gradienti della funzione di perdita vengono calcolati differenziando l'errore rispetto ai parametri della rete e propagati all'indietro nel tempo dall'ultimo al primo passo, il che può portare a gradienti che svaniscono o esplodono, in particolare in sequenze lunghe;

3. **Aggiornamento dei pesi**: una volta calcolati i gradienti, i pesi vengono aggiornati utilizzando una tecnica di ottimizzazione come la **stochastic gradient descent (SGD)**. I pesi vengono modificati in modo tale da minimizzare l'errore nelle iterazioni future. La formula per l'aggiornamento dei pesi è:

   <math display="block" class="tml-display" style="display:block math;"><mrow><mi>W</mi><mo lspace="0.2222em" rspace="0em">:</mo><mo lspace="0em">=</mo><mi>W</mi><mo>−</mo><mi>η</mi><mfrac><mrow><mi>∂</mi><mtext>Loss</mtext></mrow><mrow><mi>∂</mi><mi>W</mi></mrow></mfrac></mrow></math>

   - Dove:
     - $$\eta$$ è il tasso di apprendimento;
     - <math><mfrac><mrow><mi>∂</mi><mtext>Loss</mtext></mrow><mrow><mi>∂</mi><mi>W</mi></mrow></mfrac></math> è il gradiente della funzione di perdita rispetto alla matrice dei pesi.

In sintesi, le RNN sono potenti perché possono **memorizzare** e utilizzare **informazioni passate**, rendendole adatte a compiti che coinvolgono **sequenze**.

Qual è il ruolo della funzione 
$$g$$ nell'equazione di output $$y_t = g(V \cdot h_t+ c)$$

Padroneggiare le reti neurali ricorrenti e le loro varianti avanzate come LSTM e GRU utilizzando PyTorch. Acquisire esperienza pratica nell'elaborazione di dati sequenziali per applicazioni concrete. Applicare questi potenti modelli per affrontare sfide reali nella previsione di serie temporali e in diversi compiti di elaborazione del linguaggio naturale.

Tratta le limitazioni delle reti neurali tradizionali per i dati sequenziali e introduce i fondamenti delle Reti Neurali Ricorrenti. Spiega l'architettura delle RNN, le tipologie e l'implementazione passo dopo passo tramite esempi di base e una sfida di programmazione.

Esplora le comuni sfide di addestramento come la scomparsa e l'esplosione dei gradienti. Introduce varianti avanzate di RNN, tra cui LSTM e GRU, evidenziando i loro meccanismi interni e casi d'uso, con esempi pratici di implementazione per ciascuna.

Si concentra sull'elaborazione e la previsione di dati di serie temporali utilizzando modelli basati su RNN. Include caricamento dei dati, tecniche di preprocessamento, addestramento del modello e valutazione delle prestazioni, con enfasi sul confronto tra architetture LSTM e GRU.

Dimostra l'applicazione delle RNN ai compiti di classificazione del testo. Copre i concetti fondamentali di NLP, i metodi di codifica del testo, le fasi di preparazione dei dati e la costruzione di un modello basato su LSTM per la previsione del sentiment.

Come Funziona una RNN?

Propagazione in avanti

Processo di Backpropagation