Impara Challenge: Valutazione dei Modelli Transformer | Applicare i Transformers ai Compiti NLP

Sezione 3. Capitolo 6

single

Scorri per mostrare il menu

Metriche di valutazione per i compiti NLP

Al termine dell'addestramento di un modello Transformer per NLP, è necessario misurare quanto bene si comporta nel proprio compito. Per calcolare le metriche sarà necessario calcolare TP, TN, FN e FP.

Definizione

TP (True Positive): numero di campioni positivi correttamente previsti come positivi.
TN (True Negative): numero di campioni negativi correttamente previsti come negativi.
FP (False Positive): numero di campioni negativi erroneamente previsti come positivi.
FN (False Negative): numero di campioni positivi erroneamente previsti come negativi.

Accuratezza è preferibile per dataset bilanciati in cui ciascuna classe ha circa lo stesso numero di campioni;
Precisione e Richiamo diventano più importanti quando si hanno dati sbilanciati, come nel rilevamento dello spam, dove perdere un messaggio spam (falso negativo) o segnalare erroneamente un messaggio normale (falso positivo) comporta costi diversi;
Il punteggio F1 combina sia precisione che richiamo in un unico valore, facilitando il confronto tra modelli su compiti sbilanciati;
BLEU e ROUGE sono utilizzati per compiti in cui l'output è una sequenza, come traduzione o riassunto;
Perplessità è più utile per i modelli linguistici che prevedono la parola successiva in una sequenza.

Interpretazione dei risultati di valutazione e miglioramento delle prestazioni del modello

Una volta calcolate le metriche di valutazione per il modello Transformer, è importante comprendere il significato dei risultati e come utilizzarli per migliorare il modello. Un'elevata accuratezza indica generalmente che il modello effettua previsioni corrette, ma se i dati sono sbilanciati, è necessario considerare precisione, richiamo e punteggio F1. Ad esempio, un modello con alta precisione ma basso richiamo è conservativo: effettua previsioni positive solo quando è molto sicuro, ma perde molti veri positivi. Se il richiamo è alto ma la precisione è bassa, il modello prevede più positivi ma include più falsi allarmi.

Se le prestazioni del modello non sono soddisfacenti, considerare le seguenti strategie di miglioramento:

Raccogliere più dati etichettati, soprattutto per le classi sottorappresentate;
Provare diversi passaggi di pre-elaborazione, come la rimozione del rumore o il bilanciamento delle classi;
Ottimizzare gli iperparametri, come il tasso di apprendimento, la dimensione del batch o il numero di epoche;
Modificare l'architettura del modello, ad esempio aggiungendo teste di attenzione o layer;
Utilizzare tecniche di data augmentation per aumentare la diversità del dataset;
Analizzare gli errori per verificare se il modello ha difficoltà con determinati tipi di input.

Selezionando attentamente la metrica più adatta e interpretando i risultati, è possibile diagnosticare le debolezze del modello e concentrare gli sforzi di miglioramento dove sono più necessari.

Compito

Scorri per iniziare a programmare

Utilizza le conoscenze acquisite nei capitoli precedenti per completare un piccolo scenario di valutazione per un classificatore di testo basato su Transformer.

Dato un modello che predice se una recensione cinematografica è positiva o negativa, hai i seguenti risultati su un set di test di 10 campioni:
- 6 recensioni sono realmente positive, 4 sono realmente negative;
- Il modello predice: 5 positive (4 corrette), 5 negative (3 corrette).
Calcola accuratezza, precisione, richiamo e F1 score per la classe positiva;
Inserisci le tue risposte come decimali arrotondati a due cifre.

Soluzione

Cambia al desktop per esercitarti nel mondo realeContinua da dove ti trovi utilizzando una delle opzioni seguenti

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 6

single

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione