Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Challenge: Valutazione dei Modelli Transformer | Applicare i Transformers ai Compiti NLP
Transformer per l'elaborazione del linguaggio naturale
Sezione 3. Capitolo 6
single

single

bookChallenge: Valutazione dei Modelli Transformer

Scorri per mostrare il menu

Metriche di valutazione per i compiti NLP

Al termine dell'addestramento di un modello Transformer per NLP, è necessario misurare quanto bene si comporta nel proprio compito. Per calcolare le metriche sarà necessario calcolare TP, TN, FN e FP.

Note
Definizione

TP (True Positive): numero di campioni positivi correttamente previsti come positivi.
TN (True Negative): numero di campioni negativi correttamente previsti come negativi.
FP (False Positive): numero di campioni negativi erroneamente previsti come positivi.
FN (False Negative): numero di campioni positivi erroneamente previsti come negativi.

  • Accuratezza è preferibile per dataset bilanciati in cui ciascuna classe ha circa lo stesso numero di campioni;
  • Precisione e Richiamo diventano più importanti quando si hanno dati sbilanciati, come nel rilevamento dello spam, dove perdere un messaggio spam (falso negativo) o segnalare erroneamente un messaggio normale (falso positivo) comporta costi diversi;
  • Il punteggio F1 combina sia precisione che richiamo in un unico valore, facilitando il confronto tra modelli su compiti sbilanciati;
  • BLEU e ROUGE sono utilizzati per compiti in cui l'output è una sequenza, come traduzione o riassunto;
  • Perplessità è più utile per i modelli linguistici che prevedono la parola successiva in una sequenza.

Interpretazione dei risultati di valutazione e miglioramento delle prestazioni del modello

Una volta calcolate le metriche di valutazione per il modello Transformer, è importante comprendere il significato dei risultati e come utilizzarli per migliorare il modello. Un'elevata accuratezza indica generalmente che il modello effettua previsioni corrette, ma se i dati sono sbilanciati, è necessario considerare precisione, richiamo e punteggio F1. Ad esempio, un modello con alta precisione ma basso richiamo è conservativo: effettua previsioni positive solo quando è molto sicuro, ma perde molti veri positivi. Se il richiamo è alto ma la precisione è bassa, il modello prevede più positivi ma include più falsi allarmi.

Se le prestazioni del modello non sono soddisfacenti, considerare le seguenti strategie di miglioramento:

  • Raccogliere più dati etichettati, soprattutto per le classi sottorappresentate;
  • Provare diversi passaggi di pre-elaborazione, come la rimozione del rumore o il bilanciamento delle classi;
  • Ottimizzare gli iperparametri, come il tasso di apprendimento, la dimensione del batch o il numero di epoche;
  • Modificare l'architettura del modello, ad esempio aggiungendo teste di attenzione o layer;
  • Utilizzare tecniche di data augmentation per aumentare la diversità del dataset;
  • Analizzare gli errori per verificare se il modello ha difficoltà con determinati tipi di input.

Selezionando attentamente la metrica più adatta e interpretando i risultati, è possibile diagnosticare le debolezze del modello e concentrare gli sforzi di miglioramento dove sono più necessari.

Compito

Scorri per iniziare a programmare

Utilizza le conoscenze acquisite nei capitoli precedenti per completare un piccolo scenario di valutazione per un classificatore di testo basato su Transformer.

  • Dato un modello che predice se una recensione cinematografica è positiva o negativa, hai i seguenti risultati su un set di test di 10 campioni:
    • 6 recensioni sono realmente positive, 4 sono realmente negative;
    • Il modello predice: 5 positive (4 corrette), 5 negative (3 corrette).
  • Calcola accuratezza, precisione, richiamo e F1 score per la classe positiva;
  • Inserisci le tue risposte come decimali arrotondati a due cifre.

Soluzione

Switch to desktopCambia al desktop per esercitarti nel mondo realeContinua da dove ti trovi utilizzando una delle opzioni seguenti
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 6
single

single

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

some-alt