Impara Basi degli Word Embeddings

Comprendere le Word Embeddings

I metodi tradizionali di rappresentazione del testo, come bag of words e TF-IDF, presentano notevoli limitazioni. Trattano le parole in modo isolato, ignorando le relazioni semantiche, e producono vettori ad alta dimensionalità e sparsi che diventano inefficienti dal punto di vista computazionale con corpora di grandi dimensioni.

Le word embeddings affrontano questi problemi considerando il contesto in cui le parole appaiono, offrendo una comprensione più sfumata del linguaggio.

Definizione

Le word embeddings sono rappresentazioni vettoriali dense delle parole in uno spazio vettoriale continuo, dove parole semanticamente simili sono mappate su punti vicini.

Sono stati sviluppati diversi modelli e tecniche per generare word embeddings significativi:

Word2Vec: sviluppato da Google, Word2Vec rappresenta le parole come vettori densi utilizzando due architetture: continuous bag of words (CBoW), che predice una parola dal suo contesto circostante, e Skip-gram, che predice le parole circostanti a partire da una parola data;
GloVe: creato presso Stanford, GloVe (global vectors) genera word embeddings analizzando le statistiche di co-occorrenza globale delle parole sull'intero corpus, catturando le relazioni semantiche in base alla frequenza con cui le coppie di parole appaiono insieme;
FastText: introdotto da Facebook AI Research, FastText si basa su Word2Vec rappresentando le parole come una raccolta di n-grammi di caratteri. Questo consente di modellare le informazioni sui sottoinsiemi di parole, migliorando la capacità di gestire parole rare, fuori vocabolario e lingue morfologicamente ricche.

Word2Vec e FastText sono i modelli più comunemente utilizzati per generare word embeddings. Tuttavia, poiché FastText è semplicemente una versione migliorata di Word2Vec, verrà tralasciato e ci concentreremo solo su Word2Vec.

Come funziona Word2Vec?

Word2Vec trasforma le parole in vettori utilizzando un processo che inizia con la one-hot encoding, in cui ogni parola in un vocabolario è rappresentata da un vettore unico contrassegnato da un solo 1 tra zeri. Ecco un esempio:

Questo vettore funge da input per una rete neurale, progettata per "apprendere" le word embeddings. L'architettura della rete può seguire uno dei due modelli:

CBoW (continuous bag of words): prevede una parola target in base al contesto fornito dalle parole circostanti;
Skip-gram: prevede le parole di contesto circostanti a partire dalla parola target.

In entrambe le architetture Word2Vec, durante ogni iterazione di addestramento, al modello viene fornita una parola target e le parole che la circondano come contesto, rappresentate come vettori one-hot encoded. Il dataset di addestramento è quindi composto da queste coppie o gruppi, in cui ogni parola target è associata alle sue parole di contesto circostanti.

Ogni parola nel vocabolario assume il ruolo di target mentre il modello scorre il testo utilizzando una tecnica di sliding context window. Questa tecnica si sposta sistematicamente su ogni parola, garantendo un apprendimento completo da tutti i possibili contesti all'interno del corpus.

Definizione

Una context window è un numero fisso di parole che circondano una parola target e che il modello utilizza per apprendere il suo contesto. Definisce quante parole prima e dopo la parola target vengono considerate durante l'addestramento.

Vediamo un esempio con una window size pari a 2 per chiarire il concetto:

Una dimensione della finestra di contesto pari a 2 significa che il modello includerà fino a 2 parole sia a sinistra che a destra della parola target, purché tali parole siano disponibili entro i limiti del testo. Come puoi vedere, se ci sono meno di 2 parole da uno dei due lati, il modello includerà tutte le parole disponibili.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 1

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain the main differences between Word2Vec, GloVe, and FastText?

How does the sliding context window impact the quality of word embeddings?

Can you provide a simple example of how Word2Vec learns word relationships?

Awesome!

Completion rate improved to 3.45

Scorri per mostrare il menu

Comprendere le Word Embeddings

Le word embeddings affrontano questi problemi considerando il contesto in cui le parole appaiono, offrendo una comprensione più sfumata del linguaggio.

Definizione

Le word embeddings sono rappresentazioni vettoriali dense delle parole in uno spazio vettoriale continuo, dove parole semanticamente simili sono mappate su punti vicini.

Sono stati sviluppati diversi modelli e tecniche per generare word embeddings significativi:

Word2Vec: sviluppato da Google, Word2Vec rappresenta le parole come vettori densi utilizzando due architetture: continuous bag of words (CBoW), che predice una parola dal suo contesto circostante, e Skip-gram, che predice le parole circostanti a partire da una parola data;
GloVe: creato presso Stanford, GloVe (global vectors) genera word embeddings analizzando le statistiche di co-occorrenza globale delle parole sull'intero corpus, catturando le relazioni semantiche in base alla frequenza con cui le coppie di parole appaiono insieme;
FastText: introdotto da Facebook AI Research, FastText si basa su Word2Vec rappresentando le parole come una raccolta di n-grammi di caratteri. Questo consente di modellare le informazioni sui sottoinsiemi di parole, migliorando la capacità di gestire parole rare, fuori vocabolario e lingue morfologicamente ricche.

Come funziona Word2Vec?

Questo vettore funge da input per una rete neurale, progettata per "apprendere" le word embeddings. L'architettura della rete può seguire uno dei due modelli:

CBoW (continuous bag of words): prevede una parola target in base al contesto fornito dalle parole circostanti;
Skip-gram: prevede le parole di contesto circostanti a partire dalla parola target.

Definizione

Vediamo un esempio con una window size pari a 2 per chiarire il concetto:

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 4. Capitolo 1