Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Défi : Création d'Embeddings de Mots | Représentations Vectorielles de Mots
Introduction au TALN

bookDéfi : Création d'Embeddings de Mots

Tâche

Swipe to start coding

Vous disposez d'un corpus de texte stocké dans la variable corpus. Votre tâche consiste à entraîner un modèle Word2Vec afin de générer des embeddings de mots pour ce corpus. Pour cela :

  1. Importer la classe permettant de créer un modèle Word2Vec.
  2. Tokeniser chaque phrase de la colonne 'Document' du corpus en séparant chaque phrase en mots séparés par des espaces. Stocker le résultat dans la variable sentences.
  3. Initialiser le modèle Word2Vec en passant sentences comme premier argument et en définissant les paramètres suivants :
    • taille des embeddings : 50 ;
    • taille de la fenêtre de contexte : 2 ;
    • fréquence minimale des mots à inclure dans le modèle : 1 ;
    • modèle : skip-gram.
  4. Afficher les 3 mots les plus similaires au mot 'bowl'.

Solution

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 4
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

close

Awesome!

Completion rate improved to 3.45

bookDéfi : Création d'Embeddings de Mots

Glissez pour afficher le menu

Tâche

Swipe to start coding

Vous disposez d'un corpus de texte stocké dans la variable corpus. Votre tâche consiste à entraîner un modèle Word2Vec afin de générer des embeddings de mots pour ce corpus. Pour cela :

  1. Importer la classe permettant de créer un modèle Word2Vec.
  2. Tokeniser chaque phrase de la colonne 'Document' du corpus en séparant chaque phrase en mots séparés par des espaces. Stocker le résultat dans la variable sentences.
  3. Initialiser le modèle Word2Vec en passant sentences comme premier argument et en définissant les paramètres suivants :
    • taille des embeddings : 50 ;
    • taille de la fenêtre de contexte : 2 ;
    • fréquence minimale des mots à inclure dans le modèle : 1 ;
    • modèle : skip-gram.
  4. Afficher les 3 mots les plus similaires au mot 'bowl'.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 4
single

single

some-alt