Contenu du cours
Introduction au NLP
Introduction au NLP
Aperçu des Modèles d'Espace Vectoriel
Le besoin de représentation numérique
Contrairement aux humains, les ordinateurs, par nature, ne comprennent pas le texte. Alors que pour nous, les données textuelles sont riches, complexes et très nuancées, véhiculant des significations interprétées en fonction de la langue, du contexte et des connaissances culturelles, pour un ordinateur, le texte est initialement juste une séquence de caractères sans signification inhérente.
Pour surmonter ces défis, nous nous tournons vers des modèles mathématiques et statistiques capables de traiter et d'analyser les motifs au sein des données. Cependant, ces modèles nécessitent une entrée numérique—ils fonctionnent sur des vecteurs, des matrices et d'autres structures mathématiques, et non sur du texte brut.
Comprendre les modèles d'espace vectoriel
Heureusement, les modèles de représentation textuelle offrent une solution à ce problème, à savoir les modèles d'espace vectoriel, que nous aborderons dans ce cours.
Le concept mathématique peut être défini comme suit. Supposons que nous ayons un document D dans l'espace vectoriel des documents V.
Le nombre de dimensions ou de colonnes pour chaque document sera le nombre total de termes ou de mots uniques dans tous les documents de l'espace vectoriel. Par conséquent, l'espace vectoriel peut être noté comme suit :
où chaque document contient des mots différents. Essentiellement, cet espace vectoriel représente le vocabulaire.
Maintenant, nous pouvons représenter un document dans l'espace vectoriel comme suit :
où WDn désigne le poids du mot n dans le document D. Jetons un coup d'œil à un exemple avec 2 documents et des termes uniques (mots) :
En utilisant ces représentations vectorielles, nous pourrions, par exemple, calculer le score de similarité de ces documents en calculant l'angle entre eux (cosinus de l'angle pour être plus précis) afin de déterminer à quel point ils sont sémantiquement similaires.
Mots en tant que Vecteurs
Ce concept peut cependant être étendu aux représentations individuelles des mots grâce à la technique connue sous le nom d'embeddings de mots. Les embeddings de mots fonctionnent selon un principe mathématique similaire mais se concentrent sur la représentation des mots individuels en tant que vecteurs plutôt que des documents entiers. Les dimensions de ces vecteurs capturent des caractéristiques sémantiques latentes qui ne sont pas directement interprétables.
Voici un exemple avec des embeddings en 2 dimensions pour trois mots :
Comme vous pouvez le voir, les mots "femme" et "reine" ainsi que "reine" et "roi" sont assez similaires et proches les uns des autres, tandis que "femme" et "roi" sont plutôt éloignés les uns des autres, représentant leur différence sémantique
Applications des Modèles d'Espace Vectoriel
Les modèles d'espace vectoriel sous-tendent une variété de tâches NLP, permettant :
-
Similarité Sémantique : Calculer la similarité entre des documents textuels ou des mots basés sur leurs représentations vectorielles ;
-
Recherche d'Information : Améliorer les moteurs de recherche et les systèmes de recommandation pour trouver du contenu pertinent à la requête d'un utilisateur ;
-
Classification et Regroupement de Textes : Catégoriser automatiquement les documents en classes prédéfinies ou regrouper des documents similaires ensemble ;
-
Compréhension du Langage Naturel : Faciliter des analyses linguistiques plus approfondies qui ouvrent la voie à des applications comme l'analyse de sentiment, la modélisation de sujets, et plus encore.
Merci pour vos commentaires !