Thèse soutenue

Amélioration des méthodes d’apprentissage de représentations de mots pour des calculs de similarités sémantiques efficaces

FR  |  
EN
Auteur / Autrice : Julien Tissier
Direction : Christophe GravierAmaury Habrard
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 04/05/2020
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale Sciences Ingénierie Santé (Saint-Etienne)
Partenaire(s) de recherche : Equipe de recherche : Laboratoire Hubert Curien (Saint-Etienne ; 1995-....)
établissement opérateur d'inscription : Université Jean Monnet (Saint-Étienne ; 1969-....)
Laboratoire : Laboratoire Hubert Curien (Saint-Etienne ; 1995-....)
Jury : Président / Présidente : Élisa Fromont
Examinateurs / Examinatrices : Élisa Fromont, Laure Soulier
Rapporteurs / Rapporteuses : Massih-Reza Amini, Julien Velcin

Résumé

FR  |  
EN

De nombreuses applications en traitement du langage naturel (TALN) reposent sur les représentations de mots, ou “word embeddings”. Ces représentations doivent capturer à la fois de l’information syntaxique et sémantique pour donner des bonnes performances dans les tâches en aval qui les utilisent. Cependant, les méthodes courantes pour les apprendre utilisent des textes génériques comme Wikipédia qui ne contiennent pas d’information sémantique précise. De plus, un espace mémoire important est requis pour pouvoir les sauvegarder car le nombre de représentations de mots à apprendre peut être de l’ordre du million. Le sujet de ma thèse est de développer de nouveaux algorithmes pour améliorer l’information sémantique dans les word embeddings tout en réduisant leur taille en mémoire lors de leur utilisation dans des tâches en aval de TALN.La première partie de mes travaux améliore l’information sémantique contenue dans les word embeddings. J’ai développé dict2vec, un modèle qui utilise l’information des dictionnaires linguistiques lors de l’apprentissage des word embeddings. Les word embeddings appris par dict2vec obtiennent des scores supérieurs d’environ 15% par rapport à ceux appris avec d’autres méthodes sur des tâches de similarités sémantiques de mots. La seconde partie de mes travaux consiste à réduire la taille mémoire des word embeddings. J’ai développé une architecture basée sur un auto-encodeur pour transformer des word embeddings à valeurs réelles en vecteurs binaires, réduisant leur taille mémoire de 97% avec seulement une baisse de précision d’environ 2% dans des tâches de TALN en aval.