Improving methods to learn word representations for efficient semantic similarites computations | Theses.fr

Julien Tissier

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Amélioration des méthodes d’apprentissage de représentations de mots pour des calculs de similarités sémantiques efficaces

FR |

EN

Auteur / Autrice :	Julien Tissier
Direction :	Christophe Gravier, Amaury Habrard
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 04/05/2020
Etablissement(s) :	Lyon
Ecole(s) doctorale(s) :	École doctorale Sciences Ingénierie Santé (Saint-Etienne)
Partenaire(s) de recherche :	Equipe de recherche : Laboratoire Hubert Curien (Saint-Etienne ; 1995-....)
	établissement opérateur d'inscription : Université Jean Monnet (Saint-Étienne ; 1969-....)
	Laboratoire : Laboratoire Hubert Curien (Saint-Etienne ; 1995-....)
Jury :	Président / Présidente : Élisa Fromont
	Examinateurs / Examinatrices : Élisa Fromont, Laure Soulier
	Rapporteurs / Rapporteuses : Massih-Reza Amini, Julien Velcin

Mots clés

FR |

EN

Mots clés contrôlés

Langages de programmation -- Sémantique

Algorithmes

Traitement automatique du langage naturel

Mots clés libres

Représentations de mots

Vecteurs binaires

Représentations sémantiques

Résumé

FR |

EN

De nombreuses applications en traitement du langage naturel (TALN) reposent sur les représentations de mots, ou “word embeddings”. Ces représentations doivent capturer à la fois de l’information syntaxique et sémantique pour donner des bonnes performances dans les tâches en aval qui les utilisent. Cependant, les méthodes courantes pour les apprendre utilisent des textes génériques comme Wikipédia qui ne contiennent pas d’information sémantique précise. De plus, un espace mémoire important est requis pour pouvoir les sauvegarder car le nombre de représentations de mots à apprendre peut être de l’ordre du million. Le sujet de ma thèse est de développer de nouveaux algorithmes pour améliorer l’information sémantique dans les word embeddings tout en réduisant leur taille en mémoire lors de leur utilisation dans des tâches en aval de TALN.La première partie de mes travaux améliore l’information sémantique contenue dans les word embeddings. J’ai développé dict2vec, un modèle qui utilise l’information des dictionnaires linguistiques lors de l’apprentissage des word embeddings. Les word embeddings appris par dict2vec obtiennent des scores supérieurs d’environ 15% par rapport à ceux appris avec d’autres méthodes sur des tâches de similarités sémantiques de mots. La seconde partie de mes travaux consiste à réduire la taille mémoire des word embeddings. J’ai développé une architecture basée sur un auto-encodeur pour transformer des word embeddings à valeurs réelles en vecteurs binaires, réduisant leur taille mémoire de 97% avec seulement une baisse de précision d’environ 2% dans des tâches de TALN en aval.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Amélioration des méthodes d’apprentissage de représentations de mots pour des calculs de similarités sémantiques efficaces

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Amélioration des méthodes d’apprentissage de représentations de mots pour des calculs de similarités sémantiques efficaces

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses