Apprentissage de représentations d'auteurs et de documents : approches probabilistes à partir de représentations pré-entraînées.
Auteur / Autrice : | Antoine Gourru |
Direction : | Julien Velcin, Julien Jacques |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 23/11/2021 |
Etablissement(s) : | Lyon |
Ecole(s) doctorale(s) : | École doctorale en Informatique et Mathématiques de Lyon |
Partenaire(s) de recherche : | Laboratoire : Entrepôts, Représentation et Ingénierie des Connaissances |
établissement opérateur d'inscription : Université Lumière (Lyon ; 1969-....) | |
Jury : | Président / Présidente : Christophe Gravier |
Examinateurs / Examinatrices : Lynda Tamine-Lechani | |
Rapporteurs / Rapporteuses : Marianne Clausel, Benjamin Piwowarski |
Mots clés
Mots clés contrôlés
Résumé
La révolution numérique a entraîné une croissance exponentielle de la quantité d'informations stockées à long terme. Une part importante de cette information est textuelle (pages Web, médias sociaux, etc.). Les modèles de traitement du langage naturel (NLP), qui permettent de classer ou de regrouper cette information, ont besoin que le texte soit représenté sous forme d'objets mathématiques : on parle alors d'apprentissage de représentations. L'objectif de l'apprentissage de représentations est de construire des représentations d'objets textuels (mots, documents, auteurs) dans un espace vectoriel de faible dimension. La similarité entre les représentations vectorielles de ces objets devrait être liée à leur proximité sémantique ou à leur similarité stylistique. En plus du texte lui-même, les documents sont souvent associés à des métadonnées. Ils peuvent être liés (par exemple, par des références hypertextes), associés à leurs auteurs, et horodatés. Il a été démontré que ces informations améliorent la qualité de la représentation d'un document. Néanmoins, l'incorporation de ces métadonnées n'est pas triviale. De plus, le langage naturel a rapidement évolué au cours des dernières décennies. Les modèles de représentation sont maintenant entraînés sur des quantités massives de données textuelles et affinés pour des tâches spécifiques. Ces modèles sont d'un grand intérêt lorsqu'on travaille avec de petits ensembles de données, permettant de transférer des connaissances à partir de sources d'information pertinentes. Il est crucial de développer des modèles d'apprentissage de représentations qui peuvent incorporer ces représentations pré-entraînées. La plupart des travaux antérieurs apprennent une représentation ponctuelle. C'est une limitation sérieuse car la langue est plus complexe que cela : les mots sont souvent polysémiques, et les documents sont, la plupart du temps, sur plusieurs sujets. Une branche de la littérature propose d'apprendre des distributions probabilistes dans un espace sémantique pour contourner ce problème. Dans cette thèse, nous présentons tout d'abord la théorie de l'apprentissage automatique, ainsi qu'un aperçu général des travaux existants en apprentissage de représentations de mots et de documents (sans métadonnées). Nous nous concentrons ensuite sur l'apprentissage de représentations de documents liés. Nous présentons les travaux antérieurs du domaine et proposons deux contributions : le modèle RLE (Regularized Linear Embedding), et le modèle GELD (Gaussian Embedding of Linked Documents). Ensuite, nous explorons l'apprentissage des représentations d'auteurs et de documents dans le même espace vectoriel. Nous présentons les travaux les plus récents et notre contribution VADE (Variational Authors and Documents Embedding). Enfin, nous étudions la problématique de l'apprentissage de représentations dynamiques d'auteurs : leurs représentations doivent évoluer dans le temps. Nous présentons d'abord les modèles existants, puis nous proposons une contribution originale, DGEA (Dynamic Gaussian Embedding of Authors). De plus, nous proposons plusieurs axes scientifiques pour améliorer nos contributions, et quelques questions ouvertes pour de futures recherches.