Thèse soutenue

Modèles probabilistes profonds pour les systèmes de recommandation et le clustering de réseaux

FR  |  
EN
Auteur / Autrice : Dingge Liang
Direction : Charles BouveyronPierre Latouche
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 15/12/2022
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences fondamentales et appliquées (Nice ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire J.-A. Dieudonné (Nice) - Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Hervé Delingette
Examinateurs / Examinatrices : Charles Bouveyron, Pierre Latouche, Hervé Delingette, Pierre Barbillon, Monica Bianchini, Marco Corneli, Chloé Friguet, Claire Gormley
Rapporteurs / Rapporteuses : Pierre Barbillon, Monica Bianchini

Résumé

FR  |  
EN

Avec le développement du numérique, les données ordinales, liées à l'évaluation de produits ou services, sont omniprésentes sur des sites web tels qu'Amazon et Yelp. En effet, les clients peuvent obtenir des informations précieuses sur les produits et les services à partir de données de ce type, ce qui les aide à prendre des décisions. En outre, les systèmes complexes peuvent souvent être modélisés sous forme de réseaux, qu'il s'agisse de médias sociaux, de communications par courrier électronique ou d'interactions protéine-protéine, car il s'agit de structures simples mais capables de modéliser de tels systèmes. En outre, avec le développement d'Internet et la croissance des médias sociaux, des quantités massives de données textuelles sont générées sous la forme de blogs, de tweets, de commentaires et d'enquêtes. Chaque type de données possède des propriétés uniques et une variété d'avantages pratiques. En effet, ces données peuvent être utilisées individuellement pour diverses tâches, mais elles peuvent également être combinées, ce qui entraîne les problèmes typiques qui surviennent lorsque des données hétérogènes sont considérées.Dans cette thèse, nous analysons ces trois types de données à travers trois modèles génératifs profonds, qui combinent la modélisation probabiliste et les techniques d'apprentissage profond. Premièrement, nous introduisons un système de recommandation latent profond (deepLTRS) afin de fournir aux utilisateurs des recommandations de haute qualité basées sur les évaluations observées des utilisateurs et les textes des critiques de produits. Notre approche adopte une architecture d'auto-encodeur variationnel (VAE) comme modèle latent génératif profond pour une matrice ordinale codant les évaluations et une matrice de termes et documents codant les critiques. Des expériences numériques sur des ensembles de données simulées et réelles démontrent que deepLTRS surpasse l'état de l'art, en particulier dans le contexte d'une extrême rareté des données. Le modèle de positions latentes profond (DeepLPM) est ensuite présenté comme une approche de clustering génératif de bout en bout qui combine le modèle de position latente couramment utilisé pour l'analyse de réseau avec une stratégie d'encodage de réseau convolutif de graphes. Des expériences numériques sur des scénarios simulés mettent en évidence ses capacités de clustering. DeepLPM est ensuite appliqué à un réseau ecclésiastique de la Gaule mérovingienne et au réseau de citations Cora pour illustrer l'intérêt pratique de l'exploration de grands réseaux complexes du monde réel. Enfin, nous proposons un encodeur de réseau convolutif de graphes basé sur la similarité des documents (DS-GCN) pour combiner les réseaux convolutifs de graphes et les modèles thématiques intégrés pour une représentation de réseaux riches en texte. En incluant une variable d'appartenance à un groupe, nous construisons ainsi une méthode de regroupement de « bout en bout » appelée GETM. La capacité de GETM à fusionner la structure topologique du graphe et les modèles thématiques intégrés est démontrée par des expériences numériques sur trois réseaux synthétiques, qui soulignent également ses performances en matière de clustering de nœuds.