Thèse soutenue

Prédiction de liens par modèles à facteurs latents

FR  |  
EN
Auteur / Autrice : Sheng Gao
Direction : Patrick Gallinari
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2012
Etablissement(s) : Paris 6

Résumé

FR  |  
EN

Avec la croissance d'Internet et celle des médias sociaux, les données relationnelles, qui décrivent un ensemble d'objets liés entre eux par différents relations, sont devenues courantes. En conséquence, une grande variété d'applications, telles que les systèmes de recommandation, l'analyse de réseaux sociaux, la fouille de données Web ou la bioinformatique, ont motivé l'étude de techniques d'apprentissage relationnel. Parmi le large éventail de ces techniques, nous traitons dans cette thèse le problème de prédiction de liens. Le problème de la prédiction de liens est une tache fondamentale de l'apprentissage relationnel, consistant à prédire la présence ou l'absence de liens entre objets, à partir de la topologie du réseau et/ou les attributs des objets. Cependant, la complexité et la sparsité des réseaux font de cette tache un problème ardu. Dans cette thèse, nous proposons des solutions pour faciliter l'apprentissage dans le cas de différentes applications. Dans le chapitre 3, nous présentons un cadre unifié afin de traiter le problème générique de prédiction de liens. Nous discutons les différentes caractéristiques des modèles des points de vue probabiliste et computationnel. Ensuite, en se focalisant sur les applications traitées dans cette thèse, nous proposons des modèles à facteurs latents pour deux types de taches de prédiction de liens: (i) prédiction structurelle de liens et (ii) prédiction temporelle de liens. Concernant la prédiction structurelle de liens, nous proposons dans le chapitre 4 une nouvelle application que nous appellons Prédiction de Motifs de Liens (PML). Nous introduisons un facteur latent spécifique pour différents types de relations en plus de facteurs latents pour caractériser les objets. Nous présentons un modèle de actorisation tensorielle dans un cadre Bayésien pour révéler la causalité intrinsèque de l'interaction sociale dans les réseaux multi-relationnels. De plus, étant donné la structure complexe des données relationnelles, nous proposons dans le chapitre 5 un modèle qui incorpore simultanément l'effet des facteurs de caractéristiques latentes et l'impact de la structure en blocs du réseau. Concernant la prédiction temporelle de liens dans les réseaux dynamiques, nous proposons dans le Chapitre 6 un modèle latent unifié qui intègre des sources d'information multiples, la topologie globale du réseau, les attributs des noeuds et les informations de proximité du réseau afin de capturer les motifs d'évolution temporelle des liens. Ce modèle joint repose sur la factorisation latente de matrices et sur une techniques de régularisation pour graphes. Chaque modèle proposé dans cette thèse a des performances comparables ou supérieures aux méthodes existantes. Des évaluations complètes sont conduites sur des jeux de données réels pour démontrer leur performances supérieures sur les méthodes de base. La quasi-totalité d'entre eux ont fait l'objet d'une publication dans des conférences nationales ou internationales.