Thèse soutenue

Prévision de liens dans des grands graphes de terrain (application aux réseaux bibliographiques)

FR  |  
EN
Auteur / Autrice : Manisha Pujari
Direction : Céline Rouveirol
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 04/03/2015
Etablissement(s) : Sorbonne Paris Cité
Ecole(s) doctorale(s) : École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche : établissement de préparation : Université Sorbonne Paris Nord (Bobigny, Villetaneuse, Seine-Saint-Denis ; 1970-....)
Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....)
Jury : Président / Présidente : Aldo Gangemi
Examinateurs / Examinatrices : Rushed Kanawati, Christophe Prieur
Rapporteurs / Rapporteuses : Céline Robardet, Bénédicte Le Grand

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Nous nous intéressons dans ce travail au problème de prévision de nouveaux liens dans des grands graphes de terrain. Nous explorons en particulier les approches topologiques dyadiques pour la prévision de liens. Différentes mesures de proximité topologique ont été étudiées dans la littérature pour prédire l’apparition de nouveaux liens. Des techniques d’apprentissage supervisé ont été aussi utilisées afin de combiner ces différentes mesures pour construire des modèles prédictifs. Le problème d’apprentissage supervisé est ici un problème difficile à cause notamment du fort déséquilibre de classes. Dans cette thèse, nous explorons différentes approches alternatives pour améliorer les performances des approches dyadiques pour la prévision de liens. Nous proposons d’abord, une approche originale de combinaison des prévisions fondée sur des techniques d’agrégation supervisée de listes triées (ou agrégation de préférences). Nous explorons aussi différentes approches pour améliorer les performances des approches supervisées pour la prévision de liens. Une première approche consiste à étendre l’ensemble des attributs décrivant un exemple (paires de noeuds) par des attributs calculés dans un réseau multiplexe qui englobe le réseau cible. Un deuxième axe consiste à évaluer l’apport destechniques de détection de communautés pour l’échantillonnage des exemples. Des expérimentations menées sur des réseaux réels extraits de la base bibliographique DBLP montrent l’intérêt des approaches proposées.