Prévision de liens dans des grands graphes de terrain (application aux réseaux bibliographiques)
Auteur / Autrice : | Manisha Pujari |
Direction : | Céline Rouveirol |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 04/03/2015 |
Etablissement(s) : | Sorbonne Paris Cité |
Ecole(s) doctorale(s) : | École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) |
Partenaire(s) de recherche : | établissement de préparation : Université Sorbonne Paris Nord (Bobigny, Villetaneuse, Seine-Saint-Denis ; 1970-....) |
Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....) | |
Jury : | Président / Présidente : Aldo Gangemi |
Examinateurs / Examinatrices : Rushed Kanawati, Christophe Prieur | |
Rapporteurs / Rapporteuses : Céline Robardet, Bénédicte Le Grand |
Mots clés
Mots clés contrôlés
Résumé
Nous nous intéressons dans ce travail au problème de prévision de nouveaux liens dans des grands graphes de terrain. Nous explorons en particulier les approches topologiques dyadiques pour la prévision de liens. Différentes mesures de proximité topologique ont été étudiées dans la littérature pour prédire l’apparition de nouveaux liens. Des techniques d’apprentissage supervisé ont été aussi utilisées afin de combiner ces différentes mesures pour construire des modèles prédictifs. Le problème d’apprentissage supervisé est ici un problème difficile à cause notamment du fort déséquilibre de classes. Dans cette thèse, nous explorons différentes approches alternatives pour améliorer les performances des approches dyadiques pour la prévision de liens. Nous proposons d’abord, une approche originale de combinaison des prévisions fondée sur des techniques d’agrégation supervisée de listes triées (ou agrégation de préférences). Nous explorons aussi différentes approches pour améliorer les performances des approches supervisées pour la prévision de liens. Une première approche consiste à étendre l’ensemble des attributs décrivant un exemple (paires de noeuds) par des attributs calculés dans un réseau multiplexe qui englobe le réseau cible. Un deuxième axe consiste à évaluer l’apport destechniques de détection de communautés pour l’échantillonnage des exemples. Des expérimentations menées sur des réseaux réels extraits de la base bibliographique DBLP montrent l’intérêt des approaches proposées.