Thèse soutenue

Recherche de structure dans un graphe aléatoire : modèles à espace latent

FR  |  
EN
Auteur / Autrice : Antoine Channarond
Direction : Jean-Jacques DaudinStéphane Robin
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 10/12/2013
Etablissement(s) : Paris 11
Ecole(s) doctorale(s) : Ecole doctorale Mathématiques de la région Paris-Sud (1992-2015 ; Orsay)
Partenaire(s) de recherche : Laboratoire : Laboratoire Mathématiques et Informatique Appliquées (Paris)
Jury : Président / Présidente : Gérard Biau
Examinateurs / Examinatrices : Jean-Jacques Daudin, Stéphane Robin, Gérard Biau, Étienne Birmelé, Anne Estrade, Christophe Giraud
Rapporteur / Rapporteuse : Étienne Birmelé, Eric D. Kolaczyk

Résumé

FR  |  
EN

Cette thèse aborde le problème de la recherche d'une structure (ou clustering) dans lesnoeuds d'un graphe. Dans le cadre des modèles aléatoires à variables latentes, on attribue à chaque noeud i une variable aléatoire non observée (latente) Zi, et la probabilité de connexion des noeuds i et j dépend conditionnellement de Zi et Zj . Contrairement au modèle d'Erdos-Rényi, les connexions ne sont pas indépendantes identiquement distribuées; les variables latentes régissent la loi des connexions des noeuds. Ces modèles sont donc hétérogènes, et leur structure est décrite par les variables latentes et leur loi; ce pourquoi on s'attache à en faire l'inférence à partir du graphe, seule variable observée.La volonté commune des deux travaux originaux de cette thèse est de proposer des méthodes d'inférence de ces modèles, consistentes et de complexité algorithmique au plus linéaire en le nombre de noeuds ou d'arêtes, de sorte à pouvoir traiter de grands graphes en temps raisonnable. Ils sont aussi tous deux fondés sur une étude fine de la distribution des degrés, normalisés de façon convenable selon le modèle.Le premier travail concerne le Stochastic Blockmodel. Nous y montrons la consistence d'un algorithme de classiffcation non supervisée à l'aide d'inégalités de concentration. Nous en déduisons une méthode d'estimation des paramètres, de sélection de modèles pour le nombre de classes latentes, et un test de la présence d'une ou plusieurs classes latentes (absence ou présence de clustering), et nous montrons leur consistence.Dans le deuxième travail, les variables latentes sont des positions dans l'espace ℝd, admettant une densité f, et la probabilité de connexion dépend de la distance entre les positions des noeuds. Les clusters sont définis comme les composantes connexes de l'ensemble de niveau t > 0 fixé de f, et l'objectif est d'en estimer le nombre à partir du graphe. Nous estimons la densité en les positions latentes des noeuds grâce à leur degré, ce qui permet d'établir une correspondance entre les clusters et les composantes connexes de certains sous-graphes du graphe observé, obtenus en retirant les nœuds de faible degré. En particulier, nous en déduisons un estimateur du nombre de clusters et montrons saconsistence en un certain sens