Thèse soutenue

Deux méthodes statistiques pour la sélection de modèles de graphes : La distance à l'ensemble microcanonique et l'inférence préquentielle sur les séquences d'arêtes

FR  |  
EN
Auteur / Autrice : Louis Duvivier
Direction : Céline Robardet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 26/11/2021
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale InfoMaths (Lyon ; 2009-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Institut national des sciences appliquées (Lyon ; 1957-....)
Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône ; 2003-....) - Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS
Equipe de recherche : Data Mining and Machine Learning - DM2L
Jury : Président / Présidente : Pierre Borgnat
Examinateurs / Examinatrices : Céline Robardet, Pierre Borgnat, Catherine Matias, Lionel Tabourier, Rémy Cazabet, Tiago Peixoto
Rapporteur / Rapporteuse : Catherine Matias, Lionel Tabourier

Résumé

FR  |  
EN

Depuis vingt-cinq ans, l’étude de réseaux complexes est un domaine de recherche particulièrement actif. La taille des réseaux étudiés impose de modéliser leur structure pour la rendre compréhensible. De nombreux modèles ont été proposés pour cela, basés sur le degré des nœuds, une partition des nœuds en blocs, des plongements dans des espaces sous-jacents, etc. L’estimation des paramètres de ces modèles a mis en évidence la nécessité d’une approche statistique rigoureuse pour éviter le sur-apprentissage aussi bien que le sous-apprentissage. Dans cette thèse, nous nous appuyons sur ces résultats pour proposer deux méthodologies qui permettent d’évaluer la pertinence d’un modèle pour un graphe donné. Dans un premier temps, nous avons étudié la structure géométrique de l’ensemble microcanonique, mettant en évidence un rayon caractéristique pour plusieurs modèles. Cela nous a permis de proposer un test statistique s’inspirant des principes de la p-valeur pour tester un modèle. Dans un deuxième temps, pour pallier au problème du manque d’observation par rapport au nombre de paramètres des modèles considérés, nous nous sommes concentrés sur des modèles d’arêtes. Cela nous a permis de proposer une méthodologie pour évaluer un modèle, basée sur la longueur de description minimale. Ses avantages principaux sont d’une part des fondements statistiques rigoureux qui permettent une interprétation des résultats obtenus, et d’autre part une formulation commune pour des modèles de nature différente (SBM et configuration model, par exemple), qui permet de comparer leurs performances sur un même graphe. Tout au long de notre travail, nous nous sommes attachés à suivre une approche formelle qui nous a permis de prouver plusieurs résultats sur les méthodes proposées, en particulier concernant la convergence des estimateurs.