Inférence de réseaux à partir de données d'abondances incomplètes
Auteur / Autrice : | Raphaëlle Momal |
Direction : | Stéphane Robin, Christophe Ambroise |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 12/11/2020 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale de mathématiques Hadamard |
Partenaire(s) de recherche : | référent : Faculté des sciences d'Orsay |
Laboratoire : Laboratoire Mathématiques et Informatique Appliquées (Paris) | |
Jury : | Président / Présidente : Viet Chí Tran |
Examinateurs / Examinatrices : Florence Forbes, Otso Ovaskainen, Camille Coron, Stéphane Dray | |
Rapporteurs / Rapporteuses : Florence Forbes, Otso Ovaskainen |
Mots clés
Mots clés contrôlés
Résumé
Les réseaux sont utilisés comme outils en microbiologie et en écologie pour représenter des relations entre espèces. Les modèles graphiques gaussiens sont le cadre mathématique dédié à l'inférence des réseaux de dépendances conditionnelles, qui permettent une séparation claires des effets directs et indirects. Cependant, les données observées sont souvent des comptages discrèts qui ne permettent pas l'utilisation de ce modèle. Cette thèse développe une méthodologie pour l'inférence de réseaux à partir de données d'abondance d'espèces. La méthode repose sur une exploration efficace et exhaustive de l'espace des arbres couvrants dans un espace latent des comptages observés, rendue possible par les propriétés algébriques de ces structures.Par ailleurs, il est probable que les comptages observés dépendent d'acteurs non mesurés (espèces ou covariable). Ce phénomène produit des arêtes supplémentaires dans le réseau marginal entre les espèces liées à l'acteur manquant dans le réseau complet, ce qui fausse la suite des analyses. Le second objectif de ce travail est de prendre en compte les acteurs manquants lors de l'inférence de réseau. Les paramètres du modèle proposé sont estimés par une approche variationnelle, qui fournit des éléments d'information pertinents à propos des données non observées.