Thèse de doctorat en Informatique, télécommunications et électronique
Sous la direction de Hervé Isambert.
Soutenue le 15-12-2021
à Sorbonne université , dans le cadre de École doctorale Informatique, télécommunications et électronique de Paris , en partenariat avec Physico-chimie Curie (Paris ; 1996-....) (laboratoire) .
Le président du jury était Simona Cocco.
Le jury était composé de Chloé-Agathe Azencott, Pierre-Henri Wuillemin.
Les rapporteurs étaient Simon de Givry, Philippe Leray.
Apprentissage de graphes causaux à partir de données continues ou mixtes d’intérêt biologique ou clinique
Les travaux de cette thèse s’inscrivent dans la théorie principalement développée par Judea Pearl sur les diagrammes causaux; des modèles graphiques qui permettent de dériver toutes les quantités causales d’intérêt formellement et intuitivement. Nous traitons le problème de l’inférence de réseau causal à partir uniquement de données d’observation, c’est-à-dire sans aucune intervention de la part de l’expérimentateur. En particulier, nous proposons d’améliorer les méthodes existantes pour les rendre plus aptes à analyser des données issues du monde réel, en nous affranchissant le plus possible des contraintes sur les distributions des données, et en les rendant plus interprétables. Nous proposons une extension de MIIC, une approche basée sur les contraintes et la théorie de l’information pour retrouver la classe d’équivalence du graphe causal à partir d’observations. Notre contribution est un algorithme de discrétisation optimale basé sur le principe de description minimale pour simultanément estimer la valeur de l’information mutuelle (et multivariée) et évaluer sa significativité entre des échantillons de variables de n’importe quelle nature : continue, catégorique ou mixte. Nous mettons à profit ces développements pour analyser des jeux de données mixtes d'intérêt clinique (dossiers médicaux de patients atteints de troubles cognitifs; ou du cancer du sein) ou biologique (réseaux de régulation génique de cellules précurseur hématopoïétiques).
The work in this thesis follows the theory primarily developed by Judea Pearl on causal diagrams; graphical models that allow all causal quantities of interest to be derived formally and intuitively. We address the problem of causal network inference from observational data alone, i.e., without any intervention from the experimenter. In particular, we propose to improve existing methods to make them more suitable for analyzing real-world data, by freeing them as much as possible from constraints on data distributions, and by making them more interpretable. We propose an extension of MIIC, a constraint-based information-theoretic approach to recover the equivalence class of the causal graph from observations. Our contribution is an optimal discretization algorithm based on the minimum description length principle to simultaneously estimate the value of mutual (and multivariate) information and evaluate its significance between samples of variables of any nature: continuous, categorical or mixed. We use these developments to analyze mixed datasets of clinical (medical records of patients with cognitive disorders; or breast cancer and being treated by neoadjuvant chemotherapy) or biological interest (gene regulation networks of hematopoietic stem and precursor cells).
Il est disponible au sein de la bibliothèque de l'établissement de soutenance.