Thèse soutenue

Découverte causale sur des jeux de données classiques et temporels. Application à des modèles biologiques

FR  |  
EN
Auteur / Autrice : Franck Simon
Direction : Hervé Isambert
Type : Thèse de doctorat
Discipline(s) : Bioinformatique
Date : Soutenance le 01/12/2023
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Physique des Cellules et Cancer (Paris ; 2024-....)
Jury : Président / Présidente : Habib Mehrez
Examinateurs / Examinatrices : Charles Assaad, Marie-Elise Mercui, Christine Mantecon
Rapporteurs / Rapporteuses : Éric Gaussier, Benno Schwikowski

Résumé

FR  |  
EN

Cette thèse porte sur le domaine de la découverte causale, c’est-à-dire la construction de graphes causaux à partir de données observées, et en particulier, la découverte causale temporelle et la reconstruction de larges réseaux de régulation de gènes. Après un bref historique, ce mémoire introduit les principaux concepts, hypothèses et théorèmes aux fondements des graphes causaux ainsi que les deux grandes approches : à base de scores et à base de contraintes. La méthode MIIC (Multivariate Information-based Inductive Causation), développée au sein de notre laboratoire est ensuite décrite avec ses dernières améliorations : Interpretable MIIC. Les problématiques et solutions mises en œuvre pour construire une version temporelle (tMIIC) sont exposées ainsi que les benchmarks traduisant les avantages de tMIIC sur d’autres méthodes de l’état de l’art. L’application à des séquences d’images prises au microscope d’un environnement tumoral reconstitué sur des micro-puces permet d’illustrer les capacités de tMIIC à retrouver, uniquement à partir des données, des relations connues et nouvelles. Enfin, cette thèse introduit l’utilisation d’un a priori de conséquence pour appliquer la découverte causale à la reconstruction de réseaux de régulation de gènes. En posant l’hypothèse que tous les gènes, hormis les facteurs de transcription, sont des conséquences, il devient possible de reconstruire des graphes avec des milliers de gènes. La capacité à identifier des facteurs de transcription clés de novo est illustrée par une application à des données de séquençage d’ARN en cellules uniques avec identification de deux facteurs de transcription susceptibles d’être impliqués dans le processus biologique d’intérêt.