Thèse soutenue

Apprentissage de graphes causaux à partir de données continues ou mixtes d’intérêt biologique ou clinique

FR  |  
EN
Auteur / Autrice : Vincent Cabeli
Direction : Hervé Isambert
Type : Thèse de doctorat
Discipline(s) : Informatique, télécommunications et électronique
Date : Soutenance le 15/12/2021
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Physico-chimie Curie (Paris ; 1996-....)
Jury : Président / Présidente : Simona Cocco
Examinateurs / Examinatrices : Chloé-Agathe Azencott, Pierre-Henri Wuillemin
Rapporteurs / Rapporteuses : Simon de Givry, Philippe Leray

Résumé

FR  |  
EN

Les travaux de cette thèse s’inscrivent dans la théorie principalement développée par Judea Pearl sur les diagrammes causaux; des modèles graphiques qui permettent de dériver toutes les quantités causales d’intérêt formellement et intuitivement. Nous traitons le problème de l’inférence de réseau causal à partir uniquement de données d’observation, c’est-à-dire sans aucune intervention de la part de l’expérimentateur. En particulier, nous proposons d’améliorer les méthodes existantes pour les rendre plus aptes à analyser des données issues du monde réel, en nous affranchissant le plus possible des contraintes sur les distributions des données, et en les rendant plus interprétables. Nous proposons une extension de MIIC, une approche basée sur les contraintes et la théorie de l’information pour retrouver la classe d’équivalence du graphe causal à partir d’observations. Notre contribution est un algorithme de discrétisation optimale basé sur le principe de description minimale pour simultanément estimer la valeur de l’information mutuelle (et multivariée) et évaluer sa significativité entre des échantillons de variables de n’importe quelle nature : continue, catégorique ou mixte. Nous mettons à profit ces développements pour analyser des jeux de données mixtes d'intérêt clinique (dossiers médicaux de patients atteints de troubles cognitifs; ou du cancer du sein) ou biologique (réseaux de régulation génique de cellules précurseur hématopoïétiques).