Apprentissage de graphes causaux à partir de données continues ou mixtes d’intérêt biologique ou clinique
Auteur / Autrice : | Vincent Cabeli |
Direction : | Hervé Isambert |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique, télécommunications et électronique |
Date : | Soutenance le 15/12/2021 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : Physico-chimie Curie (Paris ; 1996-....) |
Jury : | Président / Présidente : Simona Cocco |
Examinateurs / Examinatrices : Chloé-Agathe Azencott, Pierre-Henri Wuillemin | |
Rapporteurs / Rapporteuses : Simon de Givry, Philippe Leray |
Mots clés
Résumé
Les travaux de cette thèse s’inscrivent dans la théorie principalement développée par Judea Pearl sur les diagrammes causaux; des modèles graphiques qui permettent de dériver toutes les quantités causales d’intérêt formellement et intuitivement. Nous traitons le problème de l’inférence de réseau causal à partir uniquement de données d’observation, c’est-à-dire sans aucune intervention de la part de l’expérimentateur. En particulier, nous proposons d’améliorer les méthodes existantes pour les rendre plus aptes à analyser des données issues du monde réel, en nous affranchissant le plus possible des contraintes sur les distributions des données, et en les rendant plus interprétables. Nous proposons une extension de MIIC, une approche basée sur les contraintes et la théorie de l’information pour retrouver la classe d’équivalence du graphe causal à partir d’observations. Notre contribution est un algorithme de discrétisation optimale basé sur le principe de description minimale pour simultanément estimer la valeur de l’information mutuelle (et multivariée) et évaluer sa significativité entre des échantillons de variables de n’importe quelle nature : continue, catégorique ou mixte. Nous mettons à profit ces développements pour analyser des jeux de données mixtes d'intérêt clinique (dossiers médicaux de patients atteints de troubles cognitifs; ou du cancer du sein) ou biologique (réseaux de régulation génique de cellules précurseur hématopoïétiques).