Apprentissage de réseaux causaux interprétables à partir de très grands ensembles de données, application à 400 000 dossiers médicaux de patients atteints d'un cancer du sein
Auteur / Autrice : | Marcel Da Câmara Ribeiro-Dantas |
Direction : | Hervé Isambert, Anne-Sophie Hamy |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Soutenance le 04/07/2022 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Physique des Cellules et Cancer (Paris ; 2024-....) |
Jury : | Président / Présidente : Nathalie Villa-Vialaneix |
Examinateurs / Examinatrices : Michèle Sebag | |
Rapporteurs / Rapporteuses : Laura Cantini, Jean-Christophe Thalabard |
Mots clés
Résumé
Découvrir des relations de cause à effet dans des contextes non expérimentaux s'est avéré très complexe, étant donné les nombreuses limitations et biais que présentent les données d'observation. Les progrès récents dans les méthodologies de découverte causale et dans la littérature sur l'inférence causale ont contribué au développement de techniques qui permettent l'apprentissage de la structure causale sous-jacente des événements enregistrés par les données d'observation. L'approche améliorée et utilisée dans cette thèse est basée sur de nouvelles méthodes de théorie de l'information permettant d'analyser des données cliniques provenant de ~400000 dossiers et rapports de consultations médicales de patientes atteintes de cancer du sein, diagnostiquées aux États-Unis entre 2010 et 2016 dans le cadre du programme SEER. Si de nombreuses méthodes ont été développées pour identifier des corrélations dans des dossiers cliniques hétérogènes, un défi majeur demeure : mettre en exergue des relations causales pour orienter la compréhension clinique et les traitements avec des méthodes novatrices d'analyse des données. Outre le cancer de la peau, le cancer du sein est le cancer le plus fréquent chez les femmes aux États-Unis et la deuxième cause de décès par cancer chez les femmes. Pourtant, peu d'efforts ont été déployés pour analyser la grande quantité de données d'observation liées à cette maladie dans une perspective causale. En analysant les données SEER, il a été possible d'inférer un réseau présentant de nombreuses relations causales putatives et réelles, soutenant les découvertes précédentes dans la littérature, mais mettant également en lumière de nouvelles discussions.