Méthodes d'inférence causale et d'apprentissage automatique pour les données biologiques hétérogènes
Auteur / Autrice : | Louis Montagne |
Direction : | Hervé Isambert, Maria Carla Parrini |
Type : | Projet de thèse |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Inscription en doctorat le 15/09/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Physique des Cellules et Cancer (Paris ; 2024-....) |
Equipe de recherche : Dynamique de l'ARN et systèmes biomoléculaires |
Mots clés
Mots clés libres
Résumé
L'imagerie par microscopie à intervalles réguliers et la transcriptomique de cellules uniques, désormais couramment utilisées dans les laboratoires de biologie cellulaire et du développement, génèrent d'énormes quantités d'images vidéo et de données d'expression génique à une résolution cellulaire unique. Cependant, cette richesse de données hétérogènes reste largement sous-exploitée en raison du manque de méthodes et d'outils non supervisés pour les analyser. Cela souligne la nécessité de développer de nouvelles stratégies d'apprentissage automatique et d'intelligence artificielle pour exploiter au mieux la richesse et la complexité des informations contenues dans les données de biologie cellulaire et du développement résolues dans l'espace et le temps. Le laboratoire Isambert a mis au point de nouvelles méthodes et outils d'inférence causale (https://miic.curie.fr, paquet R MIIC) pour apprendre les relations de cause à effet dans divers ensembles de données biologiques ou cliniques, des données de transcriptomique et d'altération génomique de cellules uniques (Verny et al. 2017, Sella et al. 2018, Desterke et al. 2020) aux dossiers médicaux des patients (Cabeli et al. 2020, Sella et al. 2022, Ribeiro Dantas et al. 2023). Ces méthodes d'apprentissage automatique combinent l'analyse d'informations multivariées avec des modèles graphiques interprétables (Li et al. 2019, Cabeli et al. 2021, Ribeiro Dantas et al. 2023) et surpassent d'autres méthodes sur un large éventail de références, obtenant de meilleurs résultats avec seulement dix à cent fois moins d'échantillons. Ces méthodes ont également récemment été adaptées pour analyser des données de séries temporelles telles que des images en direct de cellules sur une puce, qui sont des micro-tumeurs reconstituées in vitro (Simon et al. 2023). Le présent projet de thèse de doctorat étendra ces méthodes d'inférence causale et d'apprentissage automatique non supervisé pour analyser des données hétérogènes à grande échelle avec des applications pour l'imagerie en 3D à intervalles de temps (c'est-à-dire l'imagerie 4D) et les données transcriptomiques de cellules uniques sur des systèmes multicellulaires en 3D, tels que les ''gastruloids'', qui sont des modèles précoces de développement mammifère dérivés de cellules souches embryonnaires, en collaboration avec nos partenaires biologistes et biophysiciens du consortium multidisciplinaire MecaCell3D. En particulier, la méthode sera appliquée à l'analyse des écosystèmes de ''tumeurs sur puce'', en collaboration avec MC Parrini (Institut Curie).