Thèse soutenue

Application de modèles de convolution et de mélange gaussiens pour l’identification des biomarqueurs clés sous-jacents à la variabilité des profils transcriptomiques et à la diversité des réponses thérapeutiques

FR  |  
EN
Auteur / Autrice : Bastien Chassagnol
Direction : Grégory NuelPierre-Henri WuilleminEtienne Becht
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 12/12/2023
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....)
Jury : Président / Présidente : Stéphane Robin
Examinateurs / Examinatrices : Marie Chion, Emeline Perthame
Rapporteurs / Rapporteuses : Zlatko Trajanoski, Julien Chiquet

Résumé

FR  |  
EN

La diversité des phénotypes et des conditions observées au sein de l'espèce humaine est le résultat de multiples processus biologiques interdépendants. Cependant, dans le contexte de la médecine personnalisée et du traitement de maladies de plus en plus complexes, systématiques et hétérogènes, il est crucial de développer des approches qui capturent de manière exhaustive la complexité des mécanismes biologiques sous-jacents à la variabilité des profils biologiques. Cela s'étend du niveau individuel au niveau cellulaire, englobant les tissus et les organes. Une telle précision et une telle granularité sont essentielles pour que les cliniciens, les biologistes et les statisticiens comprennent les causes sous-jacentes de la diversité des réponses aux traitements cliniques et puissent prédire d'éventuels effets indésirables. Afin d'aborder de manière exhaustive la complexité hiérarchique et stratifiée des systèmes biologiques, nous avons considéré deux niveaux d'étude dans ce manuscrit. Au niveau de granularité le plus bas, désigné dans ce manuscrit sous le terme "endotype", nous examinons les processus conduisant aux variations observées ans les profils d'expression transcriptomiques entre individus. Notamment, pour tenir compte de la variabilité non expliquée observée entre patients affectés par la même maladie, nous introduisons une variable latente discrète. Pour identifier les sous-groupes non observés, dépendant de cette variable cachée, nous utilisons des modèles de mélange probabilistes, en supposant que chaque profil transcriptomique individuel est échantillonné à partir d'une distribution gaussienne multivariée, dont les paramètres ne peuvent pas être directement estimés dans la population générale. Ensuite, nous nous intéressons à un niveau de complexité supplémentaire, en passant en revue les méthodes canoniques permettant d'estimer la composition des tissus, souvent très hétérogènes, au sein d'un même individu. Plus précisément, nous discutons de diverses techniques de déconvolution conçues pour estimer les ratios de populations cellulaires, ces dernières contribuant en proportions inconnues au profil transcriptomique global mesuré.Nous présentons ensuite notre propre algorithme de déconvolution, nommé "DeCovarT", qui offre une précision améliorée de la délimitation de populations cellulaires fortement corrélées, en incorporant explicitement les réseaux de co-expression propres à chaque type cellulaire purifié.