Intégration de données omiques de la peau issues d'expériences multi-groupes
| Auteur / Autrice : | Aurelie Mercadie |
| Direction : | Nathalie Villa-Vialaneix, Céline Brouard |
| Type : | Thèse de doctorat |
| Discipline(s) : | Mathématiques et Applications |
| Date : | Soutenance le 14/05/2025 |
| Etablissement(s) : | Université de Toulouse (2023-....) |
| Ecole(s) doctorale(s) : | École doctorale Mathématiques, informatique et télécommunications (Toulouse) |
| Partenaire(s) de recherche : | Laboratoire : Unité de Mathématiques et Informatique Appliquées (Toulouse) |
| Etablissement de délivrance conjointe : Université de Toulouse (EPE ; 2025-....) | |
| Jury : | Président / Présidente : Pierre Neuvial |
| Examinateurs / Examinatrices : Laura Cantini | |
| Rapporteurs / Rapporteuses : Alice Cleynen, François Husson |
Mots clés
Résumé
Le développement des approches haut débit en biologie permet dorénavant la production massive de données dites ''omiques'', et ce pour des contextes applicatifs variés. Généralement acquis sur les mêmes échantillons, chacun de ces tableaux de données omiques illustre une partie seulement d'un système biologique complexe. En recherche clinique, ces échantillons sont également souvent stratifiés en groupes (sains / malades ; contrôles / traités) qui constituent un contraste d'intérêt pour les biologistes. L'intégration des différents tableaux et de l'attribut clinique permet donc d'étudier le système biologique dans sa globalité, et de mettre en lumière les relations existantes entre les divers acteurs moléculaires caractérisant la typologie clinique des patients. Or, peu d'approches multi-tables abordent ce type de problèmes mixtes (supervisé et non supervisé) et celles-ci souffrent souvent d'un manque d'interprétabilité. Dans cette thèse, j'ai abordé cette question en développant une approche d'intégration de données mixte. Celle-ci est fondée sur l'extension de la factorisation par matrices positives (NMF) supervisée. Elle produit une décomposition qui s'explique aisément en termes de signatures moléculaires multi-omiques, typiques de chacun des groupes caractérisant les patients. Notre contribution inclut une proposition pour obtenir des signatures parcimonieuses, par le biais d'une pénalité l1. Le problème d'optimisation obtenu est généralement résolu par une approche dite ''multiplicative'' mais qui produit de la parcimonie approximative. Parmi mes contributions, j'ai donc proposé une nouvelle approche de résolution, basée sur une technique d'optimisation proximale. Cette approche permet d'améliorer l'interprétation des signatures en les rendant directement parcimonieuses. La méthode développée, NMFProfiler, et ses deux résolutions (multiplicative et proximale) ont été implémentées dans une librairie Python disponible sur PyPI. Elle a été testée sur des données simulées et comparée aux alternatives de l'état de l'art. Enfin, dans une troisième partie de cette thèse, j'ai illustré la pertinence de la méthode pour explorer des problématiques de pathologies de peau et d'oncologie. L'analyse transcriptomique et protéomique d'épiderme de patients atteints ou non de Dermatite Atopique (DA) a permis d'identifier une signature multi-omiques spécifique de la DA. L'analyse épigénétique et transcriptomique d'échantillons de résection issus de patients atteints de cancer colorectal a permis de caractériser globalement les différents grades de cette maladie.