Développements méthodologiques pour l'intégration de données omiques : applications à l'oncologie et aux neurosciences
Auteur / Autrice : | Galadriel Briere |
Direction : | Patricia Thébault, Agnès Nadjar, Raluca Uricaru |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 23/11/2022 |
Etablissement(s) : | Bordeaux |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et informatique (Talence, Gironde ; 1991-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire bordelais de recherche en informatique |
Jury : | Président / Présidente : Guillaume Blin |
Examinateurs / Examinatrices : Laurent Bréhélin, Jacques Van Helden | |
Rapporteur / Rapporteuse : Christophe Ambroise, Hélène Hirbec |
Mots clés
Résumé
Les données dites ''omiques'', sont des données massives et hétérogènes, issues de la mesure de différents objets biologiques. Par exemple, la génomique s'intéresse à l'étude du génome (ADN), la transcriptomique à l'étude des transcrits (ARNs), la protéomique à l'étude des protéines, etc. L'interaction de l'ensemble de ces omiques entre elles ainsi qu'avec des facteurs environnementaux produit - à l’échelle d’une cellule, d’un tissu, ou d’un organisme - un ensemble de caractères observables appelé phénotype. Un des objectifs ultimes de la recherche en sciences de la vie est l’élucidation de la diversité du phénome (c’est-à-dire de l’ensemble des phénotypes observables) par l’identification des facteurs internes, environnementaux et de leurs interactions, associés à chaque phénotype.Ce manuscrit de thèse aborde la question de l’intégration de données - définie comme une solution permettant l'utilisation de multiples sources d'information (données) pour mieux comprendre un système, une situation, une association, etc. - et particulièrement de la question de l’intégration de données omiques, c’est-à-dire tout type d'intégration de sources de données provenant de différentes omiques, et/ou d'une même omique mesurée dans différents contextes expérimentaux et/ou de données omiques avec un type de données non-omique.Dans une première contribution, nous proposons une nouvelle stratégie pour le clustering consensus de données multi-omiques pour la détection de sous-types moléculaires de cancers. Cette stratégie permet, à partir de clusterings de cohortes de patients obtenus en considérant diverses données omiques et/ou différents algorithmes de clusterings existants, de produire un clustering consensus en réconciliant l’ensemble des prédictions contenues dans les clusterings soumis en entrée de l’algorithme. Deux scénarios d’intégration ont été testés : une intégration dite ''multi-to-multi'', produite par intégration de clusterings multi-omiques et une intégration dite ''single-to-multi'', produite par l’intégration de clusterings générés indépendamment pour différents omiques.Dans une seconde contribution, nous proposons une stratégie de détection de groupes de liens différentiellement co-exprimés identifiés par la comparaison de plusieurs jeux de données de type cas/contrôle. Elle repose sur la construction et l’analyse de réseaux multi-couches de co-expression différentielle, chaque couche représentant l'ensemble des dérégulations de la co-expression génique observée pour un contexte expérimental donné. La détection de groupes de liens de co-expression différentielle topologiquement similaires (c’est-à-dire impliquant un même ensemble de gènes) et observées dans les mêmes sous-ensembles de couches du réseau permet d’identifier des mécanismes associés à une maladie dans différents contextes expérimentaux (tissus, stade de développement, etc.), ou associés à différentes maladies. Nous avons appliqué la stratégie développée à la détection de motifs de co-expression différentielle dans l’hippocampe et le cortex de souris modèles de la maladie d’Alzheimer, ce qui nous a permis d’identifier des motifs clés de dérégulation de l’expression génique associés au phénotype pathologique. Certains de ces motifs ont été observés dans le cortex comme dans l’hippocampe, tandis que d’autres apparaissent spécifiques à l’une ou l’autre des deux structures cérébrales. Cette preuve de concept démontre la pertinence de la stratégie pour l’identification de perturbations de la co-régulation génique et la caractérisation transcriptomique de la diversité des phénotypes.