Thèse soutenue

Exploitation des outils statistiques pour l'intégration des données omiques en biologie végétale et animale

FR  |  
EN
Auteur / Autrice : Emile Mardoc
Direction : Jérôme Salse
Type : Thèse de doctorat
Discipline(s) : Bioinformatique
Date : Soutenance le 19/12/2023
Etablissement(s) : Université Clermont Auvergne (2021-...)
Ecole(s) doctorale(s) : Sciences de la Vie, Santé, Agronomie, Environnement
Partenaire(s) de recherche : Laboratoire : Génétique, Diversité et Ecophysiologie des Céréales
Jury : Président / Présidente : Saïd Mouzeyar
Examinateurs / Examinatrices : Marie-Laure Martin, Engelbert Mephu-Nguifo, Muriel Bonnet
Rapporteurs / Rapporteuses : Christophe Ambroise, Andrea Rau, Judith Burstin

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les avancées de ces dernières années dans les technologies de production de données biologiques sont à l'origine de la massification de données dites omiques, telles que les données génomiques (ADN), transcriptomiques (ARNm), protéomiques (protéines), métabolomiques (métabolites), etc. Ces données offrent la possibilité de décrire, en théorie, les processus biologiques les plus complexes mis en oeuvre par tous les systèmes biologiques en interaction avec leur environnement. L'enjeu méthodologique est alors de pouvoir intégrer, c'est-à-dire analyser simultanément, ces données de nature et provenance diverses pour répondre à différents questionnements scientifiques. Dans ce contexte, l'objectif de cette thèse est de proposer une approche méthodologique pour intégrer des données omiques produites dans différents contextes et l'appliquer à différents questionnements biologiques concrets chez les plantes et animaux. Un workflow en 6 étapes a été développé pour préparer et mener l'intégration des données omiques, à destination des biologistes non-experts de l'intégration multi-omiques. Le workflow détaille alors les étapes à effectuer avant d'intégrer les données omiques, ces étapes correspondant à 1- l'acquisition des données et leur structuration sous forme matricielle, 2- la définition de la question biologique et de la stratégie intégrative associée, 3- le choix de l'outil intégratif adapté à la question et aux données, 4- le pré-traitement des données, 5- l'analyse préliminaire par jeu de données, 6- l'intégration multi-omiques. Concernant spécifiquement l'étape d'intégration (6), parmi 13 outils sélectionnés et présentés dans le manuscrit, nous avons exploité l'outil mixOmics et développé la fonction cimDiablo_v2 pour intégrer les données par réduction de dimension.Ces développements méthodologiques ont été proposés dans l'optique de s'adapter à différents contextes biologiques, à savoir pour répondre à différentes questions biologiques classées en 3 stratégies intégratives (description, sélection, prédiction), en intégrant différents types de données omiques (génomiques, transcriptomiques,protéomiques, etc.) à différents niveaux (par espèces, individus, tissus, gènes, conditions expérimentales, etc.). Ces développements ont alors été testés sur plusieurs jeux de données biologiques, comme preuve de concept : premièrement, sur des données plantes (peuplier et céréales), afin d'identifier les profils d'interactions entre la méthylation de l'ADN et l'expression des gènes pour différentes populations géographiques d'individus (peuplier) et de stades de développement du grain (céréales), puis, deuxièmement, sur des données animales (bovin),afin d'identifier les signatures moléculaires de la composition tissulaire ou chimique des carcasses bovines en sélectionnant les protéines fortement liées aux phénotypes de la composition corporelle.Chez les plantes, nous avons durant cette thèse 1- hiérarchisé les facteurs majeurs de variabilité des données omiques, 2- regroupé les gènes selon leur profil de méthylation et d'expression, et 3- identifié des gènes master regulators fortement exprimés ou méthylés pour les différentes populations (chez le peuplier) ou stades de développement du grain (chez les céréales), puis étudié leurs fonctions biologiques. Chez les animaux (bovins), nous avons proposé une liste de protéines candidates de 7 phénotypes liés à la composition corporelle, et donc à l'efficience de conversion des rations en poids de muscle, qui pourra être utilisée pour de futures études prédictives.