Thèse en cours

La base de données DynLib : caractérisation du métabolome spécialisé du blé et du lin par l'analyse de métadonnées spectrales

FR  |  
EN
Auteur / Autrice : Ahlam Mentag
Direction : Rebecca DauweJohannes Rainer
Type : Projet de thèse
Discipline(s) : Biologie-Chimie Analytique et Métabolomique-101329
Date : Inscription en doctorat le 30/09/2024
Etablissement(s) : Amiens
Ecole(s) doctorale(s) : Sciences, Technologie, Santé
Partenaire(s) de recherche : Laboratoire : BIOPI - Plant Biology and Innovation

Résumé

FR  |  
EN

Contexte : Les végétaux contiennent des milliers de métabolites spécialisés ayant un potentiel pour la bio-économie, mais la grande majorité reste inconnue. Les expériences de métabolomique non-ciblées visent à caractériser autant de structures de métabolites que possible, en se basant sur les spectres de fragmentation des molécules, générés par dissociation induite par collision (Collision Induced Dissociation, CID) dans un spectromètre de masse. Cependant, déterminer la structure d'un composé en fonction de son spectre CID reste un défi majeur en métabolomique. Aujourd'hui, la méthode de référence pour l'identification informatique de métabolites inconnus modélise un arbre de fragmentation qui explique au mieux un spectre CID et utilise cet arbre de fragmentation pour prédire la présence ou l'absence d'une série de caractéristiques structurales à l'aide d'une approche basée sur l'intelligence artificielle. Un taux de réussite relativement faible de cette approche peut être attribué, au moins partiellement, à des lacunes dans les arbres de fragmentation modélisés. Il est clair que l'apport d'informations complémentaires issues de différents types de spectres CID, générés avec des paramètres d'ionisation ou de fragmentation différents, ou sur différents types d'instruments, peut contribuer à calculer des arbres de fragmentation qui ont plus de sens sur le plan structurel et sont en meilleur accord avec les connaissances expertes sur la dissociation induite par collision. Nous appellerons ces informations spectrales complémentaires des métadonnées spectrales. Le principal obstacle à l'utilisation des métadonnées spectrales dans les algorithmes d'apprentissage automatique pour l'élucidation structurale, réside dans le manque d'une base de données archivant à la fois des grands volumes de métadonnées spectrales d'entraînement et celles des composés inconnus. Projet : L'objectif du doctorat est de développer les outils informatiques pour construire et alimenter une base de métadonnées spectrales, appelée DynLib, et d'exploiter ces métadonnées synergiques pour prédire computationnellement des caractéristiques structurelles de métabolites inconnus. Une première partie de la thèse consistera en la génération d'une base de données spectrales, appelée DynLib, dans laquelle toutes les données de fragmentation pertinentes des expériences métabolomiques précédentes et futures, générées sur différents types d'instruments et avec différents paramètres d'ionisation ou de fragmentation, pourront être importées automatiquement. Des fonctionnalités pour importer des données dans DynLib, aligner les expériences, annoter les spectres, créer des réseaux métabolomiques, et interroger la base de données, seront développées de telle façon qu'elles s'intègrent parfaitement à l'écosystème modulaire RforMassSpectrometry. Dans une deuxième partie, l'objectif est d'optimiser la performance et qualité de la modélisation des arbres de fragmentation, en introduisant des contraintes apprises à partir des métadonnées spectrales dans DynLib. Les problèmes d'arbres de fragmentation seront modélisés à l'aide de paradigmes bien connus, tels que la Satisfaction Maximale (Max-SAT), et résolus grâce à des algorithmes puissants dédiés. Les arbres de fragmentation seront importants pour la comparaison entre les spectres CID dans DynLib, et pour le développement d'une méthode de prédiction computationnelle des structures de métabolites. Dans une troisième partie de la thèse, les outils et algorithmes nouvellement développés seront comparés aux logiciels de référence existants et utilisés pour caractériser le métabolome spécialisé du lin et du blé, dans le cadre d'études physiologiques végétales en cours dans le laboratoire hôte. Ce projet contribuera à la recherche en métabolomique dans le domaine des sciences végétales, ainsi que dans les domaines de santé et nutrition.