Thèse en cours

Algorithmes bioinformatiques et modèles évolutifs pour la paléoprotéomique

FR  |  
EN
Auteur / Autrice : Karl Baltazart
Direction : Xavier VekemansHélène Touzet
Type : Projet de thèse
Discipline(s) : Biologie de l'environnement, des organismes, des populations, ecologie
Date : Inscription en doctorat le 01/01/2024
Etablissement(s) : Université de Lille (2022-....)
Ecole(s) doctorale(s) : École doctorale Sciences de la matière, du rayonnement et de l'environnement (Lille ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Evolution, Ecologie et Paléontologie (Evo-Eco-Paléo)
Equipe de recherche : Paleontologie

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Ces dernières années, l'analyse d'échantillons biologiques anciens a modifié notre compréhension de l'évolution de la vie sur Terre, renouvelant les approches précédemment utilisées en paléontologie, basées sur l'étude des fossiles ou la datation au carbone 14. Au premier rang des nouvelles techniques moléculaires figure la paléogénomique (séquençage de l'ADN ancien). Plus récemment, la paléoprotéomique via la ZooArchaeology by mass spectrometry (ZooMS) offre la possibilité d'identifier des fragments d'os morphologiquement ambigus ou non identifiables à partir d'assemblages d'os. L'identification des os par ZooMS résulte du séquençage d'une protéine cible, telle que le collagène, qui est abondante dans les fragments d'os. Le collagène présent dans les échantillons est digéré et la masse des peptides obtenus par spectrométrie donne une information indirecte sur la séquence des acides aminés de la protéine étudiée. Pour exploiter ces données, la communauté travaille avec des peptides marqueurs, qui servent en quelque sorte de code-barres moléculaire pour l'assignation taxonomique. Mais l'utilisation de ces peptides marqueurs souffre de deux limitations : elle reste manuelle et elle néglige la dimension évolutive des données. Il y a donc un réel besoin de formaliser et d'automatiser les méthodes afin d'obtenir des assignations robustes et reproductibles, même à grande échelle. Cela soulève de multiples questions : ● Comment généraliser l'approche par peptides marqueurs en allant vers la combinaison de peptides marqueurs ou des peptides marqueurs consensus pour tirer pleinement partie du signal phylogénétique contenu dans les données ? ● Comment inférer automatiquement des peptiques marqueurs à différents niveaux taxonomiques ? ● Comment mesurer le signal phylogénétique contenu dans la protéine cible et ses peptides ? ● Comment reconstruire les séquences protéiques ancestrales à partir des spectres et des séquences contemporaines pour enrichir les jeux de données contemporains ? Les méthodes développées combineront des approches algorithmiques séquentielles et un cadre probabiliste utilisant des modèles d'évolution des séquences protéiques pour reconstruire les arbres phylogénétiques et les séquences ancestrales. Les résultats attendus sont doubles : développer une boîte à outils pour l'analyse des données, et proposer un cadre méthodologique pour une utilisation éclairée des peptides marqueurs dans ZooMS.