Thèse soutenue

Innovations pour l'annotation protéogénomique à grande échelle du vivant
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Céline Bland
Direction : Jean Armengaud
Type : Thèse de doctorat
Discipline(s) : Biologie Santé
Date : Soutenance le 23/09/2013
Etablissement(s) : Montpellier 1
Ecole(s) doctorale(s) : Sciences Chimiques et Biologiques pour la Santé (Montpellier ; Ecole Doctorale ; ....-2014)
Partenaire(s) de recherche : Laboratoire : Centre d'études nucléaires de la Vallée du Rhône
Jury : Président / Présidente : Philippe Marin
Examinateurs / Examinatrices : Jean Armengaud, Philippe Marin, Yves Vandenbrouck
Rapporteurs / Rapporteuses : Joëlle Vinh, Daniel Lafitte

Résumé

FR  |  
EN

La protéogénomique consiste à affiner l'annotation du génome d'organismes modèles pour lesquels des données protéomiques sont générées à haut-débit. Des erreurs d'annotation structurale ou fonctionnelle sont encore fréquentes. Innover dans les méthodologies permettant de lever ces ambiguïtés est essentiel. L'étude spécifique du N-terminome permet de vérifier expérimentalement l'identification du codon d'initiation de la traduction et de certifier les données obtenues. Pour cela, deux stratégies innovantes ont été développées basées sur : i) le marquage sélectif du N-terminal des protéines, ii) une digestion multienzymatique en parallèle, et ii) l'enrichissement spécifique des peptides N-terminaux marqués par chromatographies liquides successives ou immunocapture dirigée contre le groupement N-terminal ajouté. L'efficacité de ces méthodologies a été démontrée à partir du modèle bactérien Roseobacter denitrificans. Après enrichissement par chromatographie, 480 protéines ont été validées et 46 ré-annotées. Plusieurs sites d'initiation de la traduction ont été décelés et l'annotation par similarité a été remise en cause dans certains cas. Après immunocapture, 269 protéines ont été caractérisées dont 40% ont été identifiées spécifiquement après enrichissement. Trois gènes ont également été annotés pour la première fois. Les résultats complémentaires obtenus après analyse par spectrométrie de masse en tandem facilitent l'interprétation des données pour révéler les sites d'initiation réels de la synthèse des protéines et identifier de nouveaux produits d'expression des gènes. La ré-annotation peut devenir automatique et systématique pour améliorer les bases de données protéiques.