Méthodes statistiques pour le traitement des données de protéomique quantitative longitudinale

par Hélène Borges

Thèse de doctorat en Modèles, méthodes et algorithmes en biologie, santé et environnement

Sous la direction de Thomas Burger et de Virginie Milena Brun.

Le président du jury était Sophie Rousseaux.

Le jury était composé de Thomas Burger, Quentin Giai Gianetto, Laurent Gatto, Yohann Couté.

Les rapporteurs étaient Christine Carapito, Jacques Colinge.


  • Résumé

    L’objectif de la protéomique est l’identification et la quantification des protéines présentes dans des échantillons biologiques. Une de ses applications est la recherche de biomarqueurs, c’est-à-dire des entités mesurables décrivant précisément un état biologique spécifique. Ces biomarqueurs peuvent ensuite être utilisés dans un contexte clinique, pour le diagnostic ou le suivi de patients atteints de pathologies, notamment chroniques et ainsi assister les cliniciens dans leur prise en charge et leur traitement. La découverte de biomarqueurs passe par l’analyse différentielle des protéines, autrement dit, la mise en évidence d’une altération de l’expression des protéines entre les différents échantillons par une analyse statistique. Cependant, l’analyse de grandes cohortes cliniques nécessite des chaînes instrumentales spécifiques produisant des données complexes en raison de biais techniques et d’une variabilité inter-patient pouvant altérer les résultats. Afin de prendre cela en compte, tout en maintenant un haut niveau d’automatisation (indispensables au bon fonctionnement d’une plateforme d’analyse gérant de manière concomitante de multiples projets), des développements méthodologiques ainsi que leur implémentation logicielle sont nécessaires. Ce travail de thèse cherche à répondre à ce besoin, sous la forme de trois contributions principales. La première est la création de Well Plate Maker, un logiciel facilitant la conception de protocoles expérimentaux plus robustes. Le logiciel génère automatiquement un placement des échantillons sur des plaques à puits qui minimise les biais potentiels dans l’expérience et permet d’obtenir en aval des résultats statistiques plus reproductibles. La seconde est l’adaptation fiable et reproductible de l’Analyse de la Variance (une approche classique en statistique) afin de répondre aux spécificités des données de protéomique. Cette adaptation est combinée à des méthodes de représentation et de visualisation des profils d’expression des protéines, tout en préservant une utilisation facile pour les protéomiciens dans un contexte applicatif de plateforme d’analyse. La troisième contribution est la mise en application concrète de la méthodologie ainsi proposée sur une cohorte clinique de patients atteints de stéatose hépatique non-alcoolique. Nous avons identifié des protéines présentant des profils d’expression décrivant la progression de la pathologie, qui pourront être intéressantes à approfondir dans des études cliniques ultérieures. Au-delà du cas des stéatoses hépatiques non-alcooliques, ce travail illustre l’intérêt de la protéomique comme un outil complémentaire fiable dans le contexte clinique du suivi et de la prise en charge de patients.

  • Titre traduit

    Statistical methods for the treatment of longitudinal data in quantitative proteomics


  • Résumé

    The goal of proteomics is the identification and quantification of proteins present in biological samples. One of its applications is the search for new biomarkers, i.e., measurable entities that precisely describe a specific biological state. These biomarkers can then be used in a clinical context, for the diagnosis or the medical monitoring of patients suffering from pathologies, in particular chronic ones hereby assisting the clinicians in their care and treatment. Biomarker discovery involves the differential analysis of proteins, in other words, the demonstration of an alteration in the expression of proteins between the different samples by a statistical analysis. However, the analysis of large clinical cohorts requires specific numerous instruments producing complex data. These data are difficult to process, due to technical biases and inter-patient variability. Eventually, inadequate processing of these data can lead to erroneous results. To tackle this challenge, while maintaining a high level of automation (essential for the daily work of an analytic platform managing multiple concomitant projects), methodological developments as well as their software implementation are necessary. This work seeks to meet this need thanks to three main contributions. The first one is the development of the Well Plate Maker software to assist in the design of more robust experimental protocols. The software automatically generates a well plate filling strategy that minimizes potential biases in the experiment and consequently allow more reproducible downstream statistical results. The second one is the reliable and reproducible adaptation of Analysis of Variance (a classic statistical approach) to account for the specificities of proteomics data. This adaptation is combined with methods of representation and visualization of protein expression profiles, while preserving ease of use for proteomicians in an application context of an analysis platform. The third contribution is the concrete application of the above methodology on a clinical cohort of patients with non-alcoholic fatty liver disease. We have identified proteins with expression profiles describing the progression of the disease, which may be of interest to explore in further clinical studies. Beyond the case of non-alcoholic fatty liver disease, this work illustrates the interest of proteomics as a reliable complementary tool in the clinical context of patient monitoring and care.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Grenoble Alpes. Bibliothèque et Appui à la Science Ouverte. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.