Thèse soutenue

Méthodes d'apprentissage automatique pour l'extraction de motifs chromatographiques dans des gros volumes de données de spectrométrie de masse

FR  |  
EN
Auteur / Autrice : Olga Permiakova
Direction : Thomas Burger
Type : Thèse de doctorat
Discipline(s) : Modèles, méthodes et algorithmes en biologie, santé et environnement
Date : Soutenance le 03/05/2021
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Biologie à grande échelle (Grenoble ; 200.-2020)
Jury : Président / Présidente : Florence Forbes
Examinateurs / Examinatrices : Thomas Burger, Laurent Jacob
Rapporteurs / Rapporteuses : Frédéric Bertrand, Blaise Hanczar

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

L'analyse protéomique consiste à déterminer les identités et quantités des protéines contenues dans des échantillons biologiques. Une telle analyse est souvent nécessaire en recherche fondamentale ou clinique, pour trouver des protéines différentiellement exprimées entre plusieurs conditions, communément appelées « biomarqueurs ». La protéomique moderne s’appuie principalement sur des techniques de chimie analytique, et notamment, sur la spectrométrie de masse (MS) couplée à la chromatographie liquide haute pression (LC). Pour augmenter la profondeur et la couverture des analyses protéomiques, le multiplexage des acquisitions est de plus en plus utilisé, malgré les défis que cela soulève ensuite lors du traitement des données. Récemment, il a été montré que certains d’entre eux pouvaient être résolus à l'aide d’une « bibliothèque de chromatogrammes », c’est-à-dire une collection de profils chromatographiques élémentaires correspondant à différents fragments de protéines présents dans les échantillons. Les approches de l’état de l’art s’appuient sur des expériences complémentaires (et coûteuses) de spectrométrie de masse pour construire cette bibliothèque de chromatogrammes. L'objectif de ce travail a donc été de s’affranchir de ces expériences et d’appliquer des méthodes d’apprentissage automatique innovantes pour construire in silico cette bibliothèque. Deux méthodes ont été développées. La première, appelée CHICKN (Chromatogram Hierarchical Compressive K-means with Nyström approximation), propose de partitionner les profils d'élution observés (définis comme les colonnes de la matrice contenant les données LC-MS) en plusieurs groupes en fonction de leur forme, puis de construire la bibliothèque en utilisant un représentant de chaque groupe. Afin d’être calculatoirement efficace, l’étape de partitionnement s’appuie sur la théorie de l'apprentissage compressif, qui permet de traiter un sketch des données (un résumé de taille fixe) plutôt que les données complètes. Par ailleurs, l'algorithme ainsi obtenu est compatible avec l'astuce du noyau, qui est accélérée grâce à l'approximation de Nyström. Enfin, nous avons proposé deux nouveaux noyaux à partir de la distance Wasserstein-1. Nous avons établi sur des données protéomiques réelles que ces deux noyaux permettent de mieux appréhender les spécificités des données LC-MS. La deuxième méthode développée dans cette thèse est constituée d’un algorithme d'apprentissage de dictionnaire, baptisé SSDL (Sketched Stochastic Dictionary Learning); afin d'utiliser ensuite le dictionnaire ainsi appris comme bibliothèque de chromatogrammes. Cette méthode repose également sur la théorie de l'apprentissage compressif. De plus, son efficacité computationnelle est renforcée par une version stochastique de la méthode de descente de gradient accélérée de Nesterov. Les performances des deux méthodes ont été évaluées sur des données LC-MS réelles. Nous avons démontré que les deux méthodes conduisent effectivement à la construction de bibliothèques de chromatogrammes qui satisfont toutes les exigences de données LC-MS (dont, notamment, l’interprétabilité physique). En outre, elles ont un faible coût de calcul, ce qui leur permet de construire efficacement les très grandes bibliothèques de chromatogrammes qui sont nécessaires à l’analyse d’échantillons biologiques complexes.