Thèse en cours

Méthodes d'apprentissage statistique pour l'analyse de spectre de masse

FR  |  
EN
Auteur / Autrice : Théo Mauger
Direction : Pierre-olivier AmblardOlivier Michel
Type : Projet de thèse
Discipline(s) : Signal Image Parole Télécoms
Date : Inscription en doctorat le 01/02/2024
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Grenoble Images Parole Signal Automatique
Equipe de recherche : GAIA

Résumé

FR  |  
EN

Les premières études semblent démontrer le potentiel des approches d'apprentissage automatique pour l'analyse des spectres de masse, qui sont actuellement généralement réalisées par un expert et donc parfois difficiles à reproduire. Dans une étude récente [1], les auteurs ont proposé de synthétiser un ensemble d'apprentissage des spectres de masse, en synthétisant les spectres qu'il serait possible d'observer - en tenant compte de la variabilité intrinsèque de ces méthodes - en cas de présence d'éléments atomiques ou moléculaires différents. Cette base d'apprentissage est exploitée pour proposer un système de classification basé sur les arbres, construit par une méthode de 'gradient boosting' (GBT). Une alternative à cette approche pourrait reposer sur l'idée que les signatures associées à chacun des éléments, simulées pour construire la base d'apprentissage, peuvent être comprises comme des éléments d'un dictionnaire de fonctions élémentaires permettant de décomposer le spectre de masse observé. Ainsi, le problème d'identification des éléments présents est reformulé comme un problème de séparation de mélange ('linear spectral unmixing') pour lequel une approche bayésienne peut être développée, comme suggéré par Mikhalychev et al [2]. L'objectif de la thèse est de s'appuyer sur ces approches et d'explorer d'autres alternatives. Un premier travail consistera à reproduire en partie les résultats annoncés dans ces études à la fois sur des données simulées et des données expérimentales de spectrométrie de masse, afin d'évaluer les limites et les caractéristiques principales de ces approches. Ensuite, une étude sera poursuivie dans un cadre de regroupement (pas de supervision de l'algorithme d'apprentissage), voire dans un cadre d'apprentissage semi-supervisé ou contraint (imposant que certaines signatures doivent être dans la même classe). Enfin, des approches basées sur l'apprentissage de dictionnaires, des méthodes parcimonieuses de groupe, seront considérées. Les résultats attendus devront être comparés avec les résultats obtenus par les méthodes GBT d'une part, et confrontés à l'expertise humaine d'autre part. L'objectif final est de construire et mettre en œuvre une chaîne complète d'analyse de spectre de masse aussi automatique que possible, avec des garanties connues.