Méthodes d'apprentissage statistique pour l'analyse de spectre de masse
Auteur / Autrice : | Théo Mauger |
Direction : | Pierre-olivier Amblard, Olivier Michel |
Type : | Projet de thèse |
Discipline(s) : | Signal Image Parole Télécoms |
Date : | Inscription en doctorat le 01/02/2024 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....) |
Partenaire(s) de recherche : | Laboratoire : Grenoble Images Parole Signal Automatique |
Equipe de recherche : GAIA |
Mots clés
Résumé
Les premières études semblent démontrer le potentiel des approches d'apprentissage automatique pour l'analyse des spectres de masse, qui sont actuellement généralement réalisées par un expert et donc parfois difficiles à reproduire. Dans une étude récente [1], les auteurs ont proposé de synthétiser un ensemble d'apprentissage des spectres de masse, en synthétisant les spectres qu'il serait possible d'observer - en tenant compte de la variabilité intrinsèque de ces méthodes - en cas de présence d'éléments atomiques ou moléculaires différents. Cette base d'apprentissage est exploitée pour proposer un système de classification basé sur les arbres, construit par une méthode de 'gradient boosting' (GBT). Une alternative à cette approche pourrait reposer sur l'idée que les signatures associées à chacun des éléments, simulées pour construire la base d'apprentissage, peuvent être comprises comme des éléments d'un dictionnaire de fonctions élémentaires permettant de décomposer le spectre de masse observé. Ainsi, le problème d'identification des éléments présents est reformulé comme un problème de séparation de mélange ('linear spectral unmixing') pour lequel une approche bayésienne peut être développée, comme suggéré par Mikhalychev et al [2]. L'objectif de la thèse est de s'appuyer sur ces approches et d'explorer d'autres alternatives. Un premier travail consistera à reproduire en partie les résultats annoncés dans ces études à la fois sur des données simulées et des données expérimentales de spectrométrie de masse, afin d'évaluer les limites et les caractéristiques principales de ces approches. Ensuite, une étude sera poursuivie dans un cadre de regroupement (pas de supervision de l'algorithme d'apprentissage), voire dans un cadre d'apprentissage semi-supervisé ou contraint (imposant que certaines signatures doivent être dans la même classe). Enfin, des approches basées sur l'apprentissage de dictionnaires, des méthodes parcimonieuses de groupe, seront considérées. Les résultats attendus devront être comparés avec les résultats obtenus par les méthodes GBT d'une part, et confrontés à l'expertise humaine d'autre part. L'objectif final est de construire et mettre en uvre une chaîne complète d'analyse de spectre de masse aussi automatique que possible, avec des garanties connues.