Thèse soutenue

Exploration des modèles d’apprentissage statistique profonds couplés à la spectrométrie de masse pour améliorer la surveillance épidémiologique des maladies infectieuses

FR  |  
EN
Auteur / Autrice : Noshine Mohammad
Direction : Renaud Piarroux
Type : Thèse de doctorat
Discipline(s) : Biostatistique et Biomathématiques
Date : Soutenance le 07/12/2023
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Institut Pierre Louis d'épidémiologie et de santé publique (Paris ; 2014-....)
Jury : Président / Présidente : Raphaëlle Metras
Examinateurs / Examinatrices : Laurence Lachaud, Antonin Lamazière
Rapporteur / Rapporteuse : Arthur Tenenhaus, Guillaume Desoubeaux

Résumé

FR  |  
EN

La spectrométrie de masse de type MALDI-TOF (matrix assisted laser desorption and ionisation time of flight) est une méthode de diagnostic en microbiologie rapide et robuste, permettant d'identifier les espèces de micro-organismes grâce à leur empreinte protéique constituée par le spectre de masse. Cependant, les applications clinico-épidémiologiques de cette technologie demeurent limitées par les outils bio-informatiques à disposition. Cette thèse se focalise sur l'application de modèles d'apprentissage statistique profonds aux données de spectrométrie de masse de type MALDI-TOF dans un but de surveillance épidémiologique des maladies infectieuses. Elle inclut la surveillance des épidémies de champignons et de mycobactéries en milieu hospitalier, ainsi que la caractérisation des anophèles vecteurs du paludisme. Nous avons examiné l'impact des méthodes de préparation des échantillons et de l'analyse informatique des spectres de masse sur l'amélioration de l'apprentissage, afin d’identifier les clones fongiques épidémiques en milieu hospitalier et prévenir leur propagation. Notre étude a montré que le réseau de neurones à convolution (CNN) a un potentiel élevé pour identifier les spectres de clones spécifiques de Candida parapsilosis, atteignant une précision de 94 % en optimisant des paramètres essentiels (milieux de culture, temps de croissance, et la machine d'acquisition des spectres). Pour détecter des clones épidémiques Aspergillus flavus dans des cohortes hospitalières multicentriques, le CNN a également réussi à classer correctement la plupart des isolats, atteignant une précision supérieure à 93 % pour deux des trois appareils utilisés. Nous avons aussi montré qu’en utilisant des modèles d'apprentissage profond optimisés, tels qu'un CNN et un réseau de neurones à convolution temporelle (TCN), nous pouvons prédire l'âge des moustiques avec une précision moyenne de deux jours (meilleure erreur absolue moyenne : 1,74 jours). Cette approche permettrait ainsi de surveiller efficacement la structure de l'âge des populations de moustiques anophèles sauvages et de mieux les cibler par des mesures de contrôle. Enfin, nous avons démontré les performances de diverses architectures de réseaux de neurones et de différentes méthodes de représentation des spectres de masse, en utilisant différentes cohortes couvrant diverses problématiques épidémiologiques telles que la prédiction de l'âge, l'identification d'espèces étroitement apparentées des moustiques anophèles, la distinction entre sous-espèces proches, ainsi que la détection de la résistance chez le Mycobacterium abscessus. L'étude a montré que parmi les différents modèles évalués, les modèles les plus performants, tels que les TCN et un réseau de neurones récurrents, pouvaient obtenir des résultats notables, atteignant une précision d'identification de 93 % pour les espèces d'Anophèles étroitement liées et de 95 % pour les sous-espèces de Mycobacterium abscessus. De plus, l'utilisation de CNN et de TCN a permis de détecter les souches résistantes chez Mycobacterium abscessus avec une précision dépassant 97 %. Cette thèse met en lumière l'utilisation de l'apprentissage profond en conjonction avec le MALDI-TOF, une approche jusqu'ici peu explorée. Avec la généralisation des instruments MALDI-TOF et la possibilité de coupler les analyses à des applications en ligne utilisant l'apprentissage profond, cette approche semble prometteuse, ouvrant la voie à d'autres applications épidémiologiques au-delà de la simple identification d’espèce, telles que la détection de clusters épidémiologiques de microorganismes résistants aux médicaments, la surveillance de la transmission des maladies bactériennes et fongiques, et l’évaluation de l'efficacité des interventions ciblées de lutte antivectorielle.