Des modèles génératifs profonds à la programmation quadratique entière, développement d'un outil d'aide au design de PCR multiplexe dans le contexte du diagnostic in vitro
Auteur / Autrice : | Teddy Ardouin |
Direction : | Adeline Leclercq-samson |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques Appliquées |
Date : | Inscription en doctorat le Soutenance le 21/05/2024 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Jean Kuntzmann (Grenoble) |
Jury : | Président / Présidente : Franz Bruckert |
Examinateurs / Examinatrices : Adeline Leclercq-samson, Guillaume Fertin, Julien Chiquet, Melaz Tayakout-fayolle | |
Rapporteur / Rapporteuse : Guillaume Fertin, Julien Chiquet |
Résumé
Le test syndromique de diagnostic in vitro FilmArray, commercialisé par l'entreprise bioMérieux, permet la détection simultanée de plusieurs agents pathogène grâce à l'utilisation de la technologie de biologie moléculaire de Réaction en Chaîne par Polymérase (Polymerase Chain Reaction, PCR). Cette méthode permet l'amplification du matériel génétique des agents pathogènes cibles pour leur détection. Des paires d'amorces, de petites séquences nucléiques, sont essentielles pour les performances de la PCR, et leur conception est complexe car elles doivent respecter un ensemble de critères biologiques et thermodynamiques spécifiques. Les travaux de recherche de cette thèse s'inscrivent dans le développement d'un outil d'aide à la conception d'amorces pour la PCR multiplexe, une variante de la PCR singleplex permettant la détection de plusieurs cibles, dans le contexte du diagnostic in vitro, basé sur différentes méthodes d'optimisation mathématiques. Les méthodes proposées sont adaptées au cadre d'une PCR multiplexe classique ou nichée, un peu plus complexe et spécifique au système bioMérieux FilmArray. Dans un premier temps, nous abordons le problème de conception, ou design, d'amorces de PCR singleplex comme un problème d'optimisation visant à identifier des séquences ayant de bonnes propriétés. Nous proposons l'évaluation de la méthode Design by Adaptive Sampling (DbAS) couplée à un modèle génératif profond Variational Autoencoder (VAE), capable de traiter avec des objets mathématiques discrets comme les amorces, afin d'optimiser des critères de design et proposer une diversité de solutions. Après une analyse approfondie, des performances de diversité de solutions insuffisantes sur des exemples simplifiés et des limitations quant à l'interprétation des résultats suggèrent que cette catégorie de méthode est difficilement applicable à la problématique de design d'amorces de PCR. Ces résultats nous orientent vers l'utilisation de méthodes plus robustes et interprétables pour la suite des travaux. Dans cet objectif, nous proposons tout d'abord la création de la fonction Oracle, qui quantifie la qualité d'une amorce pour une cible PCR, basée sur les connaissances des experts de bioMérieux. L'utilisation d'une démarche inspirée de l'élicitation d'experts nous permet de sélectionner des critères de design faisant consensus au niveau des pratiques internes, facilitant ainsi l'adoption de nos outils. La fonction Oracle est construite en transformant ces critères en une fonction mathématique, et est implémentée en langage Python. Un soin particulier a été apporté à concevoir une implémentation efficace, permettant l'utilisation du calcul exhaustif pour la proposition d'amorces optimales. Différentes stratégies de validation permettent d'attester de la qualité et de la pertinence biologique de cet outil pour la PCR singleplex. Enfin, nous formalisons le design d'amorces de PCR multiplexe en un problème d'optimisation quadratique entière. L'objectif est d'identifier la combinaison de paires, sélectionnées au préalable de manière indépendante pour les différentes cibles, qui minimise les interactions entre amorces. La résolution de ce problème à grande combinatoire appliqué à des données de PCR réelles démontre des performances d'optimisation par simulation très prometteuses, suggérant ainsi l'intérêt de cette approche. Cette étude est réalisée à l'aide du solveur de Gurobi et de l'utilisation d'une quantification de l'interaction entre amorces basée sur la fonction Oracle. De plus, ce formalisme s'étend naturellement au cadre de la PCR multiplexe nichée, ce qui nous a permis d'accompagner les équipes de bioMérieux dans le développement d'un nouveau test PCR.