Simulation et reconstruction de réseaux de proximité moléculaire en 3D pour la microscopie ADN
Auteur / Autrice : | Federico Scarpati |
Direction : | Martin Weigt, Ian Hoffecker |
Type : | Projet de thèse |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Inscription en doctorat le 01/05/2025 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : Biologie computationnelle, quantitative et synthetique |
Mots clés
Mots clés libres
Résumé
La microscopie par ADN est une technique émergente et sans instrument qui reconstruit des cartes moléculaires 3D en exploitant le séquençage de l'ADN plutôt que l'optique traditionnelle. Au lieu de s'appuyer sur des systèmes d'imagerie physique, la microscopie par ADN construit des réseaux de proximité spatiale où des codes-barres ADN (courtes séquences ADN uniques) servent de nuds, et les séquences co-amplifiées représentent les arêtes, indiquant la proximité moléculaire. Cette approche offre un potentiel immense pour la transcriptomique spatiale 3D et l'imagerie moléculaire, à la fois détaillées et économiques. La modélisation computationnelle de ces réseaux de proximité et leur reconstruction en représentations 3D précises sont essentielles pour exploiter tout le potentiel de la microscopie par ADN. L'objectif de ce projet est de développer et valider un cadre computationnel qui (i) simule des réseaux de proximité moléculaire réalistes imitant les données issues de la microscopie par ADN, et (ii) reconstruit des représentations 3D précises de ces réseaux en utilisant des approches basées sur la physique et l'apprentissage automatique. La reconstruction 3D des réseaux de proximité moléculaire présente plusieurs défis : (i) ces réseaux sont bruités, avec des liens faux ou manquants, des divisions ou des fusions de nuds, ce bruit résultant des erreurs de séquençage, de la profondeur de séquençage limitée et de la non-unicité des codes-barres ; (ii) pour cette technologie novatrice, il manque des données de référence pour développer, entraîner et tester les algorithmes de reconstruction. Le projet comprend donc trois tâches principales : 1. Modélisation et simulation de la formation des réseaux de proximité: simuler des réseaux de proximité synthétiques représentant des codes-barres ADN et des interactions moléculaires, afin de refléter précisément le processus de formation des réseaux dans le monde réel, y compris le bruit expérimental. Ces données aideront à définir les protocoles expérimentaux et serviront de données d'entraînement et de test pour les tâches suivantes. 2. Développement d'algorithmes de reconstruction 3D: utiliser les réseaux simulés pour reconstruire des représentations 3D précises des réseaux de proximité, en optimisant des approches basées sur la physique et l'apprentissage automatique. Il sera crucial de développer des stratégies de correction d'erreurs pour gérer le bruit expérimental. 3. Validation 3D: comparer les réseaux reconstruits à des structures simulées et expérimentales connues à l'aide de métriques quantitatives telles que la déviation quadratique moyenne (RMSD), afin d'assurer la scalabilité et la précision pour des réseaux denses et biologiquement pertinents.