Algorithmes multi-critères pour la prédiction de structures d'ARN
Auteur / Autrice : | Louis Becquey |
Direction : | Fariza Tahi, Éric Angel |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 06/10/2021 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : IBISC - Informatique, BioInformatique, Systèmes Complexes - Informatique- BioInformatique- Systèmes Complexes / IBISC |
Equipe de recherche : AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique | |
référent : Université d'Évry-Val-d'Essonne (1991-....) | |
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....) | |
Jury : | Président / Présidente : Alain Denise |
Examinateurs / Examinatrices : Jérôme Waldispühl, François Major, Marie-Dominique Devignes, Samuela Pasquali | |
Rapporteurs / Rapporteuses : Jérôme Waldispühl, François Major |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Les méthodes informatiques de prédiction des structures d'ARN reposent sur deux étapes algorithmiques : proposer des structures (l'échantillonnage), et les trier par pertinence (l'évaluation). Une grande diversité de méthodes d'évaluation existe. Certaines reposent sur des modèles physiques, d'autres sur la similarité à des données déjà observées. Cette thèse propose des méthodes de prédiction de structure combinant deux ou plusieurs critères de tri des solutions, divers d'un point de vue de l'échelle de modélisation (structure secondaire, tertiaire), et du type (theory-based, data-based, compatibilité avec des données expérimentales de sondage chimique). Les méthodes proposées identifient le front de Pareto du problème d'optimisation multiobjectif formé par ces critères. Ceci permet d'identifier des solutions (structures) bien notées selon tous les modèles, et également d'étudier la corrélation entre critères. Les approches présentées exploitent les dernières avancées, comme l'identification de modules ou de réseaux d'interactions récurrents, ainsi que les algorithmes d'apprentissage profond. Deux architectures de réseaux de neurones (un RNN et un CNN) sont adaptées des protéines à l'ARN. Un jeu de données d'ARN est proposé pour entrainer ces réseaux : RNANet. Deux outils logiciels sont proposés : BiORSEO, qui prédit la structure secondaire des ARN sur la base de deux critères (l'un énergétique, l'autre relatif à la présence de modules connus). MOARNA, qui propose des structures 3D gros grains sur la base de 4 critères : l'énergie de la structure secondaire, l'énergie en 3D, la compatibilité avec des données expérimentales de sondage chimique, ou la forme d'une famille connue d'ARN si une famille est identifiée.