Thèse soutenue

Algorithmes multi-critères pour la prédiction de structures d'ARN

FR  |  
EN
Auteur / Autrice : Louis Becquey
Direction : Fariza TahiÉric Angel
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/10/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : IBISC - Informatique, BioInformatique, Systèmes Complexes - Informatique- BioInformatique- Systèmes Complexes / IBISC
Equipe de recherche : AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique
référent : Université d'Évry-Val-d'Essonne (1991-....)
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Alain Denise
Examinateurs / Examinatrices : Jérôme Waldispühl, François Major, Marie-Dominique Devignes, Samuela Pasquali
Rapporteurs / Rapporteuses : Jérôme Waldispühl, François Major

Résumé

FR  |  
EN

Les méthodes informatiques de prédiction des structures d'ARN reposent sur deux étapes algorithmiques : proposer des structures (l'échantillonnage), et les trier par pertinence (l'évaluation). Une grande diversité de méthodes d'évaluation existe. Certaines reposent sur des modèles physiques, d'autres sur la similarité à des données déjà observées. Cette thèse propose des méthodes de prédiction de structure combinant deux ou plusieurs critères de tri des solutions, divers d'un point de vue de l'échelle de modélisation (structure secondaire, tertiaire), et du type (theory-based, data-based, compatibilité avec des données expérimentales de sondage chimique). Les méthodes proposées identifient le front de Pareto du problème d'optimisation multiobjectif formé par ces critères. Ceci permet d'identifier des solutions (structures) bien notées selon tous les modèles, et également d'étudier la corrélation entre critères. Les approches présentées exploitent les dernières avancées, comme l'identification de modules ou de réseaux d'interactions récurrents, ainsi que les algorithmes d'apprentissage profond. Deux architectures de réseaux de neurones (un RNN et un CNN) sont adaptées des protéines à l'ARN. Un jeu de données d'ARN est proposé pour entrainer ces réseaux : RNANet. Deux outils logiciels sont proposés : BiORSEO, qui prédit la structure secondaire des ARN sur la base de deux critères (l'un énergétique, l'autre relatif à la présence de modules connus). MOARNA, qui propose des structures 3D gros grains sur la base de 4 critères : l'énergie de la structure secondaire, l'énergie en 3D, la compatibilité avec des données expérimentales de sondage chimique, ou la forme d'une famille connue d'ARN si une famille est identifiée.