Thèse soutenue

Prédiction de structures secondaires d’ARN et de complexes d’ARN avec pseudonoeuds - Approches basées sur la programmation mathématique multi-objectif

FR  |  
EN
Auteur / Autrice : Audrey Legendre
Direction : Fariza TahiÉric Angel
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/12/2019
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Informatique, Biologie Intégrative et Systèmes Complexes (Evry, Essonne)
établissement opérateur d'inscription : Université d'Évry-Val-d'Essonne (1991-....)
Jury : Président / Présidente : Alain Denise
Examinateurs / Examinatrices : Jérôme Waldispühl, Peter G. Clote, Yann Ponty, Bruno Sargueil, Patrice Perny
Rapporteurs / Rapporteuses : Jérôme Waldispühl, Peter G. Clote

Résumé

FR  |  
EN

Dans cette thèse, nous proposons de nouveaux algorithmes et outils pour la prédiction de structures secondaires d'ARN et de complexes d'ARN, incluant des motifs particuliers, difficiles à prédire, comme les pseudonœuds. La prédiction de structures d'ARN reste une tâche difficile, et les outils existants, pourtant nombreux, ne donnent pas toujours de bonnes prédictions.Afin de prédire plus précisément ces structures, nous proposons ici des algorithmes qui : i) prédisent les k-meilleures structures; ii) combinent plusieurs modèles de prédiction, afin de bénéficier des avantages de chacun; iii) sont capables de prendre en compte des contraintes utilisateurs et des données biologiques structurales telles que le SHAPE.Nous avons développé trois outils: BiokoP pour la prédiction de structures secondaires d'un ARN, et RCPred et C-RCPred pour la prédiction de structures secondaires de complexes d'ARN. L'outil BiokoP propose plusieurs structures optimales et sous-optimales grâce à la combinaison de deux modèles de prédiction, le modèle énergétique MFE et le modèle probabiliste MEA. Cette combinaison est réalisée grâce à la programmation mathématique multi-objectif, où chaque modèle est assimilé à une fonction objectif. À cet effet, nous avons développé un algorithme générique retournant les k-meilleures courbes de Pareto d'un programme linéaire en nombres entiers bi-objectif.L'outil RCPred, basé sur le modèle MFE, propose plusieurs structures sous-optimales. Il tire parti des nombreux outils existants pour la prédiction de structures secondaires d'ARN seuls et d'interactions ARN-ARN, en prenant en compte des structures secondaires et interactions déjà prédites en entrée. L'objectif de RCPred est de trouver les meilleures combinaisons possibles parmi ces entrées.L'outil C-RCPred est une nouvelle version de RCPred, prenant en compte des contraintes utilisateurs et des données biologiques structurales (SHAPE, PARS et DMS). C-RCPred est basé sur un algorithme multi-objectif, où les différents objectifs correspondent au modèle MFE, au respect des contraintes utilisateurs et à l'accord avec les données biologiques structurales.