Thèse soutenue

Décomposition locale dans le design structural de l'ARN

FR  |  
EN
Auteur / Autrice : Hua-Ting Yao
Direction : Yann PontyJérôme Waldispühl
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 15/12/2021
Etablissement(s) : Institut polytechnique de Paris en cotutelle avec McGill university (Montréal, Canada)
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Laboratoire d'informatique de l'École polytechnique (Palaiseau ; 1988-....)
Jury : Président / Présidente : Sebastian Will
Examinateurs / Examinatrices : Yann Ponty, Jérôme Waldispühl, Aïda Ouangraoua, Christine Heitsch, Peter F. Stadler
Rapporteur / Rapporteuse : Aïda Ouangraoua, Christine Heitsch

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Le problème de design structural positif de l'ARN tente de trouver des séquences d'ARN réalisant une faible énergie libre de la structure secondaire cible. Par contre, dans le problème de design négatif, les séquences de solution doivent adopter la structure cible comme repliement préférentiellement à toute structure alternative. Le problème du repliement d'inverse, un problème typique de design négatif, exige que la cible soit la structure secondaire ayant l'énergie libre minimale (MFE) de la solution. D'autres métriques, telles que le défaut d'ensemble, sont également prises en compte pour l'évaluation de la séquence réalisée.L'additivité du modèle d'énergie suggère l'existence de propriétés locales pour le problème de design de l'ARN. Il a été découvert dans plusieurs travaux que, en raison de la présence de certains motifs locaux, aucune séquence d'ARN ne peut se replier dans la structure cible tout en satisfaisant l'objectif de design négatif. L'approche d'échantillonnage de séquence est souvent utilisée dans le design positif. Les structures locales irréalisables, comme les paires de bases, se forment de manière répétée lors du repliement des séquences échantillonnées en considérant le design négatif. Dans cette thèse, nous étudions l'impact de cette nature locale sur l'aspect combinatoire et sur le développement de méthodes de design négatif.Nous montrons que la proportion de structures secondaires réalisables diminue de façon exponentiellement avec la longueur de la structure cible du point de vue combinatoire. Étant donné une métrique de design négatif, nous proposons un schéma automatisé pour identifier tous les motifs non réalisables. L'énumération des structures secondaires évitant ces obstructions locales, suivie d'une analyse asymptotique, permet d'obtenir une borne supérieure du nombre de structures réalisables. En outre, nous définissons une borne inférieure pour le défaut d'ensemble structural dérivé des motifs locaux apparus. Nous montrons que cette borne inférieure suit une distribution limite Gaussienne avec une expression explicite, ce qui implique aussi la diminution exponentielle.Nous présentons ensuite Infrared, un système générique d'échantillonnage combinatoire.Nous formalisons le problème de design de l'ARN comme un problème de satisfaction de contraintes (CSP) avec des objectifs de design décrits comme un ensemble de contraintes et un ensemble de fonctions pondérées. Les évaluations des variables satisfaisant les contraintes sont générées à partir d'une distribution pondérée de Boltzmann en utilisant un algorithme de programmation dynamique suivi d'un backtrack stochastique. L'approche est en classe de FPT (Fixed-Parameter Trackable) pour la largeur arborescente du graphe de dépendance induit par le problème. Nous montrons que ce cadre peut être facilement employé pour le design positif de l'ARN et les applications variées.Enfin, en tant qu'application du système Infrared, nous proposons une approche originale d'échantillonnage itératif qui capture les principes de design négatif mis en œuvre dans RNAPOND.Un ensemble de paires de bases perturbatrices est identifié à chaque tour et on les empêche ensuite de s'apparier en introduisant des contraintes appropriées dans le cadre de l'échantillonnage. Malgré que le problème de décision associé est NP-difficile, l'échantillonnage efficace est garanti par Infrared. Notre approche atteint un taux de réussite similaire ou supérieur aux états de l'art, tout en permettant la génération de séquences diverses et thermodynamiquement efficaces.L'un des axes de recherche des travaux présentés dans cette thèse est l'extension à des structures plus complexes, telles que les structures secondaires contenant pseudonœuds. La flexibilité du système Infrared ouvre une porte au développement d'outils de design. Par exemple, le succès de RNAPOND suggère une approche potentielle pour la design structural négatif d'ARN