Méthodes de deep learning pour la prédiction de structure secondaire des ARNs longs
Auteur / Autrice : | Loïc Omnes |
Direction : | Fariza Tahi, Éric Angel, Pierre Bartet--Friburg |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 18/06/2025 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication |
Partenaire(s) de recherche : | Laboratoire : Informatique, BioInformatique, Systèmes Complexes (Evry, Essonne) |
Référent : Université d'Évry Val d'Essonne | |
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....) | |
Equipe de recherche : AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique | |
Jury : | Président / Présidente : Alain Denise |
Examinateurs / Examinatrices : Bruno Sargueil, Malika Smail-Tabbone, Christophe Ambroise, Nataliya Sokolovska | |
Rapporteurs / Rapporteuses : Bruno Sargueil, Malika Smail-Tabbone |
Mots clés
Mots clés contrôlés
Résumé
Le rôle essentiel des ARNs a été démontré dans divers processus biologiques et maladies. Toutefois, on ignore encore la fonction de nombreux ARNs. Une meilleure connaissance de leur rôle pourrait permettre de découvrir de nouveaux biomarqueurs ou cibles thérapeutiques et ainsi d'améliorer l'efficacité des traitements médicaux.Cependant, la validation expérimentale de leur fonction est très coûteuse, ce qui pose un frein à l'étude de leurs rôles. Il est possible de pallier ce problème grâce à des outils informatiques.En particulier, l'apprentissage profond est aujourd'hui fréquemment utilisé pour l'étude des ARNs.Il permet de découvrir efficacement des motifs récurrents dans de larges jeux de données.On distingue traditionnellement les ARNs courts et les ARNs longs en fonction d'un seuil de 200 nucléotides. Toutefois, différents seuils ont déjà été proposés. Nous définissons ici ce seuil à 1000 nucléotides. En effet, si les ARNs plus courts que ce seuil ont été étudiés en profondeur aujourd'hui, les ARNs plus longs possèdent des fonctions très variées et sont encore mal caractérisés.La majorité des méthodes existantes se focalisent sur l'étude des ARNs courts et ne permettent pas d'être étendues aux ARNs longs, que ce soit pour des raisons de performance ou de complexité algorithmique.Les ARNs peuvent être caractérisés notamment par leur structure secondaire, permettant de comprendre leur fonction.Les pseudo-noeuds sont un type de motif biologique particulier au sein de la structure secondaire des ARNs car ils ne sont pas imbriqués dans la structure principale. De ce fait, les pseudo-noeuds permettent un aperçu précieux de la structure des ARNs dans l'espace en trois dimensions et donc de les caractériser plus finement.Toutefois, la détermination des pseudo-noeuds est un problème complexe pour lequel les performances des méthodes actuelles sont encore insatisfaisantes.Nous utilisons l'apprentissage profond pour déterminer la structure secondaire des ARNs longs, à partir de leur séquence biologique uniquement.Dans cette thèse, nous présentons tout d'abord DivideFold, qui a pour but de prédire la structure secondaire des ARNs longs selon leur séquence biologique.Nous nous basons sur une approche ''diviser pour régner'' afin de nous adapter à des ARNs plus longs en temps linéaire.Notre algorithme utilise des motifs connus pour représenter l'information dans la séquence, puis divise la séquence récursivement en plusieurs fragments grâce à un réseau de neurones convolutifs à une dimension jusqu'à ce qu'ils soient suffisamment courts pour pouvoir être donnés à une méthode existante de prédiction de structure secondaire.En deuxième lieu, nous proposons une extension de DivideFold permettant la prédiction de structure secondaire avec pseudo-noeuds pour les ARNs longs.En utilisant des fragments suffisamment larges, en les fusionnant, et en utilisant une méthode existante capable de prédire les pseudo-noeuds dans les fragments, il est possible pour DivideFold de reconnaître les pseudo-noeuds dans les ARNs longs, même à longue distance.Enfin, nous proposons de nouvelles fonctions d'augmentation de données pour les séquences et les structures secondaires des ARNs, permettant d'améliorer les performances et les capacités de généralisation des méthodes d'apprentissage en mettant à disposition un jeu de données plus varié. Cela est particulièrement important pour les ARNs longs, pour lesquels la quantité de données de structure secondaire disponibles est très restreinte. De telles méthodes existent déjà pour les séquences d'ARN, mais pas encore pour les données de structure secondaire.Notre outil DivideFold est mis à disposition de la communauté scientifique sur la plateforme EvryRNA.