Thèse soutenue

Analyse multi-échelle du transcriptome : développements méthodologiques et algorithmiques

FR  |  
EN
Auteur / Autrice : Arnaud Liehrmann
Direction : Guillem RigaillBenoît Castandet
Type : Thèse de doctorat
Discipline(s) : Biologie moléculaire et cellulaire
Date : Soutenance le 28/11/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Structure et Dynamique des Systèmes Vivants
Partenaire(s) de recherche : Laboratoire : Laboratoire de Mathématiques et Modélisation d'Évry (Evry, Essonne)
référent : Université d'Évry-Val-d'Essonne (1991-....)
graduate school : Université Paris-Saclay. Graduate School Life Sciences and Health (2020-....)
Jury : Président / Présidente : Ingrid Lafontaine
Examinateurs / Examinatrices : Ian Small, Emilie Lebarbier, Ciarán Condon, Pierre Neuvial, Hélène Touzet
Rapporteurs / Rapporteuses : Ian Small, Emilie Lebarbier

Résumé

FR  |  
EN

Mon travail peut être divisé en deux parties principales. Premièrement, j'ai conçu des outils dédiés à l'analyse différentielle du transcriptome. Deuxièmement, j'ai développé et appliqué des méthodes de détection de ruptures sur des ensembles de données génomiques. La diversité remarquable des isoformes d'ARN est principalement attribuable à des modifications post-transcriptionnelles, en plus des sites alternatifs d'initiation de la transcription. Ces modifications couvrent un ensemble d'événements qui peuvent se produire le long des molécules d'ARN, comprenant l'épissage, la maturation des extrémités, la polyadénylation alternative, l'édition, et la modification de base azotée. L'avènement de la transcriptomique à haut débit a catalysé une compréhension sans précédent de cette diversité. Cependant, l'analyse de ces données présente des défis statistiques, informatiques, techniques et biologiques considérables. J'ai activement contribué au développment de deux méthodes, DiffSegR et comaturationTrackeR, dédiées à l'analyse différentielle du transcriptome. Ces méthodes sont conçues pour atténuer les difficultés liées à l'étude des isoformes individuelles, souvent non annotées, en se concentrant plutôt sur des analyses événement par événement ou par paire d'événements. DiffSegR permet d'identifier les différences d'expression à l'échelle du transcriptome entre deux conditions biologiques à partir de données RNA-Seq. Grâce à l'intégration d'un algorithme de détection de ruptures multiples, il délimite avec précision les frontières des régions différentiellement exprimés, éliminant ainsi la nécessité d'annotations préalables. D'autre part, comaturationTrackeR, qui utilise des données RNA-seq à lectures longues, est conçu pour détecter les co-maturations à l'échelle du transcriptome, c'est-à-dire les dépendances entre les paires d'événements de maturation tels que l'édition et l'épissage. Les deux méthodes sont intégrées au cadre statistique DESeq2. Cette intégration permet de tester rigoureusement les différences d'expression et les co-maturations. De plus, ces méthodes ont été intuitivement encapsulées dans des packages R, ce qui garantit leur convivialité tant pour les biologistes que pour les bioinformaticiens. Ces approches ont été appliquées et ont prouvé leur efficacité sur le transcriptome du chloroplaste, de la mitochondrie et d'une bactérie. En outre, il est important de noter que de nombreux résultats ont été validés au niveau moléculaire. Une autre facette de ma thèse concerne le développement et l'application de méthodologies de détection de ruptures multiples sur des ensembles de données génomiques. Divers algorithmes de programmation dynamique visant à maximiser une vraisemblance pénalisée ont été proposés. Ces algorithmes et les contrastes qu'ils optimisent présentent des propriétés informatiques et statistiques remarquables, leur rapidité justifiant leur utilisation avec des données génomiques. Dans cette lignée, j'ai conçu et mis en œuvre un algorithme de programmation dynamique exact et efficace, Ms.FPOP. Cet algorithme optimise un critère des moindres carrés et incorpore une pénalité multi-échelle qui possède des propriétés statistiques supérieures au critère des moindres carrés pénalisé avec un critère d'information bayésien. Ms.FPOP utilise des techniques d'élagage fonctionnel pour accélérer le temps de calcul de quadratique à en moyenne log-linéaire en la longueur du signal. Ms.FPOP est implémenté en C++ et est interfacé avec R pour un accès convivial. J'ai effectué des simulations approfondies de Ms.FPOP avec une grande variété de scénarios, et les résultats sont prometteurs. Parallèlement, j'ai appliqué des méthodes de détection de ruptures multiples à des ensembles de données génomiques et j'ai observé que ces méthodes amélioraient l'état de l'art pour la détection des régions différentiellement exprimées dans les données RNA-Seq et des pics dans les données ChIP-Seq.