Théorie et applications de modulaire analyse de réponse

par Meriem Mekedem

Thèse de doctorat en Biologie Santé

Sous la direction de Jacques Colinge.

Soutenue le 18-01-2022

à Montpellier , dans le cadre de Sciences Chimiques et Biologiques pour la Santé , en partenariat avec Institut de Recherche en Cancérologie (Montpellier) (laboratoire) .

Le président du jury était Emmanuel Cornillot.

Le jury était composé de Jacques Colinge, Emmanuel Cornillot, Yamina Miloudi, Thomas Burger.

Les rapporteurs étaient Yamina Miloudi, Pedro Ballester.


  • Résumé

    L'inférence des réseaux de régulation est une tâche importante de la biologie des systèmes. Elle permet de transformer des ensembles de données génomiques en connaissances biologiques de haut niveau. Elle consiste en l'ingénierie inverse des réseaux de régulation des gènes à partir des données OMIC, telles que les données RNAseq ou les données protéomiques basées sur la spectrométrie de masse, par le biais de méthodes computationnelles. L'ingénierie inverse des réseaux biologiques à partir d'un système robuste et d'un grand ensemble de données reste le principal défi de la modélisation contemporaine des réseaux. De nombreux efforts ont été faits pour établir des méthodes mais jusqu'à présent aucun gagnant clair n'a émergé. Cette thèse se concentre sur la technique de modélisation mathématique appelée Modular Response Analysis (MRA).J'ai structuré cette thèse en cinq chapitres avec une liste bibliographique de 307 citations.Dans le chapitre 1, je présente les bases de la modélisation mathématique en biologie des systèmes. Je commence par une définition de la biologie des systèmes et de la modélisation mathématique correspondante. Ensuite, je présente les caractéristiques typiques des systèmes biologiques et les modèles correspondants. Cela fournit suffisamment d'informations pour comprendre cette thèse.Dans le chapitre 2, je donne un aperçu général du domaine de l'inférence de réseau. Je me concentre sur les bases et j'essaie de classer les différentes méthodes en fonction de leurs hypothèses et de leur sémantique. Bien entendu, il est impossible de rendre justice à un domaine de recherche aussi riche et étendu dans cette revue.Dans le chapitre 3, je me concentre sur MRA. Cela est dû à sa capacité à traiter des structures biologiques importantes telles que les boucles de rétroaction et la diaphonie, ainsi que les poids de force de connectivité, d'une manière non discrète, ne nécessitant que des quantités gérables de données expérimentales. Je discute d'abord de l'origine et du développement de la théorie de MRA. Ensuite, je présente une amélioration de MRA à l'aide de l'algèbre des blocs linéaires et sa mise en œuvre parallèle. Enfin, je passe brièvement en revue les limites de MRA.Dans le chapitre 4, je présente une application de MRA à un système biologique très stable, tel que le cycle de l'acide tricarboxylique (TCA), qui peut conduire à des équations algébriques linéaires mal conditionnées lorsque des expériences de perturbation induisent de très petits changements dans les données observées. À cette fin, une régularisation de Tikhonov sera mise en œuvre, qui est considérée comme l'une des approches les plus populaires pour résoudre les problèmes discrets mal posés avec des données contaminées par des erreurs.Dans le chapitre 5, je tente d'évaluer l'applicabilité de MRA pour résoudre ce problème de manière pratique. À cette fin, j'ai utilisé des ensembles de données de taille moyenne (>50) et de grande taille (>500). Le premier ensemble de données - de taille moyenne - rapporte l'expression transcriptionnelle de 55 kinases et 6 non-kinases dans 11 conditions expérimentales. Dans chaque condition, les niveaux de transcription de l'ensemble des 61 gènes ont été obtenus par séquençage de l'ARN superficiel, y compris les cellules de type sauvage et les cellules avec des KOs individuels de chaque gène. Le deuxième ensemble de données - de grande taille - a été généré par la nouvelle génération de la carte de connectivité (CMap) en utilisant son nouvel essai L1000. Comme les ensembles de données L1000 sont plus complexes que l'ensemble de données de taille moyenne (ensemble de données sur les kinases) qui est un écran relativement classique, j'introduis, avant de présenter l'article, quelques informations sur la façon dont il a été construit.

  • Titre traduit

    Modular Response Analysis Theory and Applications


  • Résumé

    Regulatory network inference is an important task of systems biology. It enables the transformation of genomics datasets into high level biological knowledge. It consists of the reverse engineering of gene regulatory networks from OMICs data, such as RNAseq or mass spectrometry-based proteomics data, through computational methods. Reverse engineering biological networks from robust system and large data set is still the major challenge of contemporary network modelling. Many efforts have been establish methods but so far no clear winner has emerged. This thesis focuses on the mathematical modelling technique called Modular Response Analysis (MRA)I have structured this thesis in five chapters with a bibliographic list of 307 citations.In Chapter 1, I present the basics of mathematical modelling in systems biology. I start with a definition of systems biology and the corresponding mathematical modelling. Then I present the typical characteristics of biological systems and the corresponding models. This provides sufficient information to understand this thesis.In Chapter 2, I give a general overview of the field of network inference. I focus on the basics and try to classify the different methods according to their assumptions and semantics. Of course, it is impossible to do justice to such a rich and extensive field of research in this review.In Chapter 3, I focus on MRA. This is due to its ability to handle important biological structures such as feedback loops and crosstalk, as well as connectivity force weights, in a non-discrete manner, requiring only manageable amounts of experimental data. I first discuss the origin and development of the MRA theory. Then, I present an improvement of MRA using linear block algebra and its parallel implementation. Finally, I briefly review the limitations of MRA.In Chapter 4, I present an application of MRA to a very stable biological system, such as the tricarboxylic acid (TCA) cycle, which can lead to ill-conditioned linear algebraic equations when perturbation experiments induce very small changes in the observed data. To this end, a Tikhonov regularisation will be implemented, which is considered one of the most popular approaches to solve ill-posed discrete problems with error-contaminated data (Hochstenbach and Reichel, 2010).In Chapter 5, I attempt to evaluate the applicability of MRA to solve this problem in a practical way. For this purpose, I used medium (>50) and large (>500) datasets. The first - medium-sized - dataset reports the transcriptional expression of 55 kinases and 6 non-kinases in 11 experimental conditions. In each condition, transcript levels of all 61 genes were obtained by surface RNA sequencing, including wild-type cells and cells with individual KOs of each gene. The second - large - dataset was generated by the next generation connectivity map (CMap) using its new L1000 assay. As the L1000 datasets are more complex than the medium-sized dataset (kinase dataset) which is a relatively classical screen, I introduce, before presenting the paper, some information on how it was constructed.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Universités de Montpellier. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.