Methods for staistical inference on correlated data : application to genomic data - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2015

Methods for staistical inference on correlated data : application to genomic data

Méthodes pour l'inférence en grande dimension avec des données corrélées : application à des données génomiques

Résumé

The availability of huge amounts of data has changed the role of physics with respect to other disciplines. Within this dissertation I will explore the innovations introduced in molecular biology thanks to statistical physics approaches. In the last 20 years the size of genome databases has exponentially increased, therefore the exploitation of raw data, in the scope of extracting information, has become a major topic in statistical physics. After the success in protein structure prediction, surprising results have been finally achieved also in the related field of RNA structure characterisation. However, recent studies have revealed that, even if databases are growing, inference is often performed in the under sampling regime and new computational schemes are needed in order to overcome this intrinsic limitation of real data. This dissertation will discuss inference methods and their application to RNA structure prediction. We will discuss some heuristic approaches that have been successfully applied in the past years, even if poorly theoretically understood. The last part of the work will focus on the development of a tool for the inference of generative models, hoping it will pave the way towards novel applications.
La disponibilité de quantités énormes de données a changé le rôle de la physique par rapport aux autres disciplines. Dans cette thèse, je vais explorer les innovations introduites dans la biologie moléculaire grâce à des approches de physique statistique. Au cours des 20 dernières années, la taille des bases de données sur le génome a augmenté de façon exponentielle : l'exploitation des données brutes, dans le champ d'application de l'extraction d'informations, est donc devenu un sujet majeur dans la physique statistique. Après le succès dans la prédiction de la structure des protéines, des résultats étonnamment bons ont été finalement obtenus aussi pour l'ARN. Cependant, des études récentes ont révélé que, même si les bases de données sont de plus en plus grandes, l'inférence est souvent effectuée dans le régime de sous-échantillonnage et de nouveaux systèmes informatiques sont nécessaires afin de surmonter cette limitation intrinsèque des données réelles. Cette thèse va discuter des méthodes d'inférence et leur application à des prédictions de la structure de l'ARN. Nous allons comprendre certaines approches heuristiques qui ont été appliquées avec succès dans les dernières années, même si théoriquement mal comprises. La dernière partie du travail se concentrera sur le développement d'un outil pour l'inférence de modèles génératifs, en espérant qu'il ouvrira la voie à de nouvelles applications.
Fichier principal
Vignette du fichier
THESISDeLeonardis.pdf (24.33 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-01661590 , version 1 (12-12-2017)

Identifiants

  • HAL Id : tel-01661590 , version 1

Citer

Eleonora De Leonardis. Methods for staistical inference on correlated data : application to genomic data. Physics [physics]. Ecole normale supérieure - ENS PARIS, 2015. English. ⟨NNT : 2015ENSU0033⟩. ⟨tel-01661590⟩
164 Consultations
13 Téléchargements

Partager

Gmail Facebook X LinkedIn More