Learning from positive and unlabeled examples in biology - PASTEL - Thèses en ligne de ParisTech Accéder directement au contenu
Thèse Année : 2010

Learning from positive and unlabeled examples in biology

Méthodes d'apprentissage statistique à partir d'exemples positifs et indéterminés en biologie

Résumé

Biology is a field where an enormous amount of knowledge remains to be discovered. There are many problems for which traditional laboratory techniques are overwhelmed. Whether they are time consuming, expensive, error-prone or low throughput, they struggle to bring answers to these many questions that are left unanswered. In parallel, biotechnologies have evolved these past decades giving rise to mass production of biological data. High-throughput experiments now allow to characterize a cell at the genome-scale, raising great expectations as for the understanding of complex biological phenomenons. The combination of these two facts has induced a growing need for mathematicians and statisticians to enter the field of biology. Not only are bioinformaticians required to analyze efficiently the tons of data coming from high-throughput experiments in order to extract reliable information but their work also consists in building models for biological systems that result into useful predictions. Examples of problems for which a such expertise is needed encompass among others regulatory network inference and disease gene identification. Regulatory network inference is the elucidation of transcriptional regulation interactions between regulator genes called transcription factors and their gene targets. On the other hand, disease gene identification is the process of finding genes whose disruption triggers some genetically inherited disease. In both cases, since biologists are confronted with thousands of genes to investigate, the challenge is to output a prioritized list of interactions or genes believed to be good candidates for further experimental study. The two problems mentioned above share a common feature: they are both prioritization problems for which positive examples exists in small amounts (confirmed interactions or identified disease genes) but no negative data is available. Indeed, biological databases seldom report non-interactions and it is difficult not to say impossible to determine that a gene is not involved in the developing process of a disease. On the other hand, there are plenty of so-called unlabeled examples like for instance genes for which we do not know whether they are interacting with a regulator gene or whether they are related to a disease. The problem of learning from positive and unlabeled examples, also called PU learning, has been studied in itself in the field of machine learning. The subject of this thesis is the study of PU learning methods and their application to biological problems. In the first chapter we introduce the bagging SVM, a new algorithm for PU learning, and we assess its performance and properties on a benchmark dataset. The main idea of the algorithm is to exploit by means of a bagging-like procedure, an intrinsic feature of a PU learning problem, which is that the unlabeled set is contaminated with hidden positive examples. Our bagging SVM achieves comparable performance to the state-of-the-art method while showing good properties in terms of speed and scalability to the number of examples. The second chapter is dedicated to SIRENE, a new method for supervised inference of regulatory network. SIRENE is a conceptually simple algorithm which compares favorably to existing methods for network inference. Finally, the third chapter deals with the problem of disease gene identification. We propose ProDiGe, an algorithm for Prioritization Of Disease Genes with PU learning, which is derived from the bagging SVM. The algorithm is tailored for genome-wide gene search and allows to integrate several data sources. We illustrate its ability to correctly retrieve human disease genes on a real dataset.
La biologie est un domaine scientifique qui reste encore très incomplet au sens où la somme de connaissances qu'il nous reste à découvrir est non négligeable. Il est fréquent que les techniques de laboratoire traditionnelles soient inadaptées à la complexité du problème traité. Une raison possible à cela est que leur mise en œuvre requiert souvent beaucoup de temps et/ou de moyens financiers. Par ailleurs, certaines d'entre elles produisent des résultats peu fiables ou à trop faible débit. C'est pourquoi ces techniques peinent parfois à apporter des réponses aux nombreuses questions biologiques non résolues. En parallèle, l'évolution des biotechnologies a permis de produire massivement des données biologiques. Les expériences biologiques à haut débit permettent à présent de caractériser des cellules à l'échelle du génome et sont porteuses d'espoir pour la compréhension de phénomènes biologiques complexes. Ces deux faits combinés ont induit un besoin croissant de mathématiciens et de statisticiens en biologie. La tâche des bioinformaticiens est non seulement d'analyzer efficacement les masses de données produites par les expériences à haut débit et d'en extraire une information fiable mais aussi d'élaborer des modèles de systèmes biologiques menant à des prédictions utiles. L'inférence de réseaux de régulation et la recherche de gènes de maladie sont deux exemples parmi d'autres, de problèmes où une expertise bioinformatique peut s'avérer nécessaire. L'inférence de réseaux de régulation consiste à identifier les relations de régulation transcriptionnelle entre des gènes régulateurs appelés facteurs de transcription et des gènes cibles. Par ailleurs, la recherche de gènes de maladie consiste à déterminer les gènes dont les mutations mènent au développement d'une maladie génétiquement transmise. Dans les deux cas, les biologistes sont confrontés à des listes de milliers de gènes à tester. Le défi du bioinformaticien est donc de produire une liste de priorité où les interactions ou gènes candidats sont rangés par ordre de pertinence au problème traité, en vue d'une validation expérimentale. Les deux problèmes mentionnés plus haut partagent une caractéristique commune : ce sont tous les deux des problèmes de priorisation pour lesquels un petit nombre d'exemples positifs est disponible (des interactions connues ou gènes de maladie déjà identifiés) mais pour lesquels on ne dispose pas de données négatives. En effet, les bases de données biologiques ne reportent que rarement les paires de gènes non interactives. De même, il est difficile voire impossible de déterminer à coup sûr qu'un gène n'est pas impliqué dans le développement d'une maladie. Par ailleurs, des nombreux exemples indéterminés existent qui sont par exemple des gènes dont on ne sait pas si ils interagissent avec un facteur de transcription ou encore des gènes dont on ne sait pas s'ils sont causaux pour une maladie. Le problème de l'apprentissage à partir d'exemples positifs et indéterminés (PU learning en anglais) a été étudié en soi dans le domaine de l'apprentissage automatique (machine learning). L'objet de cette thèse est l'étude de méthodes de PU learning et leur application à des problèmes biologiques. Le premier chapitre présente le bagging SVM, un nouvel algorithme de PU learning et évalue ses performances et propriétés sur un jeu de données standard. L'idée principale de cet algorithme est d'exploiter au moyen d'une procédure voisine du bagging, une caractéristique intrinsèque d'un problème de PU learning qui est que l'ensemble des exemples indéterminés contient des positifs cachés. Le bagging SVM atteint des performances comparables à l'état de l'art tout en faisant preuve de bonnes propriétés en termes de rapidité et d'échelle par rapport au nombre d'exemples. Le deuxième chapitre est consacré à SIRENE, une nouvelle méthode supervisée pour l'inférence de réseaux de régulation. SIRENE est un algorithme conceptuellement simple qui donne de bons résultats en comparaison à des méthodes existantes pour l'inférence de réseaux. Enfin, le troisième chapitre décrit ProDiGe, un algorithme pour la priorisation de gènes de maladie à partir d'exemples positifs et indéterminés. Cet algorithme, issu du bagging SVM, peut gérer la recherche de gènes de maladies à l'échelle du génome et permet d'intégrer plusieurs sources de données. Sa capacité à retrouver correctement des gènes de maladie a été démontrée sur un jeu de données réel.
Fichier principal
Vignette du fichier
MORDELETfantine.pdf (6.6 Mo) Télécharger le fichier

Dates et versions

pastel-00566401 , version 1 (16-02-2011)

Identifiants

  • HAL Id : pastel-00566401 , version 1

Citer

Fantine Mordelet. Learning from positive and unlabeled examples in biology. Bioinformatics [q-bio.QM]. École Nationale Supérieure des Mines de Paris, 2010. English. ⟨NNT : 2010ENMP0058⟩. ⟨pastel-00566401⟩
478 Consultations
872 Téléchargements

Partager

Gmail Facebook X LinkedIn More