Passage à l'échelle, propriétés et qualité des algorithmes de classements consensuels pour les données biologiques massives

par Pierre Andrieu

Thèse de doctorat en Informatique

Sous la direction de Sarah Cohen-boulakia.


  • Résumé

    Les médecins et biologistes sont régulièrement amenés à interroger des bases de données biologiques publiques, par exemple lorsqu'ils se renseignent sur les gènes les plus associés à une maladie donnée. Le mot-clé choisi au moment d'interroger la base de données est particulièrement important : plusieurs reformulations synonymes d'une même maladie (par exemple « breast cancer » et « breast carcinoma ») aboutissent à des classements parfois très différents pouvant aller jusqu'à plusieurs milliers de gènes. Certains gènes, triés par pertinence, peuvent se retrouver à égalité (importance égale vis-à-vis de la maladie). De plus, certains gènes retournés en utilisant certaines reformulations peuvent être absents lorsque d'autres reformulations sont choisies. On dit alors que les classements sont incomplets et avec égalités. L'enjeu est alors de combiner l'information apportée par ces différents classements de gènes. La problématique consistant à partir d'une liste de classements et de calculer un classement dit consensuel aussi représentatif que possible des classements d'entrée est appelée « agrégation de classements ». Ce problème est connu pour être NP-difficile. Alors que la majorité des travaux considèrent les classements complets et sans égalités, nous nous sommes placés dans le contexte des classements incomplets avec égalités. Nos contributions peuvent se décomposer en trois parties. Premièrement, nous avons conçu une heuristique basée sur des graphes qui consiste à partitionner le problème de départ en sous-problèmes indépendants pour le cas où les classements sont incomplets et avec égalités. Deuxièmement, nous avons conçu un algorithme capable de déterminer des points communs entre tous les classements consensuels optimaux, permettant ainsi de fournir à l'utilisateur une indication quant à la robustesse du classement consensuel renvoyé. Une étude expérimentale sur un grand nombre de jeux de données biologiques massifs a mis en évidence la pertinence biologique des résultats fournis par nos méthodes. La dernière contribution est la suivante : les données manquantes pouvant s'interpréter de différentes façons selon le contexte, nous avons proposé un modèle paramétré permettant de prendre en compte ces différences. Nous avons conçu des algorithmes pour ce modèle et fait une étude axiomatique de ce dernier en nous basant sur la théorie du choix social.

  • Titre traduit

    Scalability, features and quality aspects of consensus algorithms for big biological data sets


  • Résumé

    Biologists and physicians regularly query public biological databases, for example when they are looking for the most associated genes towards a given disease. The chosen keyword are particularly important: synonymous reformulations of the same disease (for example "breast cancer" and "breast carcinoma") may lead to very different rankings of (thousands of) genes. The genes, sorted by relevance, can be tied (equal importance towards the disease). Additionally, some genes returned when using a first synonym may be absent when using another synonym. The rankings are then called "incomplete rankings with ties". The challenge is to combine the information provided by these different rankings of genes. The problem of taking as input a list of rankings and returning as output a so-called consensus ranking, as close as possible to the input rankings, is called the "rank aggregation problem". This problem is known to be NP-hard. Whereas most works focus on complete rankings without ties, we considered incomplete rankings with ties. Our contributions are divided into three parts. First, we have designed a graph-based heuristic able to divide the initial problem into independent sub-problems in the context of incomplete rankings with ties. Second, we have designed an algorithm able to identify common points between all the optimal consensus rankings, allowing to provide information about the robustness of the provided consensus ranking. An experimental study on a huge number of massive biological datasets has highlighted the biological relevance of these approaches. Our last contribution the following one : we have designed a parameterized model able to consider various interpretations of missing data. We also designed several algorithms for this model and did an axiomatic study of this model, based on social choice theory.