Algorithmes pour la prédiction in silico d'interactions par similarité entre macromolécules biologiques

par Mathieu Voland

Thèse de doctorat en Informatique

Sous la direction de Dominique Barth.

Soutenue le 03-04-2017

à Paris Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) , en partenariat avec Données et algorithmes pour une ville intelligente et durable (DAVID) (laboratoire) , Université de Versailles-Saint-Quentin-en-Yvelines (établissement opérateur d'inscription) et de Données et algorithmes pour une ville intelligente et durable - DAVID / DAVID (laboratoire) .

Le président du jury était Alain Denise.

Le jury était composé de Sandrine Vial, Benjamin Schwarz.

Les rapporteurs étaient Anne-Claude Camproux, Guillaume Fertin.


  • Résumé

    Un médicament, ou tout autre petite molécule biologique, agit sur l’organisme via des interactions chimiques qui se produisent avec d’autres macromolécules telles que les protéines qui régissent le fonctionnement des cellules. La détermination de l’ensemble des cibles, c’est à dire de l’ensemble des macromolécules susceptibles de lier une même molécule, est essentielle pour mieux comprendre les mécanismes moléculaires à l’origine des effets d’un médicament. Cette connaissance permettrait en effet de guider la conception d’un composé pour éviter au mieux les effets secondaires indésirables, ou au contraire découvrir de nouvelles applications à des molécules connues. Les avancées de la biologie structurale nous permettent maintenant d’avoir accès à un très grand nombre de structures tridimensionnelles de protéines impliquées dans ces interactions, ce qui motive l’utilisation d’outils in silico (informatique) pour complémenter ou guider les expériences in vitro ou in vivo plus longues et plus chères.La thèse s’inscrit dans le cadre d’une collaboration entre le laboratoire DAVID de l’Université de Versailles-Saint-Quentin, et l’entreprise Bionext SA qui propose une suite logicielle permettant de visualiser et d’étudier les interactions chimiques. Les travaux de recherches ont pour objectif de développer un algorithme permettant, à partir des données structurales des protéines, de déterminer des cibles potentielles pour un composé donné. L’approche choisie consiste à utiliser la connaissance d’une première interaction entre un composé et une protéine afin de rechercher par similarité d’autres protéines pour lesquelles on peut inférer la capacité à se lier avec le même composé. Il s’agit plus précisément de rechercher une similarité locale entre un motif donné, qui est la région permettant à la cible connue de lier le composé, et un ensemble de protéines candidates.Un algorithme a été développé, BioBind, qui utilise un modèle des surfaces des macromolécules issu de la théorie des formes alpha afin de modéliser la surface accessible ainsi qu’une topologie sur cette surface permettant la définition de régions en surface. Afin de traiter le problème de la recherche d’un motif en surface, une heuristique est utilisée consistant à définir des motifs réguliers qui sont une approximation de disques géodésiques et permettant un échantillonnage exhaustif à la surface des macromolécules. Ces régions circulaires sont alors étendues à l’ensemble du motif recherché afin de déterminer une mesure de similarité.Le problème de la prédiction de cibles est ramené à un problème de classification binaire, où il s’agit pour un ensemble de protéines données de déterminer lesquelles sont susceptibles d’interagir avec le composé considéré, par similarité avec la première cible connue. Cette formalisation permet d’étudier les performances de notre approche, ainsi que de la comparer avec d’autres approches sur différents jeux de données. Nous utilisons pour cela deux jeux de données issus de la littérature ainsi qu’un troisième développé spécifiquement pour cette problématique afin d’être plus représentatif des molécules pertinentes du point de vue pharmacologique, c’est-à-dire ayant des propriétés proches des médicaments. Notre approche se compare favorablement sur ces trois jeux de données par rapport à une autre approche de prédiction par similarité, et plus généralement notre analyse confirme que les approches par docking (amarrage) sont moins performantes que les approches par similarité pour le problème de la prédiction de cibles.

  • Titre traduit

    Similarity-based algorithms for the prediction of interactions between biomolecules


  • Résumé

    The action of a drug, or another small biomolecule, is induced by chemical interactions with other macromolecules such as proteins regulating the cell functions. The determination of the set of targets, the macromolecules that could bind the same small molecule, is essential in order to understand molecular mechanisms responsible for the effects of a drug. Indeed, this knowledge could help the drug design process so as to avoid side effects or to find new applications for known drugs. The advances of structural biology provides us with three-dimensional representations of many proteins involved in these interactions, motivating the use of in silico tools to complement or guide further in vitro or in vivo experiments which are both more expansive and time consuming.This research is conducted as part of a collaboration between the DAVID laboratory of the Versailles-Saint-Quentin University, and Bionext SA which offers a software suite to visualize and analyze chemical interactions between biological molecules. The objective is to design an algorithm to predict these interactions for a given compound, using the structures of potential targets. More precisely, starting from a known interaction between a drug and a protein, a new interaction can be inferred with another sufficiently similar protein. This approach consists in the search of a given pattern, the known binding site, across a collection of macromolecules.An algorithm was implemented, BioBind, which rely on a topological representation of the surface of the macromolecules based on the alpha shapes theory. Our surface representation allows to define a concept of region of any shape on the surface. In order to tackle the search of a given pattern region, a heuristic has been developed, consisting in the definition of regular region which is an approximation of a geodesic disk. This circular shape allows for an exhaustive sampling and fast comparison, and any circular region can then be extended to the actual pattern to provide a similarity evaluation with the query binding site.The target prediction problem is formalized as a binary classification problem, where a set of macromolecules is being separated between those predicted to interact and the others, based on their local similarity with the known target. With this point of view, classic metrics can be used to assess performance, and compare our approach with others. Three datasets were used, two of which were extracted from the literature and the other one was designed specifically for our problem emphasizing the pharmacological relevance of the chosen molecules. Our algorithm proves to be more efficient than another state-of-the-art similarity based approach, and our analysis confirms that docking software are not relevant for our target prediction problem when a first target is known, according to our metric.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.