Thèse soutenue

Relaxation Lagrangienne : resoudre des problèmes NP-dur en bioinformatique par des méthodes d'optimisation combinatoire

FR  |  
EN
Auteur / Autrice : Stefan Canzar
Direction : Ernst AlthausJens GustedtKurt Mehlhorn
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/11/2008
Etablissement(s) : Nancy 1 en cotutelle avec Universität des Saarlandes
Ecole(s) doctorale(s) : IAEM - Ecole Doctorale Informatique, Automatique, Électronique - Électrotechnique, Mathématiques
Partenaire(s) de recherche : Laboratoire : Laboratoire Lorrain de Recherche en Informatique et ses Applications
Jury : Président / Présidente : René Schott
Rapporteurs / Rapporteuses : Knut Reinert, Gregory Kucherov, Ernst Althaus

Mots clés

FR

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

Cette thèse est dédiée à la résolution de deux problèmes d'optimisation combinatoire NP-complets surgissant en bioinformatique, à savoir le problème classique d'alignement de séquences, ainsi qu'un problème nouvellement formalisé, le problème de coloration par contraintes d'intervalles ou Interval Constraint Coloring Problem (ICP). Nous montrons dans cette thèse qu'il est possible de résoudre des instances réelles et de grande taille de ces problèmes apparaissant en biologie, et ceci par des méthodes de programmation mathématiques avancées. Nous démontrons également l'existence de méthodes plus efficaces, permettant d'obtenir des solutions approchées pour ces mêmes problèmes. Dans la première partie de la thèse, nous présentons un algorithme pour la solution du problème classique de l'alignement de séquences, basé sur la relaxation lagrangienne. Le problème de l'alignement de séquences est une abstraction mathématique courante du problème de comparaison de séquences biologiques, comme l'ADN, l'ARN ou les séquences de protéines. Si le poids d'un alignement séquentiel multiple est calculé comme la somme des poids des paires de séquence projetées de l'alignement considéré, alors le problème de déterminer un alignement de poids maximal est NP-complet, tant que le nombre de séquences n'est pas fixé. La plupart des logiciels disponibles pour la résolution du problème d'alignement de séquences se focalisent donc sur des approches heuristiques. Aucune méthode n'est actuellement capable de résoudre efficacement des instances de taille moyenne, ou des instances comportant des séquences d'un faible taux de similitude, de ce problème de manière exacte. Nous présentons un nouvel algorithme pour la résolution du problème de l'alignement de séquences, basé sur la technique de séparation et évaluation (branch-and-bound ou B&B). Nous approchons la solution optimale en nombres entiers dans les nœuds de l'arbre B&B par une relaxation lagrangienne de la formulation en tant que PLNE du problème d'alignement de séquences multiples. Un nombre exponentiel d'inégalités supplémentaires doit alors être vérifié afin de garantir que l'alignement de séquences multiples peut être reconstruit sans conflits à partir des alignements individuels. En renforcant ces inégalités avant de les dualiser, le sous-problème lagrangien devient le problème d'alignement par paires étendu: il s'agit alors de trouver le plus long chemin dans un graphe acyclique, auquel sont ajoutés des pénalités lors du passage à travers certaines zones ``obstacles''. Nous introduisons un algorithme efficace permettant de résoudre ce problème de manière répétitive, afin de trouver une bonne approximation des multiplicateurs de Lagrange via optimization du sous-gradient. La reformulation des inégalités dualisées par rapport à des variables supplémentaires améliore de manière significative le taux de convergence de l'algorithme. Nous adressons le problème du nombre exponentiel d'inégalités par une approche itérative. L'ensemble des contraintes est vide au début. Après chaque itération, nous rajoutons à cet ensemble ces inégalités qui sont le plus violées par la combinaison convexe d'un petit nombre des solutions lagrangiennes précédentes (y compris la solution courante). Conformément au schéma relax-and-cut, nous dualisons exclusivement les inégalités présents dans l'ensemble des contraintes décrit précédemment. L'ICP est un problème qui se pose lors de l'analyse et l'interprétation de données expérimentales en biochimie. L'analyse du taux d'échange hydrogène/deutérium par spectrométrie de masse est une des méthodes utilisées pour obtenir des informations sur la structure tertiaire des protéines. Les résultats de ces expériences se présentent sous forme de taux d'échange des résidus dans les segments chevauchés de la protéine. Ces segments doivent être recollés afin d'obtenir une vision globale de la structure de la protéine. L'ICP est l'abstraction mathématique de ce process de recombinaison. L'objectif de l'ICP est d'attribuer une couleur (taux d'échange) à un ensemble d'entiers (résidus de protéines) de telle manière à ce qu'un ensemble de contraintes est vérifié. Chaque contrainte représente un intervalle fermé (segment d'une protéine) ainsi qu'un ensemble d'exigences supplémentaires concernant le nombre d'éléments qui doivent appartenir à chacune des catégories de couleur (taux d'échanges observés lors des expériences). Nous montrons que le problème peut être résolu par des méthodes de programmation linéraire en nombres entiers (PLNE), et nous utilisons un algorithme d'énumération implicite qui s'avère efficace pour la plupart des problèmes qu'on rencontre dans la pratique. Puisque notre motivation est de fournir aux biochimistes une liste exhaustive des solutions potentielles, une version améliorée de notre approche PLNE consiste à regrouper des solutions similaires dans des classes d'équivalence, ceci afin d'établir une version améliorée et plus performante de la procédure d'énumération. Nous démontrons ensuite la solvabilité du cas particulier à deux couleurs par la contrainte de solution en nombres entiers du polytope P, défini à travers la relaxation linéaire, tout en proposant un algorithme de résolution de complexité polynomielle pour ce cas précis. Cet algorithme sert ensuite de base pour l'établissement de solutions approchés d'instances de dimension quelconque mais fixe (pour le moment sans garantie sur la qualité de la solution obtenue). Nous obtenons ainsi une amélioration d'un ordre de grandeur en termes de performance par rapport à la solution exacte, basée sur l'approche PLNE. Nous démontrons que ce problème est NP-complet pour un nombre arbitraire de couleurs. Nous établissons ensuite un algorithme qui, étant donné P?Ø, est capable de déterminer une coloration satisfaisante toutes les contraintes données avec un écart maximal de ±1 des valeurs cible. Vue la complexité en NP du problème, il ne semble pas possible d'obtenir des solutions d'une qualité sensiblement supérieure. Notre approche est essentiellement basée sur la théorie des polyèdres et des techniques d'arrondissage randomisés. Les données obtenues lors des expériences biologiques réelles sont souvent bruitées, ce qui entraine le plus souvent l'insolvabilité du problème, voire même P=Ø. Afin d'adresser ce problème, l'objectif de la PLNE est de minimiser la somme des déviations absolues des contraintes de coloration sur l'intégralité des intervalles. L'approche particulière à deux couleurs optimise en effet cette même fonction. En outre, nous utilisons cette approche combinatoire pour déterminer, d'une façon lagrangienne, une borne sur l'erreur minimale, qui sera ensuite utilisée dans un algorithme de type branch-and-bound pour déterminer toutes les colorations optimales. Nous proposons une variante du problème précédent, dans laquelle nous essayons de maximiser le nombre contraintes qui peuvent être satisfaits en même temps. Nous démontrons que ce problème est APX-dur et qu'il ne permet donc pas de schéma d'approximation polynomial sauf si P=NP. C'est pourquoi nous relaxons légèrement le critère de satisfiabilité (par un facteur (1+e) et décrivons par la suite un schéma d'approximation d'une complexité quasi-polynomiale, permettant de ``satisfaire'' le plus grand nombre de contraintes possible.