Contributions au développement d'outils computationnels de design de protéine : méthodes et algorithmes de comptage avec garantie
Auteur / Autrice : | Clement Viricel |
Direction : | Thomas Schiex, Sophie Barbe |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques Appliquées |
Date : | Soutenance le 18/12/2017 |
Etablissement(s) : | Toulouse, INSA |
Ecole(s) doctorale(s) : | Mathématiques Informatique Télécommunications de Toulouse |
Partenaire(s) de recherche : | Laboratoire : MIAT Mathématiques et Informatique Appliquées Toulouse - Mathématiques et Informatique Appliquées de Toulouse / MIAT |
Jury : | Président / Présidente : Martin Cooper |
Examinateurs / Examinatrices : Thomas Schiex, Sophie Barbe, Raphael Guerois | |
Rapporteurs / Rapporteuses : Frederic Cazals, Christophe Lecoutre |
Mots clés
Résumé
Cette thèse porte sur deux sujets intrinsèquement liés : le calcul de la constante de normalisation d’un champ de Markov et l’estimation de l’affinité de liaison d’un complexe de protéines. Premièrement, afin d’aborder ce problème de comptage #P complet, nous avons développé Z*, basé sur un élagage des quantités de potentiels négligeables. Il s’est montré plus performant que des méthodes de l’état de l’art sur des instances issues d’interaction protéine-protéine. Par la suite, nous avons développé #HBFS, un algorithme avec une garantie anytime, qui s’est révélé plus performant que son prédécesseur. Enfin, nous avons développé BTDZ, un algorithme exact basé sur une décomposition arborescente qui a fait ses preuves sur des instances issues d’interaction intermoléculaire appelées “superhélices”. Ces algorithmes s’appuient sur des méthodes issuse des modèles graphiques : cohérences locales, élimination de variable et décompositions arborescentes. A l’aide de méthodes d’optimisation existantes, de Z* et des fonctions d’énergie de Rosetta, nous avons développé un logiciel open source estimant la constante d’affinité d’un complexe protéine protéine sur une librairie de mutants. Nous avons analysé nos estimations sur un jeu de données de complexes de protéines et nous les avons confronté à deux approches de l’état de l’art. Il en est ressorti que notre outil était qualitativement meilleur que ces méthodes.