Thèse soutenue

Inférence de motifs structurés : algorithmes et outils appliqués à la détection de sites de fixation dans le séquences génomiques

FR  |  
EN
Auteur / Autrice : Laurent Marsan
Direction : Maxime CrochemoreMarie-France Sagot
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2002
Etablissement(s) : Université de Marne-la-Vallée (1991-2019)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Au cours de ce travail, nous nous sommes particulièrement intéressés à un problème de biologie moléculaire: la détection de sites de fixation dans des séquences d'ADN. Ce problème, perçu sous un certain angle, trouve des solutions variées grâce aux travaux réalisés en algorithmique du texte. Après une présentation des spécificités de ces sites, nous passons en revue les représentations informatiques existantes utilisées pour les modéliser. Puis, nous faisons état des différents travaux algorithmiques effectués dans le domaine de leur détection. La pertinence des principales approches est discutée. Nous essayons en particulier de présenter les différents aspects du compromis qui paraît inévitable entre sensibilité et complexité quand on traite un tel problème. Notre apport consiste ensuite à développer une nouvelle représentation pour les sites de fixation. Celle-ci prend en compte une caractéristique de certains d'entre eux: leur capacité à s'associer sous certaines contraintes. Nous introduisons la notion de modèle structuré, et développons plusieurs algorithmes combinatoires exacts de détection de tels modèles. Nous présentons ensuite l'outil que nous avons conçu à partir de ces algorithmes, dénommé SMILE. Nous ramenant au problème biologique qui a motivé ces travaux algorithmiques, nous appliquons cet outil à l'inférence de sites de fixation connus et inconnus dans des jeux de séquences nucléiques expérimentaux ou directement issus de génomes complets. Les résultats de ces expériences sont comparés avec ceux qu'obtiennent certains outils couramment utilisés sur les mêmes jeux de données, et leur pertinence biologique est discutée. Pour finir, nous jugeons l'apport des modèles structurés et esquissons plusieurs directions à explorer pour améliorer la détection de sites de fixation. Les représentations, algorithmes et outils développés dans cette thèse sont généraux, et peuvent donc être appliqués à l'extraction de tous types de signaux structurés et approchés, communs à plusieurs séquences. En particulier, ils peuvent d'ores et déjà être utilisés pour inférer des motifs dans des séquences protéiques