Représentation d'ensemble de k-mers préservant la localité
Auteur / Autrice : | Igor Martayan |
Direction : | Jean-Stéphane Varre |
Type : | Projet de thèse |
Discipline(s) : | Informatique et applications |
Date : | Inscription en doctorat le 01/10/2023 |
Etablissement(s) : | Université de Lille (2022-....) |
Ecole(s) doctorale(s) : | MADIS Mathématiques, sciences du numérique et de leurs interactions |
Partenaire(s) de recherche : | Laboratoire : CRIStAL - Centre de Recherche en Informatique, Signal et Automatique de Lille |
Mots clés
Mots clés libres
Résumé
La gestion et l'analyse de grandes collections de séquences d'ADN, qui augmentent en volume et en nombre grâce aux avancées des technologies de séquençage, représentent un défi pour l'informatique appliquée à la biologie. Bien qu'il y ait une quantité massive de données disponibles (par exemple plusieurs pétaoctets de données séquencées sur des serveurs publics), elles ne sont pas facilement analysables en raison de limitations computationnelles de stockage et d'indexation. Ce projet de doctorat propose plusieurs axes de recherche pour résoudre ce problème, tels que l'amélioration de la représentation en chaîne compacte des mots génomiques, la conception de nouvelles méthodes d'indexation statiques pour les textes génomique, le développement de nouveaux index dynamiques préservant la localité des mots, et l'exploration de l'utilisation de hachage sensible à la localité pour générer des fonctions associatives pour les mots génomiques. En plus du travail théorique sur les ensembles de chaînes de caractères, les solutions proposées visent à optimiser le stockage et l'indexation des séquences d'ADN, les rendant ainsi plus facilement accessibles pour l'analyse biologique en aval.