Thèse en cours

Représentation d'ensemble de k-mers préservant la localité

FR  |  
EN
Auteur / Autrice : Igor Martayan
Direction : Jean-Stéphane Varre
Type : Projet de thèse
Discipline(s) : Informatique et applications
Date : Inscription en doctorat le 01/10/2023
Etablissement(s) : Université de Lille (2022-....)
Ecole(s) doctorale(s) : MADIS Mathématiques, sciences du numérique et de leurs interactions
Partenaire(s) de recherche : Laboratoire : CRIStAL - Centre de Recherche en Informatique, Signal et Automatique de Lille

Résumé

FR  |  
EN

La gestion et l'analyse de grandes collections de séquences d'ADN, qui augmentent en volume et en nombre grâce aux avancées des technologies de séquençage, représentent un défi pour l'informatique appliquée à la biologie. Bien qu'il y ait une quantité massive de données disponibles (par exemple plusieurs pétaoctets de données séquencées sur des serveurs publics), elles ne sont pas facilement analysables en raison de limitations computationnelles de stockage et d'indexation. Ce projet de doctorat propose plusieurs axes de recherche pour résoudre ce problème, tels que l'amélioration de la représentation en chaîne compacte des mots génomiques, la conception de nouvelles méthodes d'indexation statiques pour les textes génomique, le développement de nouveaux index dynamiques préservant la localité des mots, et l'exploration de l'utilisation de hachage sensible à la localité pour générer des fonctions associatives pour les mots génomiques. En plus du travail théorique sur les ensembles de chaînes de caractères, les solutions proposées visent à optimiser le stockage et l'indexation des séquences d'ADN, les rendant ainsi plus facilement accessibles pour l'analyse biologique en aval.