Thèse en cours

Des chevauchements entre mots

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 13/12/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Pengfei Wang
Direction : Eric Rivals
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le
Soutenance le 13/12/2024
Etablissement(s) : Université de Montpellier (2022-....)
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique, de Robotique et de Micro-électronique de Montpellier
Equipe de recherche : Département Informatique
Jury : Président / Présidente : Sven Rahmann
Examinateurs / Examinatrices : Eric Rivals, Gregory Kucherov, Julien CLéMENT, Sergey Kirgizov, Gilles Didier
Rapporteurs / Rapporteuses : Gregory Kucherov, Julien CLéMENT

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les chaînes de caractères (aussi appelés mots), considérées comme des séquences de lettres, jouent un rôle crucial en informatique et en mathématiques, avec des applications dans des domaines aussi divers que les statistiques sur les mots, le traitement des chaînes, la conception de codes ou la bioinformatique. En bioinformatique par exemple, la question de l'assemblage du génome nécessite de calculer les chevauchements entre des millions de chaînes courtes, de les représenter dans un graphe d'assemblage, puis de trouver un chemin approprié dans ce graphe afin d'en déduire la séquence du génome cible. Cette thèse étudie plusieurs problèmes théoriques liés aux chevauchements dans les chaînes de caractères. Nous explorons d'abord le concept d'ensembles de périodes, qui décrit comment un mot se chevauche avec lui-même. Revisitant la conjecture de Guibas et Odlyzko sur la croissance du nombre d'ensembles de périodes valides, nous fournissons une borne supérieure pour le rapport des logarithmes du nombre d'ensembles de périodes et de la longueur du mot, établissant la convergence de ce rapport et clôturant cette conjecture datant de 1981. Ensuite, nous étudions les corrélations, qui capturent les chevauchements entre deux mots en identifiant où un suffixe d'un mot correspond à un préfixe de l'autre. Nous commençons par caractériser les corrélations et étudions le nombre de corrélations pour une longueur de mot donnée. Nous prouvons un résultat de convergence asymptotique similaire à celui obtenu pour les ensembles de périodes. En calculant combien de paires de mots partagent la même corrélation, nous abordons des questions importantes sur les chevauchements de mots, notamment deux problèmes ouverts posés par Gabric en 2022 concernant le plus long chevauchement entre deux mots. Dans une annexe, nous généralisons ces questions au cas où les mots d'une paire peuvent être de longueur différente, et résolvons aussi dans ce cas général les questions ouvertes proposées par Gabric en 2022. En outre, nous étudions la périodicité dans les chaînes dégénérées, une généralisation des chaînes qui modélise l'incertitude dans les séquences et qui a été proposée comme représentation des pangénomes. Nous proposons de nouvelles notions de périodicité, fournissons des conditions pour reconnaître les ensembles de périodes valides et analysons la convergence du nombre d'ensembles de périodes pour les chaînes dégénérées d'une longueur donnée. Pour améliorer notre compréhension des chevauchements de chaînes de caractères, nous utilisons plusieurs outils et techniques mathématiques, issues notamment de la combinatoire, de la théorie des graphes, des probabilités ou de l'analyse algorithmique. Enfin, nous proposons plusieurs questions ouvertes et conjectures qui offrent de nouvelles perspectives de recherches sur les chevauchements de chaînes de caractères.