Thèse soutenue

Des séquences au connaissances, améliorer et apprendre des alignements de séquences
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Luc Blassel
Direction : Rayan Chikhi
Type : Thèse de doctorat
Discipline(s) : Génétique et génomique
Date : Soutenance le 02/12/2022
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Complexité du vivant (Paris)
Partenaire(s) de recherche : Laboratoire : Institut Pasteur (Paris). Algorithmes pour les séquences biologiques
Jury : Président / Présidente : Macha Nikolski
Examinateurs / Examinatrices : Olivier Gascuel, Élodie Laine, Jean-Philippe Vert
Rapporteurs / Rapporteuses : Macha Nikolski, Brona Brejova

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Dans cette thèse nous étudierons deux problèmes importants en bioinformatique, le premier concernant l’analyse primaire de données de séquençage, et le second concernant l’analyse secondaire de séquence par apprentissage automatique en vue d’obtenir des connaissances biologiques. L’alignement de séquences est l’un des outils les plus puissants et les plus importants dans le domaine de la biologie computationnelle. L’alignement de lectures de séquençage est souvent la première étape de nombreuses analyses telles que la détection de variations de structure, ou l’assemblage de génomes. Les technologies de séquençage à longue lectures ont amélioré la qualité des résultats pour toutes ces analyses. Elles sont, cependant, riches en erreurs de séquençage et posent des problèmes algorithmiques à l’alignement. Une technique répandue pour réduire les effets néfastes de ces erreurs est la compression d’homopolymères. Cette technique cible le type d’erreur de séquençage à longue lectures le plus répandu. Nous présentons une technique plus générale que la compression d’homopolymères, que nous appelons les “mapping-friendly sequence reductions” (MSR). Nous montrons ensuite que certaines de ces MSRs améliorent la précision des alignements de lecture sur des génomes entiers d’humains, de drosophiles et d’E. coli. L’amélioration des méthodes d’alignement de séquences est cruciale pour les analyses en aval .Par exemple, les alignements de séquences multiples sont indispensables pour étudier la résistance des virus. Grâce à la quantité toujours croissante d’alignements de séquences multiples annotés et de haute qualité, il est aujourd’hui devenu possible et utile d’étudier la résistance des virus à l’aide de méthodes d’apprentissage automatique. Nous avons utilisé un très grand alignement de séquences multiples de séquences de VIH britanniques et entraîné plusieurs classificateurs pour distinguer les séquences non-traitées des séquences traitées. En étudiant les variables importantes aux classificateurs, nous avons identifié des mutations de résistance aux médicaments. Nous avons ensuite, avant l’entraînement, supprimé le signal connu et associé à la pharmacoressitance des données. Nous conservons le pouvoir discriminant des classificateurs, et avons identifié 6 nouvelles mutations associées à la résistance. Une étude plus approfondie a indiqué que celles-ci étaient très probablement de nature accessoire et liées à des mutations de résistance connues.