Thèse soutenue

Représentations pour l'apprentissage statistique à grande échelle en génomique

FR  |  
EN
Auteur / Autrice : Romain Menegaux
Direction : Jean-Philippe Vert
Type : Thèse de doctorat
Discipline(s) : Bio-informatique
Date : Soutenance le 07/05/2021
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris)
Partenaire(s) de recherche : Laboratoire : Centre de bio-informatique (Paris, Ile-De-France)
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....)
Jury : Président / Présidente : Gregory Kucherov
Examinateurs / Examinatrices : Jean-Philippe Vert, Nicola Segata, Jean-Daniel Zucker, Flora Jay, Sophie Schbath, Pierre Mahe, Armand Joulin
Rapporteurs / Rapporteuses : Nicola Segata, Jean-Daniel Zucker

Résumé

FR  |  
EN

Le coût du séquençage de l'ADN a été divisé par 100 000 en seulement 15 ans. Grâce à cette révolution technologique, des volumes de données toujours plus grands émergent, posant de nouvelles problématiques informatiques. Comment analyser et stocker les séquences d'ADN de manière efficiente ? La métagénomique, qui cherche à caractériser et identifier les microbes – bactéries, virus – à partir de leur ADN, a largement bénéficié de cette avancée. Une expérience de séquençage produit des milliards de petits fragments d'ADN (reads), mélangés aléatoirement. Une étape cruciale en bioinformatique est d'identifier le génome d'origine de chaque fragment, un problème dit de taxonomic binning. Les méthodes classiques, basées sur l’alignement des séquences à des génomes de référence, devenues trop lentes avec l’augmentation du nombre de génomes, ont été remplacées par le pseudo-alignement. Celui-ci cherche des sous-séquences du read dans une base préexistante. L'apprentissage statistique offre également des résultats prometteurs pour la classification des séquences biologiques. Dans cette thèse, nous approfondirons ces méthodes pour le taxonomic binning. Nous présenterons d’abord fastDNA, un algorithme qui apprend des représentations continues pour tous les k-mers (courtes sous-séquences de longueur k, ou ''mots'' de l'ADN). Une représentation vectorielle du read est obtenue en combinant celles de ses k-mers, et un classifieur linéaire en prédit la classe. Ensuite, nous introduirons Brume, une extension de fastDNA qui regroupe les k-mers via le graphe de de Bruijn, augmentant le nombre de k-mers effectifs sans surcoût mémoire. Enfin, nous présenterons Phylo-HS, une nouvelle fonction d’apprentissage statistique basée sur l’arbre phylogénétique.