Thèse soutenue

Approches basées sur les réseau de neurones et la découverte de sous-groupes pour l'apprentissage machine à partir à partir de données métagénomiques

FR  |  
EN
Auteur / Autrice : Maxence Queyrel
Direction : Jean-Daniel ZuckerKarine ClémentEdi Prifti
Type : Thèse de doctorat
Discipline(s) : Intelligence artificielle
Date : Soutenance le 13/10/2021
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Unité de modélisation mathématique et informatique des systèmes complexes (Bondy, Seine-Saint-Denis ; 2009?-....)
Jury : Président / Présidente : Alessandra Carbone
Examinateurs / Examinatrices : Blaise Hanczar, Alexandre Templier
Rapporteurs / Rapporteuses : Jean-Philippe Vert, Edoardo Pasolli

Résumé

FR  |  
EN

Les progrès technologiques ont rendu possible le séquençage haute résolution du matériel génétique à faible coût. Dans ce contexte, le microbiome humain a démontré sa grande capacité à stratifier diverses maladies humaines. En tant que "super-intégrateur" de l'état du patient, le microbiote intestinal est appelé à jouer un rôle clé dans la médecine de précision. L'identification de biomarqueurs omiques est devenue un objectif majeur en métagénomique, et permet de comprendre les diversités microbiennes qui induisent la stratification des patients. Il reste de nombreux défis associés aux pipelines de métagénomique courants, qui prennent du temps et ne sont pas autonomes. Cela empêche l'utilisation de la métagénomique comme solution "point-of-care", comme dans les régions à ressources limitées. En effet, l'état de l'art de l'apprentissage à partir de données métagénomiques repose sur des projections lourdes en calcul des séquences sur de grands catalogues de référence génomique. Dans cette thèse, nous abordons ce problème en entraînant des réseaux neuronaux directement à partir des séquences brutes, en construisant un "embeddings" des métagénomes appelé Metagenome2Vec. Nous explorons également des algorithmes de découverte de sous-groupes que nous adaptons en classifieur avec une option de rejet qui délègue ensuite les échantillons n'appartenant à aucun sous-groupe à un algorithme supervisé. Plusieurs jeux de données sont utilisés dans les expériences sur diverses maladies (cancer colorectal, cirrhose, diabète, obésité) à partir du répertoire NCBI. Nos évaluations montrent que nos méthodes atteignent des performances élevées comparables à l'état de l'art.