Auteur / Autrice : | Quentin Ferré |
Direction : | Jacques Van Helden, Cécile Capponi |
Type : | Thèse de doctorat |
Discipline(s) : | Génomique et Bioinformatique |
Date : | Soutenance le 23/03/2021 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | Ecole Doctorale Sciences de la Vie et de la Santé (Marseille) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d’Informatique et Systèmes (LIS) (Marseille, Toulon) - Théories et approches de la complexité génomique (TAGC) (Marseille) |
Jury : | Président / Présidente : Stein Aerts |
Examinateurs / Examinatrices : Delphine Potier, Nelle Varoquaux, Denis Puthier | |
Rapporteurs / Rapporteuses : Carl Herrmann |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
A régulation cis-génomique chez l’homme est effectuée par des régulateurs de la chromatine, tels que les marques d’histones et les régulateurs de transcription (TR). Ils fonctionnent rarement seuls, mais plutôt en complexes. Le développement du séquençage NGS fournit des méthodes pour étudier cette régulation, incluant le ChIP-seq. Le but de cette thèse est de tirer parti de ces combinaisons avec des méthodes d’apprentissage automatique, efficaces pour apprendre les régularités dans les données. Nous représentons les régions d’intérêt sous forme de listes d’intervalles, converties en représentations matricielles et tensorielles. De fait, nos approches sont généralisables à toute liste d’intervalles. Le ChIP-seq peut souffrir d’erreurs et de faux positifs, d’un contrôle de qualité médiocre, etc. Ces biais sont difficiles à corriger, et les grands volumes de données augmentent la probabilité d’erreurs. Nous supposons que le bruit ne respectera pas les combinaisons usuelles entre les sources et proposons atyPeak, qui exploite les combinaisons de TR et d’expériences redondantes de ReMap. Nous utilisons un auto-encodeur convolutionnel multi-vues pour une compression "de juste milieu". Nous proposons des approches pour évaluer les auto-encodeurs. Enfin, l’enrichissement de combinaisons n-wise d’éléments (par rapport à ce qui est attendu au hasard) doit être quantifié avec précision. Nous proposons OLOGRAM- MODL, une méthode Monte Carlo ajustant un modèle binomial négatif sur le nombre de paires de bases où elle sont observées. Nous proposons un algorithme d’extraction d’itemsets pour identifier les combinaisons qui reconstruisent le mieux les données d’origine.