Thèse soutenue

Tirer parti des combinaisons d'éléments cis-régulateurs
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Quentin Ferré
Direction : Jacques Van HeldenCécile Capponi
Type : Thèse de doctorat
Discipline(s) : Génomique et Bioinformatique
Date : Soutenance le 23/03/2021
Etablissement(s) : Aix-Marseille
Ecole(s) doctorale(s) : Ecole Doctorale Sciences de la Vie et de la Santé (Marseille)
Partenaire(s) de recherche : Laboratoire : Laboratoire d’Informatique et Systèmes (LIS) (Marseille, Toulon) - Théories et approches de la complexité génomique (TAGC) (Marseille)
Jury : Président / Présidente : Stein Aerts
Examinateurs / Examinatrices : Delphine Potier, Nelle Varoquaux, Denis Puthier
Rapporteurs / Rapporteuses : Carl Herrmann

Mots clés

FR  |  
EN

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

A régulation cis-génomique chez l’homme est effectuée par des régulateurs de la chromatine, tels que les marques d’histones et les régulateurs de transcription (TR). Ils fonctionnent rarement seuls, mais plutôt en complexes. Le développement du séquençage NGS fournit des méthodes pour étudier cette régulation, incluant le ChIP-seq. Le but de cette thèse est de tirer parti de ces combinaisons avec des méthodes d’apprentissage automatique, efficaces pour apprendre les régularités dans les données. Nous représentons les régions d’intérêt sous forme de listes d’intervalles, converties en représentations matricielles et tensorielles. De fait, nos approches sont généralisables à toute liste d’intervalles. Le ChIP-seq peut souffrir d’erreurs et de faux positifs, d’un contrôle de qualité médiocre, etc. Ces biais sont difficiles à corriger, et les grands volumes de données augmentent la probabilité d’erreurs. Nous supposons que le bruit ne respectera pas les combinaisons usuelles entre les sources et proposons atyPeak, qui exploite les combinaisons de TR et d’expériences redondantes de ReMap. Nous utilisons un auto-encodeur convolutionnel multi-vues pour une compression "de juste milieu". Nous proposons des approches pour évaluer les auto-encodeurs. Enfin, l’enrichissement de combinaisons n-wise d’éléments (par rapport à ce qui est attendu au hasard) doit être quantifié avec précision. Nous proposons OLOGRAM- MODL, une méthode Monte Carlo ajustant un modèle binomial négatif sur le nombre de paires de bases où elle sont observées. Nous proposons un algorithme d’extraction d’itemsets pour identifier les combinaisons qui reconstruisent le mieux les données d’origine.