Développement de méthodes statistiques pour l'analyse du nombre de copies d'ADN en cancérologie
Auteur / Autrice : | Morgane Pierre-Jean |
Direction : | Catherine Matias, Pierre Neuvial |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences de la vie et de la santé |
Date : | Soutenance le 02/12/2016 |
Etablissement(s) : | Université Paris-Saclay (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Structure et dynamique des systèmes vivants (Gif-sur-Yvette, Essonne ; 2015-....) |
Partenaire(s) de recherche : | établissement opérateur d'inscription : Université d'Évry-Val-d'Essonne (1991-....) |
Laboratoire : Laboratoire de Mathématiques et Modélisation d'Évry (Evry, Essonne) | |
Jury : | Président / Présidente : François Radvanyi |
Examinateurs / Examinatrices : Catherine Matias, Guillemette Marot-Briend, Cyril Dalmasso | |
Rapporteur / Rapporteuse : Jean-Philippe Vert, Anne-Laure Boulesteix, Nancy Zhang |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Les données génomiques issues d'expériences de puces à ADN ou de séquençage ont deux caractéristiques principales: leur grande dimension (le nombre de marqueurs dépassant de plusieurs ordres de grandeurs le nombre d'observations), et leur forte structuration (notamment via les dépendances entre marqueurs). La prise en compte de cette structuration est un enjeu clé pour le développement de méthodes performantes en grande dimension.Cette thèse est axée sur les données présentant une forte structure le long du génome. C'est le cas des données de nombres de copies d'ADN, mais aussi des données de génotypes. La thèse couvre à la fois le développement de méthodes statistiques, l'implémentation logicielle, et l'application des méthodes développées à des jeux de données réelles. Nous avons, en particulier, étudié des méthodes de segmentation, et de dictionary learning. Toutes les implémentations logiciel de ces méthodes sont librement disponibles sous forme de packages R.