Développement, évaluation et application de méthodes statistiques pour l'analyse de données multidimensionnelles de comptage produites par les technologies de séquençage à haut débit ("Next Generation Sequencing")
Auteur / Autrice : | Mustafa Abuelqumsan |
Direction : | Jacques Van Helden, Badih Ghattas |
Type : | Thèse de doctorat |
Discipline(s) : | Bioinformatique et Génomique |
Date : | Soutenance le 20/12/2018 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | École Doctorale Sciences de la Vie et de la Santé (Marseille) |
Partenaire(s) de recherche : | Laboratoire : TAGC. Technological advances for genomics and clinics (marseille) |
Jury : | Président / Présidente : Christine Brun |
Examinateurs / Examinatrices : Denis Puthier, Pascal Barbry | |
Rapporteurs / Rapporteuses : Marie-Agnès Dillies, Gaëlle Lelandais |
Mots clés
Mots clés contrôlés
Résumé
Les technologies « Next Generation Sequencing» (NGS), qui permettent de caractériser les séquences génomiques à un rythme sans précédent, sont utilisées pour caractériser la diversité génétique humaine et le transcriptome (partie du génome transcrite en acides ribonucléiques). Les variations du niveau d’expression des gènes selon les organes et circonstances, sous-tendent la différentiation cellulaire et la réponse aux changements d’environnement. Comme les maladies affectent souvent l’expression génique, les profils transcriptomiques peuvent servir des fins médicales (diagnostic, pronostic). Différentes méthodes d’apprentissage artificiel ont été proposées pour classer des individus sur base de données multidimensionnelles (par exemple, niveau d’expression de tous les gènes dans des d’échantillons). Pendant ma thèse, j’ai évalué des méthodes de « machine learning » afin d’optimiser la précision de la classification d’échantillons sur base de profils transcriptomiques de type RNA-seq.