Évaluation et amélioration des performances du séquençage de nouvelle génération en absence de gold standard
Auteur / Autrice : | Yue Zhai |
Direction : | Pascal Roy, Gaëtan Lesca |
Type : | Thèse de doctorat |
Discipline(s) : | Physiologie et biologie des organismes - populations - interactions |
Date : | Soutenance le 11/07/2023 |
Etablissement(s) : | Lyon 1 |
Ecole(s) doctorale(s) : | École doctorale Evolution Ecosystèmes Microbiologie Modélisation (Lyon ; 1999-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Biométrie et Biologie Evolutive |
Jury : | Président / Présidente : Delphine Maucort-Boulch |
Examinateurs / Examinatrices : Pascal Roy, Delphine Maucort-Boulch, Hervé Perdry, Sophie Tézenas du Montcel, Anne-Sophie Jannot | |
Rapporteur / Rapporteuse : Hervé Perdry, Sophie Tézenas du Montcel |
Résumé
Les travaux de cette thèse ont porté sur la place du modèle de concordance-discordance dans l'évaluation de la performance du séquençage à haut débit et sur des comparaisons de performance entre modèles de classification dans la reconstitution de résultats de séquençage haut débit à partir de réplicas techniques. Le premier travail a étudié le problème de l'évaluation du séquençage haut débit en l'absence de ‘gold' standard et, dans ce cadre, la pertinence des critères de concordance-discordance. Il a examiné les relations entre le taux de discordance et le taux d'erreur dans diverses situations théoriques. Il a ensuite analysé les effets des covariables sur ces deux taux en utilisant un modèle additif généralisé avec des données réelles issues de réplicats de séquençage du génome NA12878. Le second travail a étudié le problème de la fusion de résultats de séquençage haut débit de réplicas techniques en vue d'obtenir un nouveau jeu de données susceptible de comporter moins d'erreurs. Il a évalué et comparé les aptitudes des principaux modèles de partitionnement à améliorer la performance finale du séquençage à partir des résultats de trois séquençages du génome NA12878. L'étude fournit des arguments pour choisir le modèle le plus convenable et utiliser ces résultats en matière de diagnostic ou de médecine de précision.