Detection and identification of papillomavirus sequences in NGS data of human DNA samples : a bioinformatic approach

par Alexis Robitaille

Thèse de doctorat en Bioinformatique

Sous la direction de Massimo Tommasino et de Magali Olivier.

Soutenue le 18-12-2019

à Lyon en cotutelle avec Centre international de recherche sur le cancer , dans le cadre de École Doctorale de Biologie Moléculaire Intégrative et Cellulaire (Lyon) , en partenariat avec Université Claude Bernard (Lyon) (établissement opérateur d'inscription) et de Centre international de recherche sur le cancer (laboratoire) .

Le président du jury était Catherine Legras.

Le jury était composé de Massimo Tommasino, Magali Olivier, Adam Grundhoff.

Les rapporteurs étaient Joanna Parish, Barbara Montanini.

  • Titre traduit

    Détection et identification de séquences de papillomavirus dans des données de séquençage de nouvelle génération d'échantillons humain d'ADN : une approche bioinformatique


  • Résumé

    Les papillomavirus humains (HPV) constituent une famille de petits virus à double brin d’ADN qui ont un tropisme pour les cellules épithéliales de la peau et des muqueuses. Plus de 200 types d’HPV ont été découverts, et classifiés en plusieurs genres taxonomiques en fonction de la constitution de leur séquence ADN. De part le rôle de certains HPV dans les maladies affectant les humains, allant de l’apparition de verrues anogénitales bénignes jusqu’au développement d’un cancer, il est nécessaire de développer des méthodes de détection et de caractérisation de la population d’HPV dans un échantillon d’ADN. Elles sont nécessaires à la clarification du rôle de l’HPV dans les différentes étapes de la progression de la maladie. Cette détection d’HPV lors d’approches ciblées en laboratoire a principalement reposé sur des méthodes de PCR couplées avec du séquençage Sanger. Avec l’introduction des nouvelles technologies de séquençage haut débit (NGS), ces approches peuvent être revisitées afin d’intégrer la puissance de séquençage de ces technologies. Alors que des outils d’analyse in-silico ont été développés pour la recherche de virus, connus ou nouveaux, à partir de données de NGS, aucun outil approprié n’est disponible pour la classification et l’identification de nouvelles séquences virales à partir de données produites par des méthodes de séquençage d’amplicons. Dans cette thèse, la première partie présente cinq nouveaux génomes d’HPV isolés via l’utilisation d’amorces d’amplification dégénérées ciblant le gène L1 à partir d’échantillons de peau humaine. Puis, dans une seconde partie, nous présentons PVAmpliconFinder, un outil d’analyse de données conçu pour identifier et classifier rapidement des séquences connues et potentiellement nouvelles de la famille Papillomaviridae, à partir de données de NGS d’amplicons générées par PCR via l’utilisation d’oligonucleotides dégénérés ciblants les HPV. Enfin, les caractéristiques de PVAmpliconFinder sont présentées, ainsi que plusieurs applications sur des données biologiques obtenues lors du séquençage d’amplicons de spécimens humains. Ces applications ont permis la découverte de nouveaux types d’HPV


  • Résumé

    Human Papillomaviruses (HPV) are a family of small double-stranded DNA viruses that have a tropism for the mucosal and cutaneous epithelia. More than 200 types of HPV have been discovered so far and are classified into several genera based on their DNA sequence. Due to the role of some HPV types in human disease, ranging from benign anogenital warts to cancer, methods to detect and characterize HPV population in DNA sample have been developed. These detection methods are needed to clarify the implications of HPV at the various stages of the disease. The detection of HPV from targeted wet-lab approaches has traditionally used PCR- based methods coupled with cloning and Sanger sequencing. With the introduction of next generation sequencing (NGS) these approaches can be improved by integrating the sequencing power of NGS. While computational tools have been developed for metagenomic approaches to search for known or novel viruses in NGS data, no appropriate bioinformatic tool has been available for the classification and identification of novel viral sequences from data produced by amplicon-based methods. In this thesis, we initially describe five fully reconstructed novel HPV genomes detected from skin samples after amplification using degenerate L1 primers. Then, is the second part, we present PVAmpliconFinder, a data analysis workflow designed to rapidly identify and classify known and potentially new Papillomaviridae sequences from NGS amplicon sequencing with degenerate PV primers. This thesis describes the features of PVAmpliconFinder and presents several applications using biological data obtained from amplicon sequencing of human specimens, leading to the identification of new HPV types


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Claude Bernard. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.