Bioinformatique des gènes chevauchants; application à la protéine antisens ASP du VIH-1

par Elodie Cassan

Thèse de doctorat en Biologie Santé

Sous la direction de Antoine Gross et de Olivier Gascuel.


  • Résumé

    L’hypothèse de gènes chevauchants codés par le brin antisens des rétrovirus est un concept ancien. Cependant, celui-ci n’a été réellement démontré qu’il y a une dizaine d’années avec la découverte de la protéine HBZ du virus HTLV-1 et les résultats récents sur la protéine ASP du VIH-1. Les nouvelles recherches sur cette protéine ont démontré son expression in vivo, mais sa fonctionnalité est toujours inconnue. Nous avons réalisé ici, à partir d’un jeu de données de plus de 20 000 séquences, les premières analyses bioinformatiques sur l’évolution de ce gène chevauchant. Nous avons alors montré que le gène asp est conservé uniquement dans les séquences du groupe M correspondant au groupe pandémique du VIH-1. Nous démontrons de plus, une corrélation entre la présence de l’ORF ASP et la prévalence des différents groupes et sous-types. Nos analyses phylogénétiques montrent que l’apparition de l’ORF ASP est concomitante avec l’émergence de la pandémie du groupe M. Du fait du chevauchement de gènes, l’analyse de la pression de sélection induite par la protéine ASP a impliqué l’utilisation de modèles et de méthodes d’analyses spécifiques. Situé sur la phase -2, ce chevauchement entraîne une correspondance des troisièmes bases des codons de chaque gène. Si on considère un gène « fixe », les contraintes mécaniques induites par ce gène sont très importantes et le gène chevauchant dispose de très peu de flexibilité. Il est alors important d’identifier la pression de sélection propre au gène situé sur la phase -2, et montrer ainsi que sa présence et sa conservation ne sont pas seulement dues aux contraintes induites par le gène fixe. Pour cela, nous avons tout d’abord montré par des analyses de simulations de séquences, à l’aide d’un modèle à codon, que la présence de l’ORF ASP n’est pas due au hasard. Nous avons ensuite développé une méthode d’analyse évolutive basée sur l’étude des mutations silencieuses pour le gène fixe (ici le gène env) entraînant l’apparition ou la disparition des codons Start et Stop sur le gène chevauchant. L’application de cette méthode au gène asp montre qu’il existe bien une pression de sélection induite par la protéine ASP.

  • Titre traduit

    Bioinformatics of overlapping genes; application to the ASP protein of HIV-1


  • Résumé

    The hypothesis of overlapping genes encoded by the antisense strand of the retrovirus is an old concept. However, this one has been really demonstrated that with the discovery of the HBZ protein of HTLV-1 virus, a dozen of years ago and the recent results on the ASP protein of HIV-1. New research on this protein has demonstrated its expression in vivo, but its functionality is still unknown. We performed here, from a data set of more than 20,000 sequences, the first bioinformatic analyses on the evolution of this overlapping gene. We showed that the asp gene is conserved only in the M group sequences corresponding to the pandemic group of HIV-1. Moreover, we demonstrated a correlation between the presence of the ASP ORF and the prevalence of the various groups and subtypes. Our phylogenetic analyses showed that the appearance of the ASP ORF is concomitant with the emergence of the pandemic M group. Because of the overlapping of the genes, the analysis of the selection pressure induced by the ASP protein involved the use of models and specific analysis methods. Located in the frame -2, this overlap induces a correspondence of the third base codon of each gene. If we consider a "fixed" gene, the mechanical constraints induced by this "fixed" gene are very important and the overlapping gene has very little flexibility. Then, it is important to identify the selection pressure of the gene which is in the frame -2 and show that its presence and conservation are not only due to mechanical constraints induced by the "fixed" gene. For this, we first demonstrated by sequence simulation analysis, using a codon model, that the presence of the ASP ORF is not due to chance. Then, we developed a method of evolutionary analysis based on the study of synonymous mutations in the "fixed" gene (here the env gene) causes the appearance or disappearance of start and stop codons in the overlapping gene. When we applied this method to the asp gene, it showed that there is a selection pressure induced by the ASP protein.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque universitaire Médecine-Unité pédagogique médicale (Montpellier).
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.