Autoencodeurs antagonistes novateurs pour la simulation de génomes humains
Auteur / Autrice : | Callum Burnard |
Direction : | William Ritchie |
Type : | Projet de thèse |
Discipline(s) : | Biologie Santé |
Date : | Inscription en doctorat le Soutenance le 11/12/2023 |
Etablissement(s) : | Université de Montpellier (2022-....) |
Ecole(s) doctorale(s) : | Sciences Chimiques et Biologiques pour la Santé |
Partenaire(s) de recherche : | Laboratoire : IGH - Institut de Génétique Humaine |
Equipe de recherche : Intelligence artificielle et régulation génique | |
Jury : | Président / Présidente : Thérèse Commes |
Examinateurs / Examinatrices : William Ritchie, Daniel Gautheret, Denis Puthier, Alban Mancheron, Magali Richard | |
Rapporteur / Rapporteuse : Daniel Gautheret, Denis Puthier |
Mots clés
Résumé
Un génome humain disponible publiquement représente à la fois une ressource pour la recherche et un risque pour la personne qui a fourni le génome. De nombreux acteurs aux intentions égoïstes pourraient lexploiter pour en tirer des informations sur la santé du donneur ou de ses proches. Des travaux récents ont employé des modèles dintelligence artificielle pour simuler des données génomiques, dans le but de créer des jeux de données synthétiques ayant un intérêt scientifique et qui respecte lanonymat des patients. Cependant, une difficulté majeure se pose quant à la quantité de données que représente un génome humain dans son entièreté, et donc les ressources requises pour les traiter. Nous cherchons à mettre au point une méthode de réduction de dimensions combinant intelligence artificielle et nos savoirs sur les mécanismes dassociation des mutations in vivo. Ainsi, une grande quantité de données pourra être traitée sans nécessiter dimportantes ressources computationnelles. Notre découpe du génome suit les chances de recombinaison chromosomique, donc est proche des mécanismes de transmission des mutations. Les données sur lesquelles lentraînement se fait sont issues du 1000 Genomes Project. Il recense plus de 2500 génomes de divers groupes ethniques. Les autoencodeurs variationnels sont une méthode de réduction de dimensions utilisant des réseaux de neurone, servant ainsi dextension au modèle génératif. Les Réseaux Antagonistes Génératifs avec la perte de Wasserstein (WGAN) sont une référence parmi les méthodes de génération sur de nombreux types de données. Après avoir testé plusieurs stratégies et paramètres différents, la découpe selon les loci de recombinaison chromosomique propose la meilleure combinaison dexactitude de reconstruction et defficacité de compression. Les autoencodeurs entraînés sur ces sections présentent en moyenne une exactitude de reconstruction supérieure à 99% en comprimant le génome haplotypique cent fois (une section de mille mutations sera résumée par dix valeurs). Le WGAN permet de générer une population simulée vérifiant plusieurs critères essentiels. Elle présente une bonne diversité, proche de celle trouvée dans le jeu de données de référence. Elle est vraisemblable, dans la mesure où les nouvelles combinaisons de mutations générées ne rompent pas les déséquilibres de liaison trouvées chez l'humain. Elle préserve aussi l'anonymat des donneurs en synthétisant des combinaisons de génomes de référence, qui ne sont pas des copies conformes de celles-cis.