Thèse en cours

Autoencodeurs antagonistes novateurs pour la simulation de génomes humains

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 11/12/2023. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Callum Burnard
Direction : William Ritchie
Type : Projet de thèse
Discipline(s) : Biologie Santé
Date : Inscription en doctorat le
Soutenance le 11/12/2023
Etablissement(s) : Université de Montpellier (2022-....)
Ecole(s) doctorale(s) : Sciences Chimiques et Biologiques pour la Santé
Partenaire(s) de recherche : Laboratoire : IGH - Institut de Génétique Humaine
Equipe de recherche : Intelligence artificielle et régulation génique
Jury : Président / Présidente : Thérèse Commes
Examinateurs / Examinatrices : William Ritchie, Daniel Gautheret, Denis Puthier, Alban Mancheron, Magali Richard
Rapporteur / Rapporteuse : Daniel Gautheret, Denis Puthier

Résumé

FR  |  
EN

Un génome humain disponible publiquement représente à la fois une ressource pour la recherche et un risque pour la personne qui a fourni le génome. De nombreux acteurs aux intentions égoïstes pourraient l’exploiter pour en tirer des informations sur la santé du donneur ou de ses proches. Des travaux récents ont employé des modèles d’intelligence artificielle pour simuler des données génomiques, dans le but de créer des jeux de données synthétiques ayant un intérêt scientifique et qui respecte l’anonymat des patients. Cependant, une difficulté majeure se pose quant à la quantité de données que représente un génome humain dans son entièreté, et donc les ressources requises pour les traiter. Nous cherchons à mettre au point une méthode de réduction de dimensions combinant intelligence artificielle et nos savoirs sur les mécanismes d’association des mutations in vivo. Ainsi, une grande quantité de données pourra être traitée sans nécessiter d’importantes ressources computationnelles. Notre découpe du génome suit les chances de recombinaison chromosomique, donc est proche des mécanismes de transmission des mutations. Les données sur lesquelles l’entraînement se fait sont issues du 1000 Genomes Project. Il recense plus de 2500 génomes de divers groupes ethniques. Les autoencodeurs variationnels sont une méthode de réduction de dimensions utilisant des réseaux de neurone, servant ainsi d’extension au modèle génératif. Les Réseaux Antagonistes Génératifs avec la perte de Wasserstein (WGAN) sont une référence parmi les méthodes de génération sur de nombreux types de données. Après avoir testé plusieurs stratégies et paramètres différents, la découpe selon les loci de recombinaison chromosomique propose la meilleure combinaison d’exactitude de reconstruction et d’efficacité de compression. Les autoencodeurs entraînés sur ces sections présentent en moyenne une exactitude de reconstruction supérieure à 99% en comprimant le génome haplotypique cent fois (une section de mille mutations sera résumée par dix valeurs). Le WGAN permet de générer une population simulée vérifiant plusieurs critères essentiels. Elle présente une bonne diversité, proche de celle trouvée dans le jeu de données de référence. Elle est vraisemblable, dans la mesure où les nouvelles combinaisons de mutations générées ne rompent pas les déséquilibres de liaison trouvées chez l'humain. Elle préserve aussi l'anonymat des donneurs en synthétisant des combinaisons de génomes de référence, qui ne sont pas des copies conformes de celles-cis.