Thèse en cours

Inférence de paramètres de dispersion et de densité à partir de données génomiques spatialisées, fondée sur l'apprentissage automatique à partir de simulations

FR  |  
EN
Auteur / Autrice : Ghislain Camarata
Direction : François RoussetRaphael Leblois
Type : Projet de thèse
Discipline(s) : EERGP-Biologie et Ecologie Evolutives
Date : Inscription en doctorat le 01/10/2023
Etablissement(s) : Université de Montpellier (2022-....)
Ecole(s) doctorale(s) : École Doctorale GAIA Biodiversité, agriculture, alimentation, environnement, terre, eau (Montpellier ; 2015-...)
Partenaire(s) de recherche : Laboratoire : ISEM - Institut des Sciences de l'Evolution -Montpellier
Equipe de recherche : Evolution et Démographie

Résumé

FR  |  
EN

Le développement d'approches agro-écologiques pour la gestion des ravageurs et des auxiliaires, ainsi que de leurs vecteurs et antagonistes, nécessite une meilleure compréhension du fonctionnement démographique local de leurs populations. De même, la gestion des populations menacées nécessite une connaissance fine du statut démographique et génétique de ces populations : effectifs, fragmentation, dispersion, consanguinité... Parmi les facteurs clés à caractériser, les densités/tailles des populations et les caractéristiques de dispersion, à une petite échelle géographique, ainsi que leurs variations dans le passé récent, sont souvent mal connues alors que ces facteurs s'avèrent cruciaux pour mieux comprendre la dynamique de ces populations à l'échelle d'un paysage ou d'un bassin de production agricole [1,2]. Ces paramètres démographiques peuvent théoriquement être estimés par des approches démographiques de type capture - marquage- recapture, mais elles impliquent un investissement humain très important et ne donnent pas d'information sur les variations passées. Une alternative est d'utiliser des estimations 'indirectes' à partir de données de polymorphisme révélées sur une partie ou l'ensemble du génome, qui contiennent de l'information sur les paramètres démographiques des populations. Cependant les méthodes d'analyse actuelles, souvent basées sur des hypothèses peu réalistes (populations panmictiques de grandes tailles, dispersion faible et non spatialisée), ne permettent pas d'utiliser toutes l'information des données génomiques spatialisées pour faire des inférences sur les processus locaux et récents. L'objectif de ce projet est de combler cette lacune méthodologique en développant et testant de nouveaux outils méthodologiques pour estimer les paramètres démographiques locaux, ainsi que leurs variations récentes, à partir de données génomiques en utilisant des modèles démo-génétiques spatialisés. La possibilité de générer de gros jeux de données spatialisées (des génomes complets sur beaucoup d'individus), couplée au développement récent de méthodes d'inférence très performantes en génétique des populations, permet de s'intéresser maintenant à des signaux génétiques faibles et complexes laissés par des processus démographiques de plus en plus fins[ 3]. Dans la continuité de nos travaux actuels sur les modèles démo-génétiques spatialisés et le développement de méthodes d'inférence basées sur la simulation, le.la doctorant.e pourra se concentrer sur : (1) terminer l'implémentation des changements temporels des paramètres démographiques dans notre simulateur génomique spatialisé GSpace (Virgoulay et al. 2021); (2) développer un ensemble de nouvelles statistiques et/ou coupler des outils d'intelligence artificielle (IA) pour résumer l'information génomique pertinente en un certain nombre de statistiques pour l'inférence des paramètres d'intérêt ; (3) les coupler à de puissantes méthodes d'inférence basées sur la simulation comme le calcul bayésien approché basé sur les techniques de Random-Forest (ABC-RF, [16], [17]) ou les développements récents de la méthode de vraisemblance résumée (SL, Rousset et al. 2017) ; (4) tester les performances (précision et robustesse) de ces développements, notamment le niveau de complexité spatio-temporelle qui peut être considéré en fonction du type et de la quantité de données disponibles. Afin de valider leur intérêt pratique, ces développements seront pensés, testés et appliqués dans deux contextes bien différents : (1) l'étude et la gestion des organismes d'intérêt agronomique, à travers des collaborations internes au CBGP ; et (2) la biologie de la conservation, à travers le projet DevOCGen et ses collaborations («Développement et applications de nouveaux outils pour la gestion et la conservation des populations naturelles à partir de données génomiques», financé par la Région Occitanie 2022-2026). Ce sujet de thèse, à la frontière de plusieurs disciplines (génétique des populations, statistique inférentielle, informatique, écologie et agronomie) requiert de l'étudiant.e un intérêt pour tous ces domaines mais aussi un goût prononcé pour les approches computationnelles et la programmation.