Thèse soutenue

Apprentissage automatique pour l'évolution moléculaire

FR  |  
EN
Auteur / Autrice : Luca Nesterenko
Direction : Bastien BoussauLaurent Jacob
Type : Thèse de doctorat
Discipline(s) : Apprentissage profond
Date : Soutenance le 18/11/2024
Etablissement(s) : Lyon 1
Ecole(s) doctorale(s) : École doctorale Evolution Ecosystèmes Microbiologie Modélisation (Lyon ; 1999-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de Biométrie et Biologie Evolutive
Equipe de recherche : BAOBAB (Villeurbanne)
Jury : Président / Présidente : Simona Cocco
Examinateurs / Examinatrices : Bastien Boussau, Laurent Jacob, Stéphane Robin, Céline Scornavacca, Tal Pupko, Laurent Guéguen, Flora Jay
Rapporteur / Rapporteuse : Stéphane Robin, Céline Scornavacca, Tal Pupko

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Comprendre l'histoire évolutive d'un groupe d'organismes est une tâche centrale en biologie. En particulier, étant donné un ensemble de séquences codant pour la même protéine chez plusieurs espèces, un objectif important est de reconstruire l'arbre décrivant leur évolution à partir d'un ancêtre commun. Bien qu'étant une étape cruciale dans plusieurs pipelines bioinformatiques, cela représente un problème difficile en soi, car le nombre d'arbres possibles augmente de manière superexponentielle avec le nombre d'espèces. Les méthodes de pointe reposent sur des modèles probabilistes de l'évolution des séquences et cherchent à maximiser la vraisemblance de l'arbre correspondant. Cette stratégie n'est réalisable qu'avec des modèles très simplifiés. De plus, elle est extrêmement coûteuse en termes de calculs et conduit parfois à des estimations imprécises. D'un autre côté, les simulations permettent de générer facilement de grandes quantités de données à partir de ces modèles. L'objectif principal de cette thèse a été d'explorer une approche d'apprentissage supervisé pour résoudre ce problème dans un cadre d'inférence basé sur la simulation, sans recours à la vraisemblance. Au lieu de maximiser la vraisemblance d'un modèle d'évolution des séquences, nous avons généré des arbres phylogénétiques ainsi que des séquences ayant évolué selon ces modèles, et les avons utilisés pour apprendre une fonction, paramétrée par un réseau de neurones profond, qui transforme un ensemble de séquences homologues en un ensemble de distances évolutives. L'arbre lui-même peut ensuite être reconstruit à partir de ces distances via les méthodes dites basées sur la distance. Bien que des progrès notables aient été réalisés ces dernières décennies pour améliorer ces méthodes, l'estimation des distances est encore généralement effectuée dans le cadre du maximum de vraisemblance par des simples comparaisons par paires, ce qui ne permet pas d'exploiter pleinement l'information contenue dans l'alignement multiple des séquences en entré et qui conduit finalement à des précisions de reconstruction inférieures par rapport à une approche de maximum de vraisemblance complète. Le présent travail vise donc à combler cette lacune en proposant une prédiction conjointe de toutes les distances évolutives, en tirant parti des développements récents et des succès de l'apprentissage profond dans le traitement de données à haute dimension et de séquences. Nous montrons que ce nouveau paradigme peut améliorer les méthodes de reconstruction phylogénétique existantes ou aboutir à des précisions similaires pour de grands ensembles d'espèces pour lesquelles les méthodes actuelles seraient trop coûteuses en ressources. Cette approche ouvre également la voie à l'adoption de modèles d'évolution plus complexes et réalistes, pour lesquels l'inférence, avec les méthodes basées sur la vraisemblance, serait intractable. Nous discutons des avantages et de la flexibilité offerts par l'architecture de réseau de neurones développée, qui peut facilement être adaptée pour traiter différentes tâches d'inférence biologique connexes, démontrant ainsi son efficacité dans l'analyse des données de séquences moléculaires.