Nouvelle stratégie d'annotation des génomes par l'utilisation d'algorithmes d'intelligence artificielle
Auteur / Autrice : | Nicolas Scalzitti |
Direction : | Julie Thompson, Pierre Collet |
Type : | Thèse de doctorat |
Discipline(s) : | Bioinformatique et biologie des systèmes |
Date : | Soutenance le 29/09/2021 |
Etablissement(s) : | Strasbourg |
Ecole(s) doctorale(s) : | École doctorale des Sciences de la vie et de la santé (Strasbourg ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie (Strasbourg ; 2013-....) |
Jury : | Président / Présidente : Odile Lecompte |
Examinateurs / Examinatrices : Wolfgang Banzhaf | |
Rapporteurs / Rapporteuses : Pierrick Legrand, Élodie Laine |
Mots clés
Résumé
Les projets de séquençage à haut débit produisent une énorme quantité de données biologiques brutes. Cependant, elles sont difficilement exploitables si elles ne sont pas annotées. Pour traiter ces données, des programmes d’annotation de génomes ont été développés, mais ces derniers sont encore trop sujet aux erreurs de prédiction, faisant de l’annotation des génomes un des défis majeurs en bio-informatique. Dans ce contexte, mes travaux de thèse s’organisent autour d’un trinôme : 1) l’amélioration de la prédiction des gènes eucaryotes codant pour des protéines en se focalisant spécifiquement sur les sites d’épissage 2) en exploitant des algorithmes d’intelligence artificielle (CNN et algorithmes évolutionnaires), 3) entraînés avec des données de haute qualité incluant une forte diversité d’espèces eucaryotes. Notre stratégie consiste à combiner l’ensemble des données validées avec les programmes développés afin d’améliorer la prédiction des gènes en diminuant le taux d’erreurs et éviter qu’elles ne se propagent dans les bases de données. De plus, ces travaux permettront une meilleure compréhension des organismes et de leurs mécanismes biologiques.