Thèse soutenue

Apprentissage profond et transfert de connaissances pour la détection d'erreurs dans les séquences biologiques

FR  |  
EN
Auteur / Autrice : Hiba Khodji
Direction : Pierre ColletJulie Thompson
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 07/11/2023
Etablissement(s) : Strasbourg
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences de l'information et de l'ingénieur (Strasbourg ; 1997-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie (Strasbourg ; 2013-....)
Jury : Président / Présidente : Yann Guermeur
Examinateurs / Examinatrices : Farida Zehraoui
Rapporteurs / Rapporteuses : Laurent Jacob, Marie-Dominique Devignes

Résumé

FR  |  
EN

L'utilisation généralisée des technologies à haut débit dans le domaine biomédical génère d'énormes quantités de données, notamment la nouvelle génération de technologies de séquençage du génome. L'alignement multiple de séquences sert d'outil fondamental pour analyser ces données, avec des applications dans l'annotation des génomes, prédiction des structures et fonctions des protéines, ou la compréhension des relations évolutives, etc. Toutefois, divers facteurs, tels que des algorithmes d'alignement peu fiables, une prédiction de gènes incorrecte, ou des séquençages génomiques incomplets, ont tendance à compromettre la précision des alignements multiples de séquences. Dans cette thèse, nous nous intéressons à l'évaluation de la qualité des données en utilisant des techniques d'apprentissage profond. Nous proposons des modèles basés sur les réseaux de neurones convolutifs pour l'identification d'erreurs dans les représentations visuelles des alignements. Notre objectif principal est de proposer un outil d'assistance aux experts du domaine dans leurs études, où la fiabilité des alignements est cruciale. Ainsi, nous nous sommes intéressés à fournir des explications fiables pour les prédictions de nos modèles en exploitant l'intelligence artificielle explicable (XAI). Plus particulièrement, nous avons exploité les explications visuelles comme fondement pour un mécanisme de transfert d'apprentissage visant principalement à améliorer la capacité d'un modèle à discerner les caractéristiques les plus pertinentes dans les données d'entrée. Enfin, nous avons proposé de nouvelles métriques conçues pour permettre l'évaluation de cette capacité. Les premiers résultats suggèrent que notre approche parvient à trouver un bon équilibre entre la complexité d'un modèle, sa performance, et son explicabilité, et qu'elle peut être exploitée dans des domaines où la disponibilité des données est limitée et la compréhension des résultats est cruciale.