Approche IMGT pour la prédiction et l'analyse de l'interaction épitope et paratope
Auteur / Autrice : | Anjana Kushwaha |
Direction : | Sofia Kossida, Konstantin Todorov |
Type : | Projet de thèse |
Discipline(s) : | Biologie Santé |
Date : | Inscription en doctorat le Soutenance le 06/12/2023 |
Etablissement(s) : | Université de Montpellier (2022-....) |
Ecole(s) doctorale(s) : | Sciences Chimiques et Biologiques pour la Santé (Montpellier ; Ecole Doctorale ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : IGH - Institut de Génétique Humaine |
Equipe de recherche : IMGT® - le système d'information international en ImMunoGénéTique® | |
Jury : | Président / Présidente : Martineau Pierre |
Examinateurs / Examinatrices : Sofia Kossida, Fotis Psomopoulos, Sophia Tsoka | |
Rapporteur / Rapporteuse : Fotis Psomopoulos, Sophia Tsoka |
Mots clés
Mots clés libres
Résumé
Linteraction du Complexe Majeur dHistocompatibilité (CMH) avec les molécules de séquences peptidiques joue un rôle essentiel dans la réponse immunitaire en présentant des peptides à la surface cellulaire aux lymphocytes T. La famille de gènes du CMH est divisée en deux sous-groupes principaux : le CMH de classe I et le CMH de classe II. Les molécules du CMH de classe I se composent dune chaîne α traversant la membrane produite par les gènes du CMH, et dune chaîne β produite par le gène de la β2-microglobuline. Les molécules du CMH de classe II se composent de deux chaînes traversant la membrane, α et β, toutes deux produites par les gènes du CMH. La prédiction des peptides se liant au CMH est importante pour la conception de vaccins et le développement de thérapies ciblées en immunologie et en immunothérapie du cancer, cependant, la prédiction des peptides se liant au CMH de classe II est bien plus difficile que celle des CMH de classe I en raison de la forte polymorphie des CMH de classe II et de la différence de taille des peptides présentés. Le balayage computationnel des séquences peptidiques se liant à un complexe majeur dhistocompatibilité spécifique (CMH) peut accélérer le processus de développement de vaccins à base de peptides, et par conséquent, diverses méthodes sont activement développées pour la prédiction. Récemment, des modèles sophistiqués basés sur des réseaux neuronaux ont été proposés pour la prédiction de liaison des peptides au CMH de classe I, cependant, ils manquent encore de performances efficaces dans la prédiction de liaison. La prédiction précise des probabilités de liaison des peptides au CMH de classe I et au CMH de classe II est une entreprise cruciale en immunoinformatique, avec de larges implications pour le développement de vaccins et dimmunothérapies. Bien que les récentes approches basées sur les réseaux neuronaux profonds aient montré des promesses dans la prédiction des peptides liant au CMH, elles présentent deux lacunes : (i) elles dépendent de lextraction de pseudo-séquences faites à la main, (ii) elles généralisent mal sur différents ensembles de données, limitant ainsi la praticité de ces approches. Dans cet article, nous contournons ces problèmes en exploitant des architectures de type transformateur efficaces capables dapprendre des représentations précises sur lensemble complet des séquences. De plus, nous proposons une stratégie dapprentissage auto-supervisé pour exploiter le potentiel des données non étiquetées pour améliorer la robustesse des prédictions de liaison des peptides au CMH. Nous évaluons de manière approfondie notre approche sur 8 ensembles de données différents et démontrons les améliorations par rapport aux approches de pointe. Enfin, nous compilons CrystalIMGT, un ensemble de données vérifié par cristallographie qui présente un défi pour les approches existantes en raison de distributions de peptides-CMH nettement différentes.