Réseaux de neurones en graphes et modèle de langage des protéines pour révéler le code combinatoire de l'olfaction
Auteur / Autrice : | Matej Hladiš |
Direction : | Sébastien Fiorucci, Jérémie Topin |
Type : | Thèse de doctorat |
Discipline(s) : | Chimie |
Date : | Soutenance le 19/06/2024 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences fondamentales et appliquées (Nice ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Institut de chimie (Nice) |
Jury : | Président / Présidente : Frédéric Precioso |
Examinateurs / Examinatrices : Sébastien Fiorucci, Jérémie Topin, Frédéric Precioso, Alessandra Carbone, Marco Gori, Richard C. Gerkin | |
Rapporteur / Rapporteuse : Alessandra Carbone, Marco Gori |
Mots clés
Résumé
Les mammifères identifient et interprètent une myriade de stimuli olfactifs par un mécanisme de codage complexe reposant sur la reconnaissance des molécules odorantes par des centaines de récepteurs olfactifs (RO). Ces interactions génèrent des combinaisons uniques de récepteurs activés, appelées code combinatoire, que le cerveau humain interprète comme la sensation que nous appelons l'odeur. Jusqu'à présent, le grand nombre de combinaisons possibles entre les récepteurs et les molécules a empêché une étude expérimentale à grande échelle de ce code et de son lien avec la perception des odeurs. La révélation de ce code est donc cruciale pour répondre à la question à long terme de savoir comment nous percevons notre environnement chimique complexe. Les RO appartiennent à la classe A des récepteurs couplés aux protéines G (RCPG) et constituent la plus grande famille multigénique connue. Pour étudier de façon systématique le codage olfactif, nous avons développé M2OR, une base de données exhaustive compilant les 25 dernières années d'essais biologiques sur les RO. À l'aide de cet ensemble de données, un modèle d'apprentissage profond sur mesure a été conçu et entraîné. Il combine l'intégration de jetons [CLS] d'un modèle de langage des protéines avec des réseaux de neurones en graphes et un mécanisme d'attention multi-têtes. Ce modèle prédit l'activation des RO par les odorants et révèle le code combinatoire résultant pour toute molécule odorante. Cette approche est affinée en développant un nouveau modèle capable de prédire l'activité d'un odorant à une concentration spécifique, permettant alors d'estimer la valeur d'EC50 de n'importe quelle paire OR-odorant. Enfin, les codes combinatoires dérivés des deux modèles sont utilisés pour prédire la perception olfactive des molécules. En incorporant des biais inductifs inspirés par la théorie du codage olfactif, un modèle d'apprentissage automatique basé sur ces codes est plus performant que l'état de l'art actuel en matière de prédiction d'odeurs. À notre connaissance, il s'agit de l'application la plus aboutie liant le code combinatoire à la prédiction de l'odeur d'une molécule. Dans l'ensemble, ce travail établit un lien entre les interactions complexes molécule odorante-récepteur et la perception humaine.