Thèse soutenue

Étude de différentes méthodes d'apprentissage supervisé pour le développement de tests diagnostiques basés sur des données métabolomiques

FR  |  
EN
Auteur / Autrice : David Chardin
Direction : Olivier Humbert
Type : Thèse de doctorat
Discipline(s) : Recherches Cliniques et Thérapeuthiques
Date : Soutenance le 21/03/2023
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences de la vie et de la santé (Nice ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Transporteurs en Imagerie et Radiothérapie en Oncologie - Mécanismes biologiques des Altérations du Tissu Osseux
établissement de préparation : Université Côte d’Azur (2020-....)
Jury : Président / Présidente : Fanny Burel-Vandenbos
Examinateurs / Examinatrices : Fanny Burel-Vandenbos, Laurent Suissa, Marc Chadeau-Hyam
Rapporteur / Rapporteuse : Laurent Suissa, Marc Chadeau-Hyam

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

La métabolomique est une approche portant sur l'étude des petites molécules ou « métabolites » présents dans divers échantillons biologiques. Les différents domaines omiques : génomique, transcriptomique, protéomique et métabolique, forment une chaine où chaque maillon va influencer les autres et pourra être influencé par des phénomènes externes. La métabolomique représente le dernier maillon de cette chaine, résultat de facteurs génétiques, pathologiques, environnementaux et toxicologiques et est ainsi le domaine omique qui se rapproche le plus du phénotype biologique.Les analyses de métabolomique étant relativement peu couteuses et rapides, elles pourraient être utilisées en médecine, notamment pour élaborer de nouveaux tests diagnostiques.Les données de métabolomique comportent un grand nombre de variables. Différentes méthodes de machine learning sont utilisées pour l'analyse statistiques de ces données de grande dimension. La méthode la plus utilisées est la méthode PLS-DA (Partial Least Squares Discriminant Analysis). Cependant, cette méthode présente certaines limites, notamment un risque de fausses découvertes lié à un sur-ajustement.Dans le cadre de cette thèse, nous avons évalué de nouvelles méthodes de classification supervisée pour des applications cliniques de la métabolomique, notamment pour le développement de tests diagnostiques.Nous présentons tout d'abord deux nouvelles méthodes de classification supervisée développées en collaboration entre biologistes, médecins et mathématiciens pour une utilisation en métabolomique : la méthode PD-CR (Primal Dual for Classification with Rejection) et un autoencodeur supervisé. Nous comparons ces méthodes à des méthodes couramment utilisées en métabolomique : PLS-DA, Standard Vector Machines (SVM), Random Forests et un réseau de neurone. Nous montrons ainsi que les nouvelles méthodes développées présentent des performances équivalentes ou supérieures aux méthodes courantes tout en sélectionnant des métabolites pertinents, dont le poids dans la classification est donné de manière facilement interprétable. Par ailleurs, ces méthodes incluent un score de probabilité pour chaque prédiction, qui nous semble particulièrement pertinent pour une utilisation dans un contexte médical. Ensuite nous présentons les résultats d'une étude de métabolomique concernant des échantillons de tumeurs gliales congelés et fixés en paraffines. A l'aide d'une méthode de régression avec pénalisation L1 associée à un bootstrap nous avons développé deux modèles permettant de classifier les tumeurs gliales selon leur statut mutationnel IDH et selon leur grade à partir de données de métabolomique obtenues sur échantillons congelés. Ces modèles étaient basés sur trois métabolites d'intérêt : le 2-hydroxyglutarate, l'amino-adipate et le guanidine-acetate. Nous avons ensuite montré que ces modèles pouvaient être appliqués sur des données de métabolomique obtenues sur des échantillons fixés en paraffine avec des performances correctes : prédiction du statut mutationnel IDH avec une sensibilité 70.6% de et une spécificité de 80.4% et prédiction du grade avec une sensibilité de 75% et une spécificité de 74.5%. Nous avons ainsi montré qu'il était possible de réaliser des analyses de métabolomique sur échantillons fixés en paraffine et d'en tirer des résultats pertinents.L'analyse ciblée de nouveaux échantillons permettrait de valider ces modèles et de les utiliser en pratique courante en complément des techniques déjà disponibles. De plus, l'exploration des phénomènes biologiques à l'origine de l'association entre le grade de malignité des tumeurs gliales et l'aminoadipate et le guanidinoactetate pourrait permettre de mieux comprendre leur cancérogénèse.