Thèse soutenue

L'intelligence artificielle verte pour automatiser le diagnostic médical avec une faible consommation d'énergie

FR  |  
EN
Auteur / Autrice : John Anderson García Henao
Direction : Michel RiveillPascal Staccini
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/01/2021
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes) - Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Fabrice Huet
Examinateurs / Examinatrices : Michel Riveill, Pascal Staccini, Fabrice Huet, Frédéric Le Mouël, Yves Denneulin
Rapporteurs / Rapporteuses : Frédéric Le Mouël, Yves Denneulin

Résumé

FR  |  
EN

L'automatisation de la modélisation basée sur les données pour le diagnostic médical peut soutenir le processus de décision clinique et accroître l'efficacité de la prestation des soins de santé dans les établissements cliniques. Tant les médecins que les patients en tireront profit, soit par la détection d'événements critiques, soit par l'émergence d'une médecine personnalisée, soit encore par une meilleure définition des parcours de soins. Cependant, malgré le fait que les algorithmes d'apprentissage profond (DL) ont montré une grande précision et de bonnes performances dans différentes catégories cliniques, très peu ont été intégrés dans des systèmes médicaux intelligents. Ce type de systèmes va au-delà du processus de modélisation et nécessite l'intégration de l'innovation technique et scientifique dans le contexte d'un cadre clinique, en résolvant divers problèmes techniques et de recherche pour offrir des solutions réelles au niveau de l'hôpital. Certains des obstacles les plus courants dans le contexte réel sont liés à la confidentialité des données et à l'interopérabilité; à la représentation des patients et à l'apprentissage multitâche; aux méthodes distribuées pour accélérer les modèles de formation et à l'utilisation efficace des ressources informatiques disponibles dans les hôpitaux.Cette thèse propose un cadre modulaire d'apprentissage approfondi optimisé pour le diagnostic médical afin de créer des solutions portables et évolutives sur des systèmes hétérogènes. Ces modules comprennent des méthodes d'apprentissage approfondi basées sur les données, l'apprentissage par représentation et l'apprentissage approfondi distribué afin de développer un modèle de prédiction des risques avec des résultats cliniques tels que les admissions à l'hôpital, la durée du séjour et la mortalité. Dans ce contexte où les données proviennent de sources hétérogènes et nécessitent un calcul intensif pour être collectées et statistiquement significatives, les principales contributions de cette thèse de recherche ont été divisées en deux volets: le premier volet vise à mettre en œuvre des architectures neuronales non supervisées pour dériver une représentation générale latente des patients à partir de dossiers de santé électroniques (EHRs) pouvant être appliqués à différentes tâches cliniques, et à harmoniser les HERs hétérogènes sur la base du format Fast Healthcare Interoperability Resources, ce qui permet de reproduire l'extensibilité des modèles construits à partir des HERs de l'hôpital A dans un hôpital B avec différents formats de systèmes d'information sur les soins de santé.Le deuxième volet vise à accélérer le processus de formation et le réglage des hyperparamètres afin de déterminer un modèle de généralisation optimal pour une tâche médicale spécifique en utilisant un mini-groupe de nœuds. La principale approche a consisté en un ensemble de modes de calcul de gradient permettant d'adapter le réseau neuronal en fonction de la capacité de mémoire, du nombre de nœuds utilisés, de la méthode de coordination entre les nœuds et du protocole de communication inter-nœuds disponible.Nous avons mené différentes expériences en utilisant des descripteurs cliniques recueillis au cours de la première semaine de séjour des patients à l'hôpital dans la région PACA ou en utilisant de courts enregistrements ECGs obtenus dans le cadre du défi PhysioNet 2017. Ces expériences nous ont permis d'évaluer les performances en termes de précision, de temps de convergence et d'évolutivité du cadre que nous proposons. Ce cadre, disponible en open-source, est appelé DiagnoseNET pour le diagnostic médical. Il automatise en une seule API la définition de l'architecture neurale, la recherche d'hyperparamètres, la distribution des données sur les différents nœuds de calcul ainsi que la définition des lots de traitement. Son moteur d'exécution est chargé d'orchestrer les calculs de gradient sur les différents nœuds selon différentes stratégies de coopération.