Thèse en cours

Apprentissage profond supervisé et non supervisé à l'aide de mémoires associatives denses et de processus d'apprentissage profond classiques

FR  |  
EN
Auteur / Autrice : Kevin Kana nguimfack
Direction : Jacques Bahi
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/10/2022
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : SPIM - Sciences Physiques pour l'Ingénieur et Microtechniques
Partenaire(s) de recherche : Laboratoire : Franche Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies
Equipe de recherche : DISC - Département Informatique et Systèmes Complexes
établissement de préparation : Université de Franche-Comté (1971-....)

Résumé

FR  |  
EN

Contexte scientifique : ---------------------- L'apprentissage profond est l'un des domaines scientifiques les plus passionnants de la décennie, il est considéré comme le fer de lance de l'intelligence artificielle. Il a été appliqué avec succès à de nombreux problèmes difficiles tels que la reconnaissance d'images et de vidéos, la reconnaissance de la parole, la détection de maladies, etc. En gros, l'apprentissage profond supervisé, tel qu'il est principalement utilisé, est essentiellement un processus d'approximation pour résoudre les tâches de régression et de classification, ceci sur la base de données échantillons, en utilisant des réseaux neuronaux profonds à couches multiples en mode feedforward. Les algorithmes d'optimisation du gradient et leurs variantes sont généralement au cœur de ces approximations : les gradients sont calculés par la technique de rétropropagation qui est la technique pilier des architectures d'apprentissage profond. Pour que les architectures d'apprentissage profond fonctionnent bien, il doit y avoir une énorme quantité de données d'entraînement, et les données de test doivent être assez similaires aux données d'entraînement, en effet, les réponses sont des interpolations entre les données d'entraînement. Contrairement au cerveau humain, l'apprentissage profond classique est avide de données et a du mal avec les ensembles de données de taille moyenne, il échoue aux défis qui ne sont pas proches de ses données d'entraînement de base et est vulnérable aux attaques adverses. Malgré tous ces inconvénients, l'apprentissage profond supervisé reste un outil efficace lorsque de grandes quantités de données sont disponibles dans des problèmes de classification ou de régression. Cet outil doit peu à peu être enrichi par d'autres approches. A côté de l'apprentissage supervisé, il existe des approches d'apprentissage non supervisé. Nous proposons dans ce projet de thèse de construire de nouvelles architectures qui mélangent les architectures supervisées standard et les architectures non supervisées, afin de tirer le meilleur de chaque approche. Les réseaux Hopfield sont des mémoires associatives denses et sont des réseaux non supervisés qui connaissent actuellement un nouvel intérêt. En effet, contrairement aux anciens réseaux Hopfield [3], [4], les réseaux Hopfield modernes n'ont pas de problème de capacité de stockage et sont continus et différentiables par rapport à leurs paramètres, ce qui les rend aptes à être intégrés dans des architectures profondes classiques feedforward. L'apprentissage moderne de Hopfield est basé sur une fonction d'énergie (fonction de Lyapunov). Dans un article récent [10], les auteurs ont proposé une nouvelle fonction d'énergie qui est monotone décroissante, permet un stockage à très haute capacité et ont déduit une règle d'apprentissage de mise à jour qui converge vers un état stable (soit un état fixe, soit un cycle). Leur travail est mathématiquement prouvé de manière rigoureuse. Ensuite, ils proposent 3 types de couches Hopfield qui peuvent être intégrées dans des architectures classiques d'apprentissage profond, ils soulignent également par des expériences, les performances remarquables lors de l'intégration de telles couches Hopfield dans une approche classique d'apprentissage profond feedforward. Des comparaisons avec des méthodes bien connues et efficaces telles que LSTM, XGboost ou K-means sont effectuées. Objectifs de la thèse : --------------------- L'objectif de ce projet de thèse est de faire l'état de l'art des quelques approches mixtes supervisées/non supervisées existantes et de proposer de nouvelles architectures qui contribuent à cette thématique montante. Les revendications doivent être prouvées, des implémentations sur des problèmes significatifs de biologie, d'épidémiologie, de pharmacologie et de physique doivent être menées pour comparer expérimentalement les architectures et algorithmes proposés à des algorithmes classiques bien connus. Outre l'originalité, l'efficacité et la robustesse des nouvelles architectures par rapport aux architectures traditionnelles d'apprentissage profond, la plausibilité biologique du processus proposé sera également discutée. En effet, si l'on compare avec le cerveau humain, on sait que la règle de Hebb implique que les changements de la force de la synapse devraient dépendre uniquement des activités des neurones synaptiques locaux. En d'autres termes, les réponses des neurones biologiques sont régies par une procédure de changement de synapse qui est physiquement locale et donc descriptible par un calcul mathématique local. Mais les techniques d'apprentissage supervisé avec l'algorithme de rétropropagation nécessitent des quantités massives de données étiquetées et une règle d'apprentissage non locale pour modifier la force des synapses : la technique de rétropropagation est biologiquement peu plausible. À l'inverse, l'apprentissage avec les réseaux Hopfield semble être plus plausible d'un point de vue biologique, comme l'explique [9]. Ce dernier argument a contribué à l'orientation que nous souhaitons donner à cette thèse. Concrètement, après avoir fait un tour d'horizon de l'état de l'art dans les approches feedforward et celles à mémoire associative dense, le chercheur devra: - Indiquez les avantages et les inconvénients des approches basées sur le gradient et celles basées sur la fonction énergétique. - Expliquez l'avantage d'intégrer des couches de mémoire associative dense dans les architectures à anticipation et expliquez comment réaliser cette opération en termes de manipulations tensorielles (vectorielles). - Prouvez les résultats établis. - Donnez les détails de la mise en œuvre des architectures mixtes. - Comparer numériquement les performances et la robustesse des approches proposées avec d'autres approches proposées dans la littérature. Différents jeux de données issus de divers problèmes scientifiques tels que la Classification du répertoire immunitaire et sur les collections de benchmarks de l'UCI [5] doivent être testés et comparés aux autres méthodes. -