Programmation différentiable à grande échelle pour les données relationnelles
Auteur / Autrice : | Paul Peseux |
Direction : | Thierry Paquet |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 26/09/2023 |
Etablissement(s) : | Normandie |
Ecole(s) doctorale(s) : | École doctorale mathématiques, information et ingénierie des systèmes (Caen) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique, de traitement de l'information et des systèmes (Saint-Etienne du Rouvray, Seine-Maritime ; 2006-...) |
établissement co-accrédité : Université de Rouen Normandie (1966-....) | |
Jury : | Président / Présidente : Cecilia Zanni-Merk |
Examinateurs / Examinatrices : Thierry Artières, Romain Raveaux, Maxime Berar, Victor Nicollet, Laurent Wendling | |
Rapporteurs / Rapporteuses : Thierry Artières, Romain Raveaux |
Résumé
Cette thèse de doctorat présente trois contributions dans le domaine de la programmation différentiable axée sur les données relationnelles. Les données relationnelles sont courantes dans des secteurs tels que la santé et la logistique, où les données sont souvent organisées en tableaux structurés ou bases de données. Les approches traditionnelles de l’apprentissage automatique ont du mal à s’appliquer sur de telles données, tandis que les modèles d’apprentissage automatique de type boîte blanche sont plus adaptés mais également plus difficiles à développer. La programmation différentiable offre une solution en traitant les requêtes sur les bases de données relationnelles comme des programmes différentiables, permettant ainsi le développement de modèles d’apprentissage automatique de type boîte blanche qui peuvent travailler directement sur les données relationnelles. L’objectif principal de cette recherche est d’explorer l’application de l’apprentissage automatique aux données relationnelles en utilisant des techniques de programmation différentiable. La première contribution de la thèse introduit une couche différentiable dans les langages de programmation relationnelle, autant d’un point de vue théorique que d’un point de vue pratique. Le langage de programmation Adsl a été créé pour effectuer la différentiation et transcrire les opérations relationnelles d’une requête. Le langage Envision a été enrichi d’une couche de programmation différentiable, permettant le développement de modèles exploitant les données relationnelles dans un environnement de langage de programmation relationnelle natif. La deuxième contribution développe un estimateur de gradient appelé GCE, conçu pour les caractéristiques catégorielles surreprésentées dans les données relationnelles. GCE est démontré comme étant utile sur divers ensembles de données catégorielles et modèles, et a été implémenté pour les modèles d’apprentissage profond. GCE est intégré en tant qu’estimateur de gradient natif dans la couche de programmation différentiable d’Envision, facilité par la première contribution de cette thèse. La troisième contribution développe un estimateur de gradient généralisé appelé Stochastic Path Automatic Differentiation (SPAD), qui tire sa stochasticité de la décomposition du code. SPAD introduit l’idée de rétro-propager une fraction du gradient pour réduire la consommation de mémoire lors des mises à jour des paramètres. La mise en œuvre de cette approche d’estimation de gradient est rendue possible par les décisions de conception lors de la différentiation d’Adsl. Cette recherche a des implications significatives pour les industries reposant sur les données relationnelles, en débloquant de nouvelles perspectives et en améliorant la prise de décision en appliquant des modèles d’apprentissage automatique de type boîte blanche aux données relationnelles en utilisant des techniques de programmation différentiable.