Thèse en cours

Quantification d'incertitude causale sous connaissance partielle et faible volume de données
FR  |  
EN
Auteur / Autrice : Audrey Poinsot
Direction : Marc Schoenauer
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/03/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
Equipe de recherche : A&O - Apprentissage et Optimisation
référent : Faculté des sciences d'Orsay

Résumé

FR  |  
EN

Les méthodes d'apprentissage automatique souffrent du problème de la baisse des performances lorsque la condition de variables indépendantes et identiquement distribuées (IID) est violée ou que la distribution des données a été changée. C'est souvent le cas dans les domaines de la finance pour lesquels les données observées ne permettent pas à elles seules de décrire un changement de régime. De même, l'indépendance des événements peut changer avec le temps. Par contre, les méthodes d'apprentissage automatique peuvent mieux généraliser lors de l'apprentissage d'un modèle causal, en particulier dans un régime avec faibles quantité des données disponibles. Un modèle causal englobe les mécanismes à l'origine des dépendances statistiques observées et permet de modéliser les changements de distribution à travers la notion d'intervention. En effet, l'apprentissage causal met en évidence le fait que les probabilités conditionnelles (par exemple, écouter le coq le matin suggère que le soleil se lève) sont incapables de prédire le résultat d'une intervention (par exemple, faire taire le coq ne retarde pas le lever du soleil). Une fois qu'un modèle causal est disponible, il permet aux praticiens de tirer des conclusions sur l'effet des interventions, des contrefactuels et de nouveaux résultats potentiels sans formation supplémentaire, contrairement à l'apprentissage statistique traditionnel qui ne peut raisonner que sur les hypothèses de indépendances (IID). L'apprentissage causal repose sur des graphes causaux pour décrire des hypothèses sur le processus de génération de données, et par conséquent, les graphes causaux jouent un rôle très important dans le processus d'apprentissage causal. En revanche, de nombreux travaux existants supposent qu'une connaissance complète du graphe causal sous-jacent est disponible, ignorant les données et les incertitudes du modèle, ce qui limite leurs applications dans de nombreux contextes industriels. Les modèles d'apprentissage automatique peuvent avoir appris à partir de données éparses et/ou incomplètes. Par conséquent, il peut être difficile de déterminer leur modèle causal sous-jacent. De même, ces modèles produisent généralement des estimations surestimer. Ainsi, il est fondamental de quantifier leurs incertitudes en raison du manque de données de celle inhérente au modèle probabiliste. Les techniques d'augmentation des données sont généralement utilisées pour traiter les estimations de l'incertitude prédictive. L'idée est que les échantillons augmentés permettent d'explorer différents points de vue et donc de capter les incertitudes. De plus, il est simple à mettre en œuvre et à mettre en pratique car il maintient le modèle sous-jacent inchangé. Néanmoins, l'augmentation des données peut modifier de manière incorrecte les estimations correctes en raison de la nature du problème, de la taille des ensembles de données disponibles (aka ensemble d'apprentissage) et de l'architecture du modèle d'apprentissage sous-jacent. Par conséquent, découvrir l'effet de différentes stratégies d'augmentation des données dans des conditions d'incertitude reste une question ouverte. Dans ce contexte, cette thèse se concentrera sur la combinaison de techniques d'augmentation de données et de découverte causale dans des régimes à faible quantité données sous l'hypothèse de graphes causaux inconnus ou partiellement connus. Nous pensons que cette direction de recherche nous permettra de démêler les différentes incertitudes et, par conséquent, d'accompagner les décideurs à travers de meilleures estimations de prédiction.