Projet de thèse en Mathématiques appliquées
Sous la direction de Mathilde Mougeot.
Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale de mathématiques Hadamard , en partenariat avec Centre de mathématiques et de leurs applications (1990-2019 ; Cachan, Val-de-Marne) (laboratoire) , Apprentissage statistique et données massives (equipe de recherche) et de École normale supérieure Paris-Saclay (Gif-sur-Yvette, Essonne ; 1912-....) (référent) depuis le 01-09-2020 .
Ce projet de thèse porte sur l'interprétabilité des modèles, un problème souvent rencontré quand on applique des méthodes d'apprentissage automatique dans des contextes académiques et industriels. Le but du projet est de proposer un framework basé sur les forêts aléatoires et les réseaux neuronaux. Ces deux familles de modèles ont des avantages complémentaires qu'on veut exploiter afin d'obtenir des modèles efficaces et interprétables, notamment par le biais des arbres de décision dans les forêts aléatoires. Le framework proposé, qu'on appelle Random Transfer Forest (Forêt de transfert aléatoire), adresse plusieurs défis liés aux deux familles de modèles utilisées, comme l'exploitation de l'information des arbres de décision pour construire une forêt aléatoire et comment traduire les résultats d'un réseau de neurones vers une représentation compréhensible par un humain, comme un arbre de décision. De plus, ce projet explore la possibilité de simplifier l'apprentissage par transfert comme une composante intégrée au framework. Ce projet sera développé en collaboration avec Bertin IT, avec des applications dans la reconnaissance automatique de la parole, entre autres domaines. En particulier, sera étudiée la problématique de l'adaptation d'un modèle acoustique dans une langue à différents accents. De manière plus générale, le projet fera partie de développements au sein de la chaire industrielle du Centre Borelli, ce qui nous permettra d'appliquer les méthodes étudiées à différents domaines.
Towards Interpretable and Versatile Machine Learning
This thesis project focuses on the interpretability of machine learning models, a problem often encountered when applies automatic learning methods in academic and industrial contexts. The aim of the project is to propose a framework based on random forests and neural networks. These two families of models show complementary benefits that we want to exploit in order to built effective and interpretablemodels, in particular through the use of the trees of decision making in random forests. The proposed framework, called Random Transfer Forest (Random Transfer Forest), addresses several challenges related to the two families of models used, such as the use of decision tree information for building a random forest and how to translate the results of a neural network to a humanly understandable representation, such as a decision tree. In addition, this project explores the possibility of simplifying transfer learning as an integrated component of the framework. This project will be developed in collaboration with Bertin IT, with applications in recognition automatic speech recognition, among other areas. In will be studied the problem of adaptation to the new environment. from an acoustic model in one language to different accents. More generally, the project will be part of developments within the Borelli Centre, which will allow us to apply the methods studied in different fields.