Thèse en cours

Smart sampling design : augmentation de données en grandes dimensions pour des modèles d'apprentissage automatique

FR  |  
EN
Auteur / Autrice : Clara Guilhaumon
Direction : Francisco Chinesta
Type : Projet de thèse
Discipline(s) : Mathématiques appliquées
Date : Inscription en doctorat le 01/11/2021
Etablissement(s) : Paris, HESAM
Ecole(s) doctorale(s) : École doctorale Sciences des métiers de l'ingénieur
Partenaire(s) de recherche : Laboratoire : Pimm - Laboratoire Procédés et ingénierie en mécanique et matériaux
établissement de préparation de la thèse : École nationale supérieure d'arts et métiers (1780-....)

Résumé

FR  |  
EN

L'utilisation de modèles et d'algorithmes statistiques s'est largement développée au travers de ce qu'on appelle l'IA stochastique. Les applications sont nombreuses comme les jumeaux numériques et l'analyse de données massives en R&D, en industrialisation ou en logistique. Les principaux axes de recherches autour de l'IA se basent sur la transposition de l'outil pour divers secteurs industriels, la recherche dans l'optimisation de l'infrastructure de calculs, la sélection de variables en grandes dimensions, les données manquantes et le sur-apprentissage. Pour de nombreux acteurs industriels, il est très difficile de constituer une très grande base de données et leurs problèmes principaux sont liés au fait d'extraire de l'information de petits jeux de données ou de constituer une base de données adaptée. Notre projet a donc pour but de créer ou d'augmenter une base de données en grands dimensions pour palier à ces difficultés. Le sujet de recherche consistera à développer des solutions de smart design permettant d'adapter des stratégies de plans d'expériences en grandes dimensions afin d'optimiser un modèle de classification supervisée. Par le principe d'apprentissage bayésien, l'information a priori permettra de proposer des essais complémentaires et l'évaluation de l'erreur a posteriori permettra de valider la « mise à jour » du modèle. Ces outils devront s'appliquer dans des espaces multi-dimensionnels et pour une large famille de modèles multi-paramétriques et seront testés pour diverses applications.