Smart sampling design : augmentation de données en grandes dimensions pour des modèles d'apprentissage automatique
Auteur / Autrice : | Clara Guilhaumon |
Direction : | Francisco Chinesta |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques appliquées |
Date : | Inscription en doctorat le 01/11/2021 |
Etablissement(s) : | Paris, HESAM |
Ecole(s) doctorale(s) : | École doctorale Sciences des métiers de l'ingénieur |
Partenaire(s) de recherche : | Laboratoire : Pimm - Laboratoire Procédés et ingénierie en mécanique et matériaux |
établissement de préparation de la thèse : École nationale supérieure d'arts et métiers (1780-....) |
Mots clés
Résumé
L'utilisation de modèles et d'algorithmes statistiques s'est largement développée au travers de ce qu'on appelle l'IA stochastique. Les applications sont nombreuses comme les jumeaux numériques et l'analyse de données massives en R&D, en industrialisation ou en logistique. Les principaux axes de recherches autour de l'IA se basent sur la transposition de l'outil pour divers secteurs industriels, la recherche dans l'optimisation de l'infrastructure de calculs, la sélection de variables en grandes dimensions, les données manquantes et le sur-apprentissage. Pour de nombreux acteurs industriels, il est très difficile de constituer une très grande base de données et leurs problèmes principaux sont liés au fait d'extraire de l'information de petits jeux de données ou de constituer une base de données adaptée. Notre projet a donc pour but de créer ou d'augmenter une base de données en grands dimensions pour palier à ces difficultés. Le sujet de recherche consistera à développer des solutions de smart design permettant d'adapter des stratégies de plans d'expériences en grandes dimensions afin d'optimiser un modèle de classification supervisée. Par le principe d'apprentissage bayésien, l'information a priori permettra de proposer des essais complémentaires et l'évaluation de l'erreur a posteriori permettra de valider la « mise à jour » du modèle. Ces outils devront s'appliquer dans des espaces multi-dimensionnels et pour une large famille de modèles multi-paramétriques et seront testés pour diverses applications.