Thèse soutenue

Apprentissage par la machine et big data cosmétique en vue de la modélisation mathématique et analyse statistique prédictive sur l'efficacité de formules cosmétiques
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Mathilde Guillemot
Direction : Liming Chen
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/12/2020
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École Doctorale d'Informatique et Mathématiques (Lyon)
Partenaire(s) de recherche : établissement opérateur d'inscription : École Centrale de Lyon (1857-....)
Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône) - Imagine
Equipe de recherche : Imagine
Jury : Président / Présidente : Stéphane Canu
Examinateurs / Examinatrices : Liming Chen, Christelle Godin, Catherine Heusèle, Rodolphe Korichi
Rapporteurs / Rapporteuses : Mohamed Ali Hammami, Amine Naït-Ali

Résumé

FR  |  
EN

L’industrie cosmétique est confrontée à une concurrence accrue et aux attentes d’une clientèle exigeantes. Elle doit proposer des solutions innovantes toujours plus efficaces, satisfaisantes d’un point de vue sensoriel tout en respectant les exigences règlementaires. Différents tests sont mis en place pour soutenir les allégations marketing et prouver l’innocuité des produits mis sur le marché. L’emploi de méthodes d’apprentissage automatique peut être utilisée comme solution de prétraitement afin de prédire l’efficacité des produits cosmétiques, tout en permettant une économie de temps et de moyen. Cette approche nécessite la construction d’une base de données afin de lier les compositions de formules cosmétiques aux résultats de tests in vivo sur humain réalisés pour attester de leur efficacité. L’élaboration de cette base de données nécessite une réflexion autour des variables pertinentes pour décrire la composition des formules. Dans le même temps, un protocole permettant d’extraire les résultats d’efficacité jusqu’alors stockés dans des document Word est défini et appliqué pour les tests démontrant le pouvoir hydratant et l’effet lissant des produits. Les forêts aléatoires et les réseaux de neurones sont les deux algorithmes d’apprentissage automatiques choisis pour traiter ce problème de classification supervisée de grandes dimensions. Ces deux modélisations donnent des premiers résultats intéressants pour prédire la classe d’hydratation des cosmétiques à partir de leur composition. Dans le but d’étudier les interactions entre les éléments chimiques d’une formule, les vecteurs de descripteurs sont transformés et utilisés en entrées de réseaux de neurones convolutifs. L’explicabilité des forêts aléatoires et des réseaux de neurones étudié respectivement grâce à permutation de variables et la méthode Layerwize Relevance Propagation, amène trois réflexions. Premièrement, des concepts physico-chimiques sont intégrés par lors de la phase d’apprentissage. Cette idée est supportée par la pertinence des variables sur lesquelles s’appuient les modèles pour justifier leur prédiction d’hydratation. Deuxièmement, l’explicabilité sert à la détection et à l’interprétation de mauvaises classifications, comme c’est le cas pour l’effet lissant où les prédictions se fondent sur des descripteurs du panel volontaire et non sur la composition de la formule. Enfin l’explicabilité offre une opportunité de découvrir de nouveaux composés ou mélanges de composés chimiques prometteurs pour créer des formules hydratantes. Après avoir appris puis étudié les algorithmes d’apprentissage automatique, l’exploitation des réseaux de neurones complètement connectés permet de proposer des formules virtuelles générées avec ou sans contrainte de composition répondant à des critères d’efficacité prédéfinis.