Mesures de couverture pour les systèmes cyber-physiques basés sur l'apprentissage automatique
Auteur / Autrice : | Ana Gomez Ruiz |
Direction : | Thao Dang |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 03/10/2022 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : VERIMAG |
Mots clés
Mots clés libres
Résumé
Les systèmes cyber-physiques (CPS) sont des systèmes mêlant des composants logiciels (cyber) et matériels (physique) en interaction avec leur environnement. Les exemples typiques sont les voitures (semi-)autonomes, les robots, les dispositifs médicaux. Mathématiquement, ils sont modélisés par des systèmes dits hybrides, qui sont des systèmes dynamiques à modes multiples, qui peuvent être de nature continue ou discrète. Comme la modélisation inclut l'environnement physique/biologique, les modèles peuvent être d'une complexité arbitraire, allant de triviale à intraitable sur le plan informatique (en raison, par exemple, de l'espace d'entrée et d'état infini pour ces systèmes). En conséquence, de nouvelles méthodes et de nouveaux outils sont toujours nécessaires pour gérer et manipuler le type de calculs et de données hétérogènes générés par l'analyse et la conception de systèmes hybrides. Dans cette thèse, nous souhaitons aborder cette question sous la perspective des mesures de couverture. Étant donné un problème CPS et certaines données et/ou modèles (par exemple, un système hybride) qui lui sont associés, la question est : quel est le domaine mathématique qui peut représenter toutes les données possibles qui peuvent être observées, et pouvons-nous mesurer à quel point le les données représentent ce domaine ? Cette question présente un intérêt théorique et pratique primordial dans de nombreux contextes. Un exemple contemporain populaire est celui de Machine Learning (ML). Il est bien connu que les algorithmes basés sur ML, qui sont de plus en plus utilisés pour la conception de CPS, ne sont aussi bons que les données utilisées pour les former. Cependant, on comprend beaucoup moins bien comment définir formellement la « qualité » des données à notre disposition. Il existe donc un besoin de mesures significatives qui peuvent être calculées et utilisées non seulement pour quantifier la qualité d'un ensemble, mais aussi pour le fixer, par exemple en le réduisant ou en l'augmentant pour mieux représenter un domaine à apprendre. Les questions de couverture, d'échantillonnage, d'augmentation des données, de ML, de CPS, etc. sont des sujets qui ont suscité beaucoup d'intérêt récemment. L'originalité de cette thèse sera d'aborder ces problématiques sous l'angle des systèmes hybrides et des méthodes formelles, deux axes de recherche dans lesquels Verimag et Decyphir sont spécialisés et internationalement reconnus. La nature hybride intrinsèque des données et des systèmes pris en compte dans l'apprentissage automatique pour les CPS est souvent négligée et nous pensons qu'il est nécessaire de l'étudier de manière plus systématique et explicite. Les méthodes formelles permettent d'obtenir des garanties plus rigoureuses et l'espoir est aussi que grâce à l'utilisation de langages de spécification tels que, par exemple, Signal Temporal Logic (STL), elles puissent aider au développement de mesures 'explicables', c'est-à-dire des mesures qui sont directement liés à des exigences formulées avec précision, par opposition à une quantité d'erreur quadratique moyenne difficile à interpréter, comme c'est la pratique la plus fréquente. Un autre formalisme d'intérêt est celui des automates temporisés (TA) pour lesquels des travaux antérieurs ont démontré qu'un échantillonnage uniforme dans l'ensemble des comportements du TA utilisé pour la génération des entrées rendait la falsification plus efficace. Une question importante à laquelle il faut répondre est de savoir si cela ou un travail dans le même sens s'étendrait également à la formation et/ou à la validation du CPS basé sur le ML.