Gestion adaptive de l'alimentation des objets connectés limités en ressources
Auteur / Autrice : | Sota Sawaguchi |
Direction : | Suzanne Lesecq |
Type : | Thèse de doctorat |
Discipline(s) : | Nanoélectronique et nanotechnologie |
Date : | Soutenance le 16/11/2021 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'électronique et de technologie de l'information (Grenoble ; 1967-....) |
Jury : | Président / Présidente : Lorena Anghel |
Examinateurs / Examinatrices : Lionel Torres, Édith Beigné | |
Rapporteur / Rapporteuse : Olivier Berder, Pascal Benoit |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
L’Internet des objets à récupération d’énergie (EH-IoT) permet d’éviter le manque d’énergie pour les opérations perpétuelles des nœuds sans induire de maintenance. Il permet également de fournir une meilleure qualité de service (QoS) en cas de budget énergétique suffisant. En fonction de l’énergie récupérée et de la qualité de service requise, les opérations du système doivent être contrôlées de manière adaptative, en particulier dans les nœuds à ressources limitées. Chaque nœud sera confronté à des incertitudes différentes dans des environnements différents. Par conséquent, un contrôleur adaptatif intelligent léger est requis. À cette fin, l’apprentissage par renforcement (RL) est une solution appropriée qui interagit avec les environnements et apprend leur dynamique au moment de l’exécution sans aucune connaissance a priori à leur sujet. Nous nous concentrons spécifiquement sur une méthode RL acteur-critique avec des approximations de fonctions linéaires et appelons ce type d’algorithme LAC (Linear Actor-Critic). Trois problèmes des méthodes LAC sont principalement abordés dans notre travail: divergence et réactivité lente aux changements environnementaux, coûts algorithmiques et prise en compte implicite des contraintes. Le premier problème était causé par des taux d’apprentissage fixes qui s’adaptent difficilement à de nouvelles situations. Nous avons introduit l’algorithme à taux d’apprentissage adaptatif appelé Adam et proposé d’utiliser des facteurs de lissage plus petits pour améliorer l’adaptabilité. Parallèlement à l’utilisation d’une distribution gaussienne pour l’acteur, l’ajout d’Adam augmente les coûts algorithmiques. La majorité des coûts algorithmiques provient de trois parties : la dérivation de l’écart type, les divisions et la distribution gaussienne. À cette fin, trois méthodes d’approximation sont utilisées: la règle empirique pour les écarts types, les dérivations réciproques basées sur la LUT, et la méthode gaussienne basée sur les quartiles, respectivement. Avec l’utilisation de la précision à virgule fixe, les frais généraux algorithmiques ont été considérablement réduits. Nous avons ensuite implémenté une solution matérielle asynchrone pour montrer d’autres améliorations de l’efficacité énergétique de l’algorithme proposé. Enfin, nous considérons le processus décisionnel de Markov contraint pour répondre aux contraintes des méthodes LAC. En utilisant les termes normalisés d’énergie et de performance, nous avons établi une fonction de récompense symétrique dans LAC pour permettre d’aborder également les contraintes d’énergie et de performance, et d’apprendre rapidement durant l’exécution.