Thèse soutenue

Bandits à Mémoire pour la prise de décision en environnement dynamique. Application à l'optimisation des réseaux de télécommunications

FR  |  
EN
Auteur / Autrice : Réda Alami
Direction : Michèle SebagOdalric-Ambrym MaillardRaphaël Féraud
Type : Thèse de doctorat
Discipline(s) : Mathématiques et Informatique
Date : Soutenance le 12/10/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
Référent : Faculté des sciences d'Orsay
Jury : Président / Présidente : Florence D'Alché-Buc
Examinateurs / Examinatrices : Aurélien Garivier, Vianney Perchet, Aurélien Bellet
Rapporteur / Rapporteuse : Aurélien Garivier, Vianney Perchet

Résumé

FR  |  
EN

Dans cette thèse de doctorat, nous étudions le problème du bandit manchot non stationnaire où le comportement de non-stationnarité de l'environnement est caractérisé par plusieurs changements brusques appelés ''points de changement''. Nous proposons les bandits à mémoire : une combinaison entre un algorithme pour le bandit manchot stochastique et le détecteur Bayésien de point de changement. L'analyse de ce dernier a toujours été un problème ouvert dans la communauté de la théorie statistique et de l'apprentissage séquentiel. Pour cette raison, nous dérivons une variante du détecteur Bayésien de point de changement qui est plus facile à analyser mathématiquement en termes de taux de fausses alarmes et de délai de détection (qui sont les critères les plus courants pour la détection de point de changement). Ensuite, nous introduisons le problème d'exploration décentralisée dans le cadre du bandit manchot où un ensemble de joueurs collaborent pour identifier le meilleur bras en interagissant de manière asynchrone avec le même environnement stochastique. Nous proposons une première solution générique appelée élimination décentralisée qui utilise n'importe quel algorithme d'identification du meilleur bras comme sous-programme avec la garantie que l'algorithme assure la confidentialité, avec un faible coût de communication. Enfin, nous effectuons une évaluation des stratégies de bandit manchot dans deux contextes différents de réseaux de télécommunications. Tout d'abord, dans le contexte LoRaWAN (Long Range Wide Area Network), nous proposons d'utiliser des algorithmes de bandit manchot à la place de l'algorithme par défaut qui porte le nom d’ADR (Adaptive Data Rate) afin de minimiser la consommation d'énergie et les pertes de paquets des terminaux. Ensuite, dans le contexte IEEE 802.15.4-TSCH, nous effectuons une évaluation de 9 algorithmes de bandits manchot afin de sélectionner ceux qui choisissent les canaux les plus performants, en utilisant les données collectées via la plateforme FIT IoT-LAB. L'évaluation des performances suggère que notre proposition peut améliorer considérablement le taux de livraison des paquets par rapport à la procédure TSCH par défaut, augmentant ainsi la fiabilité et l'efficacité énergétique des transmissions.