Thèse en cours

Apprentissage par renforcement et optimisation pour un slicing 5G économe en énergie et garantissant la qualité de service
FR  |  
EN
Auteur / Autrice : Maxime Elkael
Direction : Hind Castel
Type : Projet de thèse
Discipline(s) : Informatique, données, IA
Date : Inscription en doctorat le 16/10/2020
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : SAMOVAR - Services répartis, Architectures, Modélisation, Validation, Administration des Réseaux

Résumé

FR  |  
EN

Avec la 5ème et 6ème génération des réseaux de communication, le network slicing permettra de fournir des niveaux de QoS adaptés aux différents types d'applications (réalité virtuelle, santé, véhicules autonomes et systèmes de transport, énergie et industrie, …). En effet, cette nouvelle architecture de réseaux, permet de répondre à un besoin de flexibilité et de dynamicité dans la gestion des ressources du réseau, afin de garantir à la fois les performances tout en utilisant les ressources efficacement, dans un objectif de maximiser les bénéfices des opérateurs. L'orchestrateur des slice est en charge de l'orchestration globale des ressources, et la gestion du matériel et des logiciels pour fournir des services de bout en bout basés sur les VNF (Virtual Network Function). L'un des objectifs les plus importants [I.Afolabi] du slicing est le placement optimal des VNF sur les ressources physiques et l'allocation dynamique des ressources. Les ressources devraient être dynamiquement augmentées / diminuées pour servir de manière optimale les utilisateurs du slice sans pénaliser les utilisateurs des autres slices. Le développement de techniques d'allocation optimales est complexe à cause de la taille du système (la prise en compte à la fois des nœuds physiques et virtuels et des liens physiques et virtuels), la variabilité des types ou classes de slices avec des SLA (Service Level Agreement) différents, la quantité et la variété des ressources physiques, et la variabilité du trafic des utilisateurs de chacun des slices. D'une manière générale, les challenges les plus importants du slicing dans les réseaux 5G sont : le partage de ressources, la création dynamique des slices et leur gestion, l'isolation entre les slices, la gestion de la mobilité, la sécurité, la virtualisation des ressources du spectre sans fil [X.Li] . Dans ce sujet de thèse, nous nous intéressons aux problèmes de création des slices, d'isolation entre les slices, et du partage des ressources, et nous proposons de définir de nouveaux algorithmes efficaces basés sur de l'intelligence artificielle et plus précisément l'apprentissage par renforcement pour une allocation dynamique des ressources pendant toute la durée de vie des slices. Cela comprend également la reconfiguration automatique du slice en fonction de la charge, en utilisant des mécanismes tels que : la migrations des liens ou nœuds virtuels, le path splitting, l'auto-scalling, le multiplexage des VMs, ce qui permet de gérer plus efficacement les ressources , et donc de mieux les utiliser. Différentes méthodes d'apprentissage par renforcement seront étudiées : -MCTS (Monte Carlo Tree Search) [S.Haeri] qui a été utilisé récemment pour ce problème (dans sa version statique), où l'algorithme «Multi-armed Bandit Based », avec la politique UCT (Upper Confidence Bound for Trees) sont appliqués pour le choix de l'état dans l'arbre de recherche, permettant une convergence vers la solution optimale. - DRL (Deep Reinforcement Learning) [Z.Yan], avec des algorithmes de type Actor-Critic où deux réseaux neuronaux sont maintenus pour apprendre la politique (actor) et la Q-value (critic) séparément. Notre objectif est de partir des méthodes existantes, et de les améliorer pour répondre à un certain nombre de problèmes comme l'explosion du nombre d'actions possibles, du nombre d'états et l'incertitude sur l'état précis du système. Dans ce cadre, des approches par DQN (Deep Q-Network) avec des approximateurs de fonctions par réseaux neuronaux peuvent évaluer les Q-Valeurs. Au niveau du MCTS, la parallélisation des explorations de solutions, et aussi la combinaison des réseaux neuronaux profonds avec le MCTS, pourrait permettre à la fois améliorer le choix de l'action et la fonction de valeur. Une autre piste intéressante serait de développer des algorithmes d'apprentissage sur des MDP agrégées exactes ou approximatives (bornantes ou pas) afin d'accélérer l'apprentissage sur des espaces d'états de grande taille. Dans cette thèse, les algorithmes développés seront fortement liés à des aspects théoriques : MDP (Markov Decision Process), algos de théorie des graphes, d'optimisation, et aussi de la théorie des files d'attente. Ils seront implémentés dans des contextes concrets, en utilisant une plateforme de Slicing. Bibliographie : [I.Afolabi] I.Afolabi , T. Taleb , K. Samdanis , A. Ksentini , H. Flinck , Network slicing and softwarization: a survey on principles, enabling technologies, and solutions, IEEE Commun. Surv. Tutorials 20 (2018) 2429–2453 . [S.Haeri] S. Haeri and L. Trajkovi´c. “Virtual network embedding via monte carlo tree search”, IEEE transactions on cybernetics, 48(2):510–521, 2018. [M.Hutter] M.Hutter, “Extreme state aggregation beyond Markov decision processes” , Theoretical Computer Science, Volume 650, 18 October 2016, Pages 73-91, Elsevier . [X.Li] X.Li, D.Bh, H.Anthony Chan, R.Chan, “Network slicing for 5G : Challenges and opportunities”, IEEE Internet Computing, 21(5):20-27 , January 2017 [Z.Yan] Zhongxia Yan, Jingguo Ge, Yulei Wu, Liangxiong Li, and Tong Li. Automatic virtual network embedding : A deep reinforcement learning approach with graph convolutional networks. IEEE Journal on Selected Areas in Communications, 38(6) :1040–1057, 2020.