Thèse soutenue

Élagage des structures aléatoires

FR  |  
EN
Auteur / Autrice : Arthur Carvalho Walraven da Cunha
Direction : Emanuele Natale
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/09/2023
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Konstantin Avrachenkov
Examinateurs / Examinatrices : Emanuele Natale, Konstantin Avrachenkov, Vincent Gripon, Marc Lelarge, Pierluigi Crescenzi, Frédéric Giroire
Rapporteur / Rapporteuse : Vincent Gripon, Marc Lelarge

Résumé

FR  |  
EN

La Strong Lottery Ticket Hypothesis (SLTH) stipule que les réseaux de neurones contiennent, lors de l'initialisation aléatoire, des sous-réseaux qui fonctionnent bien sans aucun entraînement. Le réseau aléatoire doit cependant être sur-paramétré : avoir plus de paramètres qu'il n'en aurait besoin. La SLTH a d'abord été prouvée pour les réseaux entièrement connectés et suppose une sur-paramétrisation polynomiale. Puis, cela a été amélioré pour ne nécessiter qu'un surplus logarithmique, ce qui est essentiellement optimal. Ce fort résultat a tiré parti d'un beau théorème sur le Subset Sum Problem (SSP). Il considère une version aléatoire du SSP dans laquelle on cherche à approximer une valeur cible en sommant des sous-ensembles d'un échantillon aléatoire donné. Le théorème affirme que garantir l'existence d'une solution avec une haute probabilité ne nécessite qu'une taille d'échantillon logarithmique par rapport à la précision des approximations. Nous présentons une preuve plus simple et plus directe pour ce résultat. Ensuite, en tirant parti du théorème sur le SSP, nous étendons le SLTH aux Convolutional Neural Networks (CNNs) : nous montrons que les CNN aléatoires contiennent des sous-CNN clairsemés qui n'ont pas besoin d'entraînement pour obtenir de bonnes performances. Nous avons également obtenu le résultat en supposant une sur-paramétrisation logarithmique. Bien que le surplus imposé par le SLTH puisse être compensé par la rareté des sous-réseaux obtenus, exploiter la rareté en pratique est très difficile si elle n'est pas structurée. Étendre les résultats sur le SLTH pour produire des sous-réseaux structurés nécessiterait une version multidimensionnelle du théorème sur le SSP. Nous prouvons la véracité d'une telle version et nous l'utilisons pour montrer que le SLTH est toujours valable pour les CNN si nous exigeons que les sous-réseaux soient structurés. Enfin, nous proposons une application des idées de cette thèse à la conception de circuits : nous exploitons l'aléatoire inhérent aux spécifications des composants électroniques intégrés pour obtenir des composants programmables hautement précis à partir de composants statiques de faible précision.