Thèse soutenue

Apprentissage à partir de données en continu dépendant du temps avec des algorithmes stochastiques en ligne

FR  |  
EN
Auteur / Autrice : Nicklas Werge
Direction : Olivier WintenbergerAntoine Godichon-Baggioni
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 29/09/2022
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....)
Jury : Président / Présidente : Sylvain Le Corff
Examinateurs / Examinatrices : Alain Durmus, Gersende Fort
Rapporteurs / Rapporteuses : Sébastien Gadat, Genaro Sucarrat

Résumé

FR  |  
EN

Au cours des dernières décennies, les systèmes intelligents, tels que l’apprentissage automatique et l’intelligence artificielle, se sont imposés dans de nombreux secteurs de la société. Cependant, bon nombre de ces méthodes fonctionnent souvent dans un cadre d’apprentissage batch ou hors ligne, où le modèle est réentraîné à partir de zéro lorsque de nouvelles données arrivent. Ces méthodes d’apprentissage présentent des inconvénients majeurs, tels que des coûts de réentraînement élevés en cas de nouvelles données, et donc une faible adaptabilité aux données massives et en pratique. Dans le même temps, ces systèmes intelligents génèrent une quantité pratiquement infinie de grands jeux de données, dont beaucoup se présentent sous la forme d’un flux quasi-continu de données, appelé streaming. C’est pourquoi les méthodes du premier ordre à faible coût de calcul par itération sont devenues prédominantes dans la littérature ces dernières années, en particulier la descente de gradient stochastique (SG). Ces méthodes SG sont adaptées et robustes dans de nombreux domaines allant de problèmes lisses et fortement convexes aux problèmes complexes non convexes, ce qui les rend applicables à de nombreuses tâches d’apprentissage pour des applications réelles où les données sont de grande taille (et de grande dimension) et arrivent à une vitesse élevée. Ces méthodes du premier ordre ont été intensivement étudiées en théorie et en pratique au cours des dernières années. Néanmoins, il y a encore un manque de compréhension théorique sur la façon dont la dépendance et le biais affectent ces algorithmes d’apprentissage. Un thème central de cette thèse est d’apprendre à partir de données en streaming dépendantes du temps et d’examiner comment les flux de données changeants affectent l’apprentissage. Pour y parvenir, nous construisons d’abord l’algorithme de gradient stochastique en streaming (SSG), qui peut gérer des données quasi-continues ; il comprend diverses méthodes SG, telles que la descente SG (c’est-à-dire l’algorithme de Robbins-Monro), les méthodes SG à mini-batch, ainsi que leurs estimations moyennes Polyak-Ruppert. La descente SSG combine l’applicabilité des méthodes fondées sur les SG, les avantages en termes de calcul, les propriétés de réduction de la variance grâce au mini-batching, et la convergence accélérée grâce à la moyénisation de Polyak- Ruppert. Notre analyse repose sur le niveau de dépendance et de convexité du problème, et nous permet d’améliorer la convergence. En résumé, les méthodes SSG peuvent converger en utilisant des mini-batchs de tailles croissante en streaming, qui rompent la dépendance à long terme et à court terme, et ce, même en utilisant des estimations de gradient biaisées. De manière plus surprenante, ces résultats forment une heuristique qui peut aider à augmenter la stabilité des méthodes SSG en pratique. En particulier, notre analyse révèle comment une réduction du bruit et une convergence accélérée peuvent être obtenues en traitant l’ensemble de données selon une procédure spécifique, ce qui est bénéfique pour les problèmes d’apprentissage à grande échelle. Enfin, nous proposons une méthode d’estimation récursive adaptative en ligne pour les modèles GARCH appelée AdaVol. La procédure AdaVol repose sur des algorithmes stochastiques combinés à la méthode de ciblage de la variance (VTE) ; AdaVol présente des propriétés efficaces sur le plan du calcul grâce à la VTE qui permet de surmonter certaines difficultés de convergence dues au manque de convexité de la procédure de vraisemblance quasi-maximale (QML). Des démonstrations empiriques montrent des compromis favorables entre la stabilité d’AdaVol et sa capacité à s’adapter à des estimations variant dans le temps.