Thèse soutenue

Élagage fonctionnel géométrique pour la détection de ruptures dans des modèles de famille exponentielle à faible dimension.

FR  |  
EN
Auteur / Autrice : Liudmila Shabarshova
Direction : Guillem RigaillVincent Runge
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 23/09/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Laboratoire de Mathématiques et Modélisation d'Évry (Evry, Essonne)
Référent : Université d'Évry Val d'Essonne
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-….)
Equipe de recherche : Statistique pour la Génomique et la Génétique
Jury : Président / Présidente : Sophie Schbath
Examinateurs / Examinatrices : Emilie Lebarbier, Grégory Nuel, Alice Cleynen, Pierre Neuvial
Rapporteur / Rapporteuse : Emilie Lebarbier, Grégory Nuel

Résumé

FR  |  
EN

La détection de ruptures est un problème courant d'apprentissage non supervisé dans de nombreux domaines d'application, notamment en biologie, en génomique, en surveillance de réseaux de capteurs et en cybersécurité. En général, soit une détection de ruptures a posteriori, c'est-à-dire hors ligne, soit une détection de ruptures séquentielle, c'est-à-dire en ligne, est envisagée.Des méthodes standard de programmation dynamique pour la détection de ruptures ont été proposées pour optimiser le logarithme du rapport de vraisemblance. Ces méthodes sont exactes et récupèrent des segmentations optimales. Cependant, elles ont une complexité quadratique. Réduire continuellement l'ensemble des candidats potentiels de ruptures, appelé élagage, est un moyen de réduire la complexité computationnelle des méthodes standard de programmation dynamique. Au cours de la dernière décennie, une nouvelle classe de méthodes de programmation dynamique, appelée élagage fonctionnel, a été proposée.Les techniques d'élagage fonctionnel utilisées dans ces méthodes ont déjà prouvé leur efficacité computationnelle pour les modèles de ruptures paramétriques univariés. Étendre les règles d'élagage fonctionnel univarié à des contextes multivariés est difficile si l'on vise l'élagage le plus efficace. Cela conduit à des problèmes d'optimisation non convexes.Cette thèse présente deux nouvelles méthodes de programmation dynamique d'élagage fonctionnel, efficaces en termes de calcul, pour la détection de ruptures dans les modèles de famille exponentielle de faible dimension : la méthode de détection de ruptures multiples hors ligne, GeomFPOP (Kmax = ∞), et la méthode de détection d'une rupture en ligne, MdFOCuS.La géométrie computationnelle est la base des règles d'élagage fonctionnel pour ces méthodes. La règle d'élagage de GeomFPOP (Kmax = ∞) utilise une heuristique géométrique pour mettre à jour et élaguer les candidats potentiels de ruptures au fil du temps. La règle d'élagage de MdFOCuS utilise une connexion avec un problème d'enveloppe convexe qui simplifie la recherche de la rupture à élaguer. De plus, nous démontrons mathématiquement que cette technique d'élagage conduit à une complexité en temps quasi-linéaire.Ces deux règles d'élagage montrent des améliorations significatives de la complexité computationnelle pour les modèles de famille exponentielle de faible dimension dans des études de simulation. En une minute, les implémentations Rcpp de ces méthodes peuvent traiter plus de 2 × 106 observations dans un signal bivarié sans ruptures avec un bruit gaussien i.i.d..