Thèse en cours

Calibration d'algorithmes de détection de ruptures dans les séries temporelles

FR  |  
EN
Auteur / Autrice : Nicolás Cecchi
Direction : Laurent Oudre
Type : Projet de thèse
Discipline(s) : Mathématiques appliquées
Date : Inscription en doctorat le 01/02/2025
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Centre Borelli
Equipe de recherche : Apprentissage statistique et données massives
Référent : Ecole Normale Supérieure Paris-Saclay

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

La détection de ruptures consiste à trouver les instants où le modèle génératif des observations d'une série temporelle change. Elle est utilisée dans de nombreux domaines, de la neurologie au monitoring industriel, comme une étape d'une chaîne de traitement complexe. Ce sujet a généré beaucoup de contributions ces dernières décennies. Ce foisonnement d'algorithmes différents et la difficulté à les calibrer sur des données réelles sont un frein pour leur utilisation généralisée. Notre objectif général est de proposer des méthodologies qui aideront les chercheurs•ses de tout domaine à choisir et calibrer une méthode de ruptures adaptée à leur tâche. Pour cela, nous proposons dans cette thèse d'intégrer aux algorithmes des hypothèses de structure, fournis par les experts•es qui récoltent les données. Ces hypothèses sont de plusieurs types. D'abord l'espace des observations peut être non-euclidien, modélisé par exemple par un graphe spatial (réseau de capteurs EEG) ou une variété (données de motion capture). Ensuite, les ruptures possibles et les transitions entre segments peuvent être contraintes. Ainsi, beaucoup de signaux physiologiques sont quasi périodiques (ECG, signaux de marche ou de respiration) ou ont des durées moyennes de segment connues (durée moyenne d'activités lorsqu'on surveille des souris/rats notamment). Finalement, le dernier type d'hypothèses consiste en des exemples annotés, où les ruptures voulues ont été manuellement labellisées. Ces trois types d'information sont généralement faciles à formuler car ils sont intuitifs et correspondent à l'expertise des chercheurs•ses. Intégrer ces hypothèses permettrait de réduire le nombre de degrés de liberté, de maintenir les estimateurs dans des espaces de solutions plausibles et de simplifier les étapes de calibration d'algorithme.