Thèse soutenue

Estimation et tests pour des mélanges de composantes hilbertiennes issues d'un dictionnaire continu

FR  |  
EN
Auteur / Autrice : Clément Hardy
Direction : Jean-François DelmasCristina Butucea
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 16/02/2023
Etablissement(s) : Marne-la-vallée, ENPC
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication
Partenaire(s) de recherche : Laboratoire : Centre d'enseignement et de recherche en mathématiques et calcul scientifique (Champs-sur-Marne, Seine-et-Marne)
Jury : Président / Présidente : Gabriel Peyré
Examinateurs / Examinatrices : Jean-François Delmas, Cristina Butucea, Clément Marteau, Fabrice Gamboa, Joseph Salmon
Rapporteurs / Rapporteuses : Clément Marteau, Fabrice Gamboa

Résumé

FR  |  
EN

Cette thèse aborde des problèmes d’estimation et de test pour des mélanges parcimonieux de composantes issues de dictionnaires continûment paramétrés. Une grande variété de modèles de régression non-linéaires sont considérés dans un cadre unifié. Dans cette thèse, les observations sont des éléments aléatoires d’un espace de Hilbert résultant de la somme d’un signal déterministe, contenant de l’information, et d’un bruit. Le signal est issu d’une combinaison linéaire (ou mélange) d’un nombre fini, mais éventuellement croissant, de composantes continûment paramétrées par un paramètre non-linéaire. Nous considérons un large panel de dictionnaires continus, d’espaces d’observations et de bruits additifs gaussiens (blanc ou colorés).L’un des buts principaux de cette thèse est d’estimer en présence de bruit les coefficients linéaires ainsi que les paramètres non-linéaires du mélange. Dans le cas où un seul signal est observé, nous proposons des estimateurs solutions d’un problème d’optimisation. Afin de quantifier les performances de ces estimateurs en fonction de la qualité des observations, nous établissons des bornes de prédiction et d’estimation valables en grande probabilité. Nous montrons que lorsque les paramètres non-linéaires sont suffisamment séparés au sens d’une métrique riemannienne définie par le dictionnaire, la reconstruction du signal atteint quasiment (à un facteur logarithmique près) les performances obtenues par l’estimateur Lasso dans le cas linéaire où les paramètres des composantes sont connus et n’ont pas besoin d’être estimés. Nous donnons des raffinements de ces résultats pour certains dictionnaires dépendant d’un paramètre d’échelle. Nous illustrons nos résultats à l’aide du modèle de déconvolution de pics gaussiens et du modèle de reconstruction de sources ponctuelles filtrées. En pratique, il est fréquent de disposer d’un ensemble d’observations (éventuellement un continuum) partageant une structure commune. Nous supposerons que les signaux partagent une structure sous-jacente en disant que l’union des composantes actives dans l’ensemble des données est finie. La question se pose de savoir si l’estimation des signaux peut être améliorée en tirant parti de leur structure commune. Nous montrons dans cette thèse que, sous des conditions de séparation entre les paramètres non-linéaires, cette amélioration a lieu. Pour ce faire, nous définissons des estimateurs dont les performances atteignent celles de l’estimateur group-Lasso dans le modèle de régression linéaire multi-tâches où les paramètres non linéaires sont connus et n’ont pas besoin d’être estimés. Ensuite, nous testons si une observation bruitée dérive d’un signal donné et donnons des bornes supérieures non asymptotiques pour le risque de test associé. En particulier, notre test englobe le cadre de la détection de signaux. Nous déduisons une borne supérieure pour l’intensité minimale qu’un signal doit avoir afin d’être détecté en présence de bruit. Il s’avère que, dans ce cadre, notre borne supérieure sur l’intensité minimale correspond (à un facteur logarithmique) à la borne inférieure de la vitesse de séparation pour la détection de signaux dans le modèle linéaire de grande dimension associé à un dictionnaire fini de composantes. Nous proposons également une procédure permettant de tester si les composantes du signal observé appartiennent à une collection finie donnée. Une borne non asymptotique sur le risque de test est donnée. Enfin, nous proposons une nouvelle approche numérique, utilisant nos estimateurs, pour analyser automatiquement et simultanément un ensemble de spectres infrarouges modélisés par des combinaisons linéaires de pics dont la dispersion et la position sont paramétrées. Nous étudions les performances numériques de l’algorithme proposé sur des spectres infrarouges de revêtements en polychloroprène vieillis en milieu marin.