Application of large random matrices to multivariate time series analysis

par Daria Tieplova

Thèse de doctorat en Mathématiques

Sous la direction de Philippe Loubaton.

  • Titre traduit

    Application des grandes matrices aléatoires aux séries temporelles multivariables


  • Résumé

    Des techniques issues du domaine des grandes matrices aléatoires ont été récemment utilisées afin d'aborder des problèmes de traitement du signal en grande dimension. Dans leur grande majorité, les travaux correspondants ont étudié des schémas d'estimation basés sur des fonctionnelles de la matrice de covariance empirique des observations. Cependant, de nombreux problèmes mettant en jeu des séries temporelles de grande dimension font naturellement apparaître des matrices plus générales que les matrices de covariance empirique. Le but de cette thèse est d'étudier les valeurs singulières de deux types de grandes matrices aléatoires jouant un rôle fondamental en statistiques des séries temporelles multivariables, et de déduire des résultats un nouvelle approche permettant d'estimer la dimension minimale des représentations d'état d'un certain type de série temporelle de grande dimension à spectre rationnel. Plus précisément, l'observation y_n est supposée être une version bruitée d'une série temporelle (u_n)_{nin Z} de dimension M dont la densité spectrale est rationnelle et de rang déficient, le bruit additif (v_n)_{nin Z} étant supposé être blanc et gaussien complexe de matrice de covariance inconnue. Dans ce contexte, il est tout à fait fondamental d'être capable d'estimer de façon consistante la dimension minimale P des représentations d'état de u à partirdes N observations y_1,y_2,...,y_N. Si L>P, les approches les plus traditionnelles sont basées sur le fait que P coïncide avec le rang de la matrice d'autocovariance R^L_{f|p} entre les vecteurs de dimension ML (y_{n+L}^T,..,y_{n+2L-1}^T)^T et (y_n^T,..,y_{n+L-1}^T)^T, mais aussi avec le nombre de valeurs singulières non nulles de la matrice normalisée C^L = (R^L)^{-1/2}R^L_{f|p} (R^L)^{-1/2}, où R^L représente la matrice de covariance des 2 vecteurs qui viennent d'être introduits. Dans le régime asymptotique usuel dans lequel N->+infty et M et L restent fixes, les matrices R^L_{f|p} et C^L peuvent être estimées par leurs versionsempiriques hat{R}^L_{f|p} et hat{C}^L, et P peut être évalué à partir des plus grandes valeurs singulières de ces estimateurs. Dans le régime des grandes dimensions dans lequel M et N->+infty de telle sorte que ML/N converge vers 0<c*<1, L étant fixe, hat{R}^L_{f|p} et hat{C}^L ne sont plus des estimateurs consistants de R^L_{f|p} et C^L. Dans ces conditions, il n'est pas évident qu'il soit toujours possible d'estimer P à partir des valeurs singulières de ces matrices. Dans cette thèse, le comportement des valeurs singulières de hat{R}^L_{f|p} et hat{C}^L est étudiée dans le régime des grandes dimensions.Le cas où u=0 est tout d'abord considéré. Il est établi que les distributions empiriques des valeurs singulières de hat{R}^L_{f|p} et hat{C}^L convergent vers une limitedont les supports S_R et S_C sont caractérisés. Il est montré que S_C=[0,2sqrt{c*(1-c*)}]&{1}{bf 1}_{c*>1/2}, et que S_R a une structure plus compliquée. De plus, toutes les valeurs singulières de hat{R}^L_{f|p} et hat{C}^L sont situées au voisinage de S_R et S_C respectivement. Si u est non nul, la dégénérescence du rang de la densité spectrale de u est utilisée pour étudier si certaines valeurs singulières de hat{R}^L_{f|p} et hat{C}^L s'échappent de S_R et S_C. Il est montré que le nombre de valeurs singulières de hat{R}^L_{f|p} situées en dehors de S_R n'est pas directement relié à P, mais que, P coïncide avec le nombre de valeurs singulières de hat{C}^L qui sont plus grandes que 2sqrt{c*(1-c*)} si c*<1/2, si le signal est suffisamment puissant par rapport au bruit, et si les valeurs singulières non nulles de C^L sont suffisamment grandes. Ces résultats impliquent que les valeurs singulières de hat{R}^L_{f|p} ne peuvent pas être utilisées pour estimer P dans le régime des grandes dimensions. Par contre, moyennant quelques hypothèses, P peut être estimé de façon consistante par le nombre de valeurs singulières de hat{C}^L qui sont plus grandes que 2sqrt{c*(1-c*)}


  • Résumé

    A number of recent works proposed to use large random matrix theory in the context of high-dimensional statistical signal processing, traditionally modeled by a double asymptotic regime in which the dimension of the time series and the sample size both grow towards infinity. These contributions essentially addressed detection or estimation schemes depending on functionals of the sample covariance matrix of the observation. However, fundamental high-dimensional time series problems depend on matrices that are more complicated than the sample covariance matrix. The purpose of the present PhD is to study the behaviour of the singular values of 2 kinds of structured large random matrices, and to use the corresponding results to address an important statistical problem. More specifically, the observation (y_n)_{nin Z} is supposed to be a noisy version of a M-dimensional time series (u_n)_{nin Z} with rational spectrum that has some particular low rank structure, the additive noise (v_n)_{nin Z} being an independent identically distributed sequence of complex Gaussian vectors with unknown covariance matrix. An important statistical problem is the estimation of the minimal dimension P of the state space representations of u from N samples y_1,.., y_N. If L is any integer larger than P, the traditional approaches are based on the observation that P coincides with the rank of the autocovariance matrix R^L_{f|p} between the ML-dimensional random vectors (y_{n+L}^T,..,y_{n+2L-1}^T)^T and (y_{n}^T,.., y_{n+L-1}^T)^T, as well as with the number of non zero singular values of the normalized matrix C^L = (R^L)^{-1/2}R^L_{f|p} (R^L)^{-1/2} where R^L represents the covariance matrix of the above ML-dimensional vectors. In the low-dimensional regime where N->+infty while M and L are fixed, the matrices R^L_{f|p} and C^L can be consistently estimated by their empirical counterparts hat{R}^L_{f|p} and hat{C}^L, and P can be evaluated from the largest singular values of hat{R}^L_{f|p} and hat{C}^L. If however M and N->+infty in such a way that ML/N converges towards 0< c*<=1, L being fixed, the above estimates hat{R}^L_{f|p} and hat{C}^L do not converge towards their true values in the spectral norm sense. It is therefore not obvious whether the largest singular valuesof hat{R}^L_{f|p} and hat{C}^L can be used in order to estimate P consistently. In this thesis, the behaviour of the singular values of hat{R}^L_{f|p} and hat{C}^L in the above high-dimensional regime are studied.The case where u=0 is first considered and it is established that the empirical singular values distribution of hat{R}^L_{f|p} and hat{C}^L converge towards a limit.The supports S_R and S_C of the corresponding limit distributions are characterized: it is proved that S_C = [0, 2sqrt{c*(1-c*)}] cup { 1}{bf 1}_{c*>1/2} and that the structure of S_R is more intricate. It is moreover established that all the singular values of hat{R}^L_{f|p} and hat{C}^L are located in the neighbourhood of S_R and S_C respectively. When u is present, the low rank structure of u is used in order to study whether some singular values of hat{R}^L_{f|p} and hat{C}^L escape from S_R and S_C} It is shown that the number of singular values of hat{R}^L_{f|p} located outside S_R is not directly related to P, while, fortunately, P coincides with the number of singular values of hat{C}^L that are larger than 2sqrt{c*(1-c*)}, provided c*<1/2, the signal u is powerfull enough compared to the noise and the non zero singular values of C^L are large enough. These results imply that while the singular values of hat{R}^L_{f|p} can be used in order to estimate P consistently in the standard low-dimensional regime, this is no longer the case in the high-dimensional context considered here. Fortunately, under certain assumptions, P canstill be consistently estimated as the number of singular values of hat{C}^L that are larger than 2 sqrt{c*(1-c*)}


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Communautés d’Universités et d'Etablissements Université Paris-Est. Bibliothèque universitaire.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.