Thèse soutenue

Modèles linéaires pour données fonctionnelles multivariées

FR  |  
EN
Auteur / Autrice : Issam Moindjié
Direction : Cristian PredaSophie Dabo-Niang
Type : Thèse de doctorat
Discipline(s) : Mathématiques et leurs interactions
Date : Soutenance le 18/12/2023
Etablissement(s) : Université de Lille (2022-....)
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)
Partenaire(s) de recherche : Laboratoire : Centre Inria de l'Université de Lille - Laboratoire Paul Painlevé
Jury : Président / Présidente : Ndèye Niang-Keita
Examinateurs / Examinatrices : Azzouz Dermoune
Rapporteurs / Rapporteuses : Mustapha Rachdi, Yousri Slaoui

Résumé

FR  |  
EN

Le cadre méthodologique de cette thèse est l'analyse de données fonctionnelles. Nous nous intéressons particulièrement au problème de la prédiction d'une variable réelle ou catégorielle à l'aide de variables fonctionnelles multivariées. Dans la littérature existante, les méthodes ont souvent recours au cadre restrictif du domaine unique. Il signifie que chaque dimension de la variable fonctionnelle multivariée a le même domaine de définition. Cette hypothèse limite leurs utilisations pour un certain nombre de domaines d'application. En effet, l'émergence des nouvelles technologies de collecte et de stockage de données a permis l'observation de plusieurs caractéristiques fonctionnelles, parfois de type différent, pour un même individu statistique. Pour répondre à la problématique de prédiction avec ce type de variables, nous proposons des méthodes basées sur la régression PLS : MFPLS et TMFPLS. Le premier est une extension de l'algorithme PLS au cas des données fonctionnelles multivariées explicatives, où les dimensions sont potentiellement définies sur différents domaines. Cette méthode peut être utilisée pour la régression et la classification binaire. La deuxième méthode : TMFPLS, est un arbre de décision qui permet de répondre à des tâches de classification plus complexes (relation non-linéaire entre la variable à prédire et les variables explicatives, plusieurs classes tolérées). Ces méthodes peuvent couvrir un éventail de problèmes dans les applications, cependant, les interpréter devient difficile lorsque les données explicatives ont de nombreuses dimensions. C'est le cas typiquement lorsque plusieurs capteurs sont utilisés pour mesurer une variable fonctionnelle suivant plusieurs localisations. Ou plus généralement, lorsque l'on a à faire à des données fonctionnelles répétées. Dans ce cas, nous présentons des méthodes parcimonieuses basées sur la pénalité fusion permettant d'obtenir une meilleure interprétation des modèles. Les applications sur des données simulées et données réelles (EEG, ECG, etc.) ont permis de démontrer la bonne performance de nos méthodes.