Thèse soutenue

L'inférence bayésienne dans le cadre de l'analyse des formes 2D et 3D

FR  |  
EN
Auteur / Autrice : Anis Fradi
Direction : Chafik SamirLeila Ben Abdelghani
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 07/07/2021
Etablissement(s) : Université Clermont Auvergne (2021-...) en cotutelle avec Université de Monastir (Tunisie)
Ecole(s) doctorale(s) : École doctorale des sciences pour l'ingénieur (Clermont-Ferrand)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes
Jury : Président / Présidente : Engelbert Mephu-Nguifo
Examinateurs / Examinatrices : Wen Huang
Rapporteurs / Rapporteuses : Julien Jacques, Sana Louhichi

Résumé

FR  |  
EN

La thèse se décompose en deux parties principales: i) Statistiques non paramétriques sur les espaces en grande dimension et fonctionnels, et ii) Statistiques non paramétriques sur les variétés riemanniennes. Dans cette partie, nous allons résumer les contributions majeures de la thèse. Statistiques non paramétriques sur les espaces en grande dimension et fonctionnels Dans le domaine d'apprentissage statistique, nous introduisons une nouvelle notion intitulée: processus gaussien de classification évolutif. Le modèle proposé est plus général que le processus gaussien de classification standard pour représenter et classer des données appartenant à des espaces de grande dimension. Il a l'avantage d'apprendre les hyper-paramètres de la fonction qui transforme les données initiales sur un espace de dimension faible et ceux du processus gaussien de classification à travers sa fonction de covariance à la fois, avec plusieurs méthodes d'optimisation. La fonction de covariance modifiée, définie sur le nouveau espace des données transformées, est plus expressive car la métrique euclidienne devient plus informative. Pour résumer, notre formulation prend en considération la non-linéarité/forte corrélation des données et augmente la séparabilité entre elles grâce au Théorème du représentant. Afin d'estimer les hyper-paramètres du modèle proposé, nous maximisons la vraisemblance marginale. Contrairement à la régression, le calcul de la vraisemblance marginale exacte reste difficile et même impossible dans le cas de classification à cause des vraisemblances discrètes. Ainsi, nous introduisons deux méthodes pour approximer une distribution a posteriori non gaussienne par une gaussienne afin d'améliorer l'efficacité et l'évolutivité du processus gaussien. Pour les données fonctionnelles et même vectorielles en grande dimension, nous introduisons également la notion de processus gaussiens indexé par les fonctions de densité de probabilité. Nous montrerons comment les processus gaussiens peuvent être également définis sur des espaces fonctionnelles, en particulier celle de densités de probabilité muni de la métrique de Fisher-Rao. Plus précisément, nous étendrons les méthodes traditionnelles de statistiques non paramétriques par processus gaussiens de vecteurs finis dans les espaces euclidiens aux espaces des fonctions sous des contraintes munies des métriques riemanniennes. Notre motivation est que plusieurs catégories d'observations peuvent être représentées par des densités de probabilité avec plus d'avantages que des entrées vectorielles ou fonctionnelles brutes. Ce choix est très important pour plusieurs raisons. D'abord, les densités de probabilité permettent de simplifier la formulation du problème en identifiant les données vectorielles ou fonctionnelles initiales, qui sont difficiles à interpréter, par leurs occurrences ou leurs probabilités. Ensuite, les densités de probabilité améliorent la visualisation des distributions locales de données. Enfin, lorsqu'il s'agit des données fortement corrélées (caractéristiques répétitives) nous pouvons plutôt visualiser leurs densités de probabilité pour ajuster l'asymétrie des données initiales.Applications: Classification d'images (cancer du sein/boites métalliques/courbes de croissance/feuilles de maïs/température des animaux) et des vidéos (détection de violence). Statistiques non paramétriques sur les variétés riemanniennes. (...)