Contributions à la factorisation en matrices non-négatives probabiliste — Estimation par maximum de vraisemblance marginale et modèles markoviens temporels
Auteur / Autrice : | Louis Filstroff |
Direction : | Cédric Févotte |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, Image, Acoustique et Optimisation |
Date : | Soutenance le 13/11/2019 |
Etablissement(s) : | Toulouse, INPT |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, informatique et télécommunications (Toulouse) |
Partenaire(s) de recherche : | Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....) |
Jury : | Président / Présidente : Elisabeth Gassiat |
Examinateurs / Examinatrices : Cédric Févotte, Éric Gaussier, Pierre Alquier, Joseph Salmon | |
Rapporteur / Rapporteuse : Éric Gaussier, Pierre Alquier |
Mots clés
Résumé
La factorisation en matrices non-négatives (NMF, de l’anglais non-negative matrix factorization) est aujourd’hui l’une des techniques de réduction de la dimensionnalité les plus répandues, dont les domaines d’application recouvrent le traitement du signal audio, l’imagerie hyperspectrale, ou encore les systèmes de recommandation. Sous sa forme la plus simple, la NMF a pour but de trouver une approximation d’une matrice des données non-négative (c’est-à-dire à coefficients positifs ou nuls) par le produit de deux matrices non-négatives, appelées les facteurs. L’une de ces matrices peut être interprétée comme un dictionnaire de motifs caractéristiques des données, et l’autre comme les coefficients d’activation de ces motifs. La recherche de cette approximation de rang faible s’effectue généralement en optimisant une mesure de similarité entre la matrice des données et son approximation. Il s’avère que pour de nombreux choix de mesures de similarité, ce problème est équivalent à l’estimation jointe des facteurs au sens du maximum de vraisemblance sous un certain modèle probabiliste décrivant les données. Cela nous amène à considérer un paradigme alternatif pour la NMF, dans lequel les taches d’apprentissage se portent sur des modèles probabilistes dont la densité d’observation est paramétrisée par le produit des facteurs non-négatifs. Ce cadre général, que nous appelons NMF probabiliste, inclut de nombreux modèles à variables latentes bien connus de la littérature, tels que certains modèles pour des données de compte. Dans cette thèse, nous nous intéressons à des modèles de NMF probabilistes particuliers pour lesquels on suppose une distribution a priori pour les coefficients d’activation, mais pas pour le dictionnaire, qui reste un paramètre déterministe. L'objectif est alors de maximiser la vraisemblance marginale de ces modèles semi-bayésiens, c’est-à-dire la vraisemblance jointe intégrée par rapport aux coefficients d’activation. Cela revient à n’apprendre que le dictionnaire, les coefficients d’activation pouvant être inférés dans un second temps si nécessaire. Nous entreprenons d’approfondir l’étude de ce processus d’estimation. En particulier, deux scénarios sont envisagées. Dans le premier, nous supposons l’indépendance des coefficients d’activation par échantillon. Des résultats expérimentaux antérieurs ont montré que les dictionnaires appris via cette approche avaient tendance à régulariser de manière automatique le nombre de composantes ; une propriété avantageuse qui n’avait pas été expliquée alors. Dans le second, nous levons cette hypothèse habituelle, et considérons des structures de Markov, introduisant ainsi de la corrélation au sein du modèle, en vue d’analyser des séries temporelles