Informed Non-Negative Matrix Factorization for Source Apportionment

par Robert Chreiky

Thèse de doctorat en Automatique, Génie informatique, Traitement du signal et des images

Sous la direction de Gilles Roussel, Antoine Abche et de Gilles Delmaire.

Soutenue le 19-12-2017

à Littoral en cotutelle avec l'Université de Balamand (Tripoli, Liban) , dans le cadre de École doctorale Sciences pour l'Ingénieur (Lille) , en partenariat avec Laboratoire d'informatique, signal et image de la Côte d'Opale (Calais, Pas de Calais) (laboratoire) et de Laboratoire d'Informatique Signal et Image de la Côte d'Opale / LISIC (laboratoire) .

Le président du jury était Dominique Courcot.

Le jury était composé de Gilles Roussel, Antoine Abche, Gilles Delmaire, Stéphane Canu, Chaouki Diab, Nancy Bertin, Elie Karam, Nazih Moubayed.

Les rapporteurs étaient Stéphane Canu, Chaouki Diab.

  • Titre traduit

    Factorisation informées de matrice pour la séparation de sources non-négatives


  • Résumé

    Le démélange de sources pour la pollution de l'air peut être formulé comme un problème de NMF en décomposant la matrice d'observation X en le produit de deux matrices non négatives G et F, respectivement la matrice de contributions et de profils. Généralement, les données chimiques sont entâchées d'une part de données aberrantes. En dépit de l'intérêt de la communauté pour les méthodes de NMF, elles souffrent d'un manque de robustesse à un faible nombre de données aberrantes et aux conditions initiales et elles fournissent habituellement de multiples minimas. En conséquence, cette thèse est orientée d'une part vers les méthodes de NMF robustes et d'autre part vers les NMF informées qui utilisent une connaissance experte particulière. Deux types de connaissances sont introduites dans la matrice de profil F. La première hypothèse est la connaissance exacte de certaines composantes de la matrice F tandis que la deuxième information utilise la propriété de somme-à-1 de chaque ligne de la matrice F. Une paramétrisation qui tient compte de ces deux informations est développée et des règles de mise à jour dans le sous-espace des contraintes sont proposées. L'application cible qui consiste à identifier les sources de particules dans l'air dans la région côtière du nord de la France montre la pertinence des méthodes proposées. Dans la série d'expériences menées sur des données synthétiques et réelles, l'effet et la pertinence des différentes informations sont mises en évidence et rendent les résultats de factorisation plus fiables.


  • Résumé

    Source apportionment for air pollution may be formulated as a NMF problem by decomposing the data matrix X into a matrix product of two factors G and F, respectively the contribution matrix and the profile matrix. Usually, chemical data are corrupted with a significant proportion of abnormal data. Despite the interest for the community for NMF methods, they suffer from a lack of robustness to a few abnormal data and to initial conditions and they generally provide multiple minima. To this end, this thesis is oriented on one hand towards robust NMF methods and on the other hand on informed NMF by using some specific prior knowledge. Two types of knowlodge are introduced on the profile matrix F. The first assumption is the exact knowledge on some of flexible components of matrix F and the second hypothesis is the sum-to-1 constraint on each row of the matrix F. A parametrization able to deal with both information is developed and update rules are proposed in the space of constraints at each iteration. These formulations have been appliede to two kind of robust cost functions, namely, the weighted Huber cost function and the weighted αβ divergence. The target application-namely, identify the sources of particulate matter in the air in the coastal area of northern France - shows relevance of the proposed methods. In the numerous experiments conducted on both synthetic and real data, the effect and the relevance of the different information is highlighted to make the factorization results more reliable.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université du Littoral-Côte d'Opale (Dunkerque, Nord). SCD.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.