Méthodes étendues de factorisation informée de matrices ou tenseurs (semi-) non-négatifs pour l'analyse de données incomplètes et de grande dimension : Application au traitement de données issues du mobile crowdsensing
Auteur / Autrice : | Farouk Yahaya |
Direction : | Gilles Roussel, Matthieu Puigt |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et technologies de l’information et de la communication. Informatique, automatique |
Date : | Soutenance le 19/11/2021 |
Etablissement(s) : | Littoral |
Ecole(s) doctorale(s) : | École doctorale Sciences, technologie et santé (Amiens) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique, signal et image de la Côte d'Opale (Calais, Pas de Calais) - Laboratoire d'Informatique Signal et Image de la Côte d'Opale |
financeur : Hauts-de-France. Conseil régional | |
Jury : | Président / Présidente : Rémy Boyer |
Examinateurs / Examinatrices : André Ferrari, Olivier Michel, Emilie Chouzenoux | |
Rapporteurs / Rapporteuses : André Ferrari, Olivier Michel |
Mots clés
Mots clés contrôlés
Résumé
La pollution de l’air pose d’importants problèmes de santé avec plusieurs centaines de milliers de décès prématurés en Europe chaque année. Une surveillance efficace de la qualité de l’air est donc une tâche majeure pour les agences environnementales. Elle est généralement effectuée par des stations de surveillance très précises. Cependant, ces stations sont coûteuses et en nombre limité, offrant ainsi une faible résolution spatio-temporelle. Le déploiement de capteurs low-cost (LCS) promet une solution complémentaire à moindre coût et à plus haute résolution spatio-temporelle. Malheureusement, les LCS ont tendance à dériver avec le temps et leur nombre élevé empêche un étalonnage régulier en laboratoire. Des techniques basées sur les données nommées étalonnage in situ ont ainsi été proposées. En particulier, revisiter l’étalonnage des capteurs mobiles commeun problème de factorisation matricielle semble prometteur. Cependant, les approches existantes sont basées sur des méthodes lentes – elles ne sont pas adaptées aux problèmes à grande échelle impliquant des centaines de capteurs déployés sur une vaste zone – et sont conçues pour des déploiements à court terme. Pour résoudre ces deux problèmes, des factorisations matricielles non-négatives comprimées ont été proposées dans cette thèse, qui est divisée en deux parties. Dans la première partie, nous étudions l’amélioration apportée par les projections aléatoires pour la factorisation matricielle non-négative pondérée. Nous montrons que ces techniques peuvent accélérer considérablement les méthodes de factorisation matricielle à grande échelle et de faible rang, permettant ainsi l’estimation rapide des entrées manquantes dans les matrices de faible rang. Dans la deuxième partie, nous revisitons l’étalonnage de capteurs hétérogènes mobiles comme une factorisation informée de grandes matrices avec des entrées manquantes. Nous proposons ainsi des approches de factorisation matricielle informées rapides, et en particulier des extensions informées des méthodes comprimées proposées dans la première partie, qui s’avèrent bien adaptées au problème considéré.