Thèse soutenue

Apprentissage Profond explicable Application sur les données multimodales

FR  |  
EN
Auteur / Autrice : Rupayan Mallick
Direction : Jenny Benois-PineauAkka Zemmari
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 20/10/2023
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale Mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire bordelais de recherche en informatique
Jury : Président / Présidente : Pascal Desbarats
Examinateurs / Examinatrices : Cathal Gurin
Rapporteurs / Rapporteuses : Alexandre Benoît, Chaabane Djeraba

Résumé

FR  |  
EN

Le travail présenté dans cette thèse peut être divisé en deux parties. La première partie concerne le développement d’un réseau multimodal destiné à l’application de la détection des risques des personnes fragiles dans l’environnement à domicile. Les données consistent en des vidéos égocentriques et des signaux acquis à partir de divers capteurs physiologiques et de mouvement. Comme l’acquisition des données se fait dans un scénario réel, l’utilisation de ces données complexes dans des réseaux multimodaux pose plusieurs problèmes : i) la faible synchronisation des données entre les modalités, ii) l’absence de données, iii) la compréhension de la représentation entre les modalités. Pour développer un réseau véritablement multimodal, nous nous concentrons d’abord sur les composants uni-modaux, concevons et évaluons nos modèles sur des ensembles de données uni-modales libres d’accès. Ensuite, les modèles sont fusionnés dans une architecture multimodale pour prendre des décisions sur des données multimodales réelles. L’une des configurations que nous avons proposées est un transformer multimodal. Les deux formes de fusion d’informations ont été étudiées : i) la fusion intermédiaire dans l’espace des caractéristiques et ii) la fusion tardive dans l’espace de décision. Dans la deuxième partie de la thèse, nous développons des méthodes d’explicitation pour les transformers, plus particulièrement les transformers visuels. Nous avons évalué notre méthode en termes de plausibilité des explications obtenues par rapport aux cartes de densité de fixations du regard humain. Cette partie du travail a été réalisée sur un ensemble de données d’images fixes. Notre objectif étant de développer des solutions pour l’analyse d’informations temporelles, telles que la vidéo, et sur la base de la philosophie de l’importance par l’explication, nous avons proposé un modèle pour mettre en évidence l’importance temporelle des images dans la vidéo. Ce modèle a été utilisé sur les données visuelles du système de détection des risques et comparé à un ensemble de données à grande échelle sur les actions humaines. Ensuite, nous tirons parti de notre méthode d’explicabilité proposée et l’utilisons pour une meilleure généralisation du transformer multimodal proposé. En effet, l’utilisation de techniques d’explicabilité dans les transformers multimodaux permet d’augmenter la précision de ces classificateurs sur des données complexes du monde réel et ouvre des perspectives intéressantes pour les études sur l’éparcité et la robustesse de ces approches.