Analyse multimodale de situations conflictuelles en contexte véhicule
Auteur / Autrice : | Quentin Portes |
Direction : | Frédéric Lerasle, Julien Pinquier |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 30/06/2022 |
Etablissement(s) : | Toulouse 3 |
Ecole(s) doctorale(s) : | École doctorale Systèmes (Toulouse ; 1999-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Analyse et d'Architecture des Systèmes (Toulouse ; 1968-....) - Institut de Recherche en Informatique de Toulouse (1995-....) |
Jury : | Examinateurs / Examinatrices : Georges Quénot |
Rapporteur / Rapporteuse : Bruno Emile, Pascale Sébillot |
Mots clés
Résumé
Dans cette thèse nous étudions les interactions humaines afin d'identifier des situations conflictuelles dans l'habitacle d'un véhicule. Les humains utilisent le plus communément la vue et l'ouïe pour analyser les interactions. Cette tâche paraît anodine, mais reste complexe pour un modèle d'intelligence artificielle. Celui-ci doit capturer les informations vidéo et audio et les analyser pour prédire une situation conflictuelle. Notre approche est nouvelle en regard des recherches réalisées jusque-là sur ce sujet puisque les passagers sont contraints dans leurs mouvements dans l'habitacle et que la puissance de calcul embarqué pour cette tâche est limitée. Aucuns travaux, à notre connaissance, ne se sont intéressés à l'analyse des interactions humaines pour la détection de situations conflictuelles dans ce contexte et avec ces contraintes. Nos investigations s'appuient tout d'abord sur un corpus public d'analyse de sentiment pour se comparer à la littérature. Nous implémentons un modèle capable d'ingérer des données vidéo, audio et textes (transcription de l'audio) pour les fusionner et prendre une décision. Dans notre contexte applicatif, nous enregistrons par la suite un jeu de données multimodal d'interactions humaines simulant des situations plus ou moins conflictuelles dans un habitacle de véhicule. Cette base de données est exploitée afin d'implémenter des modèles de classification de bout-en-bout et paramétrique. Les résultats obtenus sont cohérents avec la littérature sur l'impact de chaque modalité sur les performances du système. Ainsi, le texte est respectivement plus informatif que l'audio et que la vidéo. Les différentes approches de fusion implémentées montrent des bénéfices notables sur les performances de classification mono-modalité.