Extraction d'Informations dans les réseaux sociaux par apprentissage de représentations textes/images : application à la gestion des catastrophes naturelles
Auteur / Autrice : | Badreddine Farah |
Direction : | Guillaume Cleuziou, Adel Hafiane |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le Soutenance le 08/01/2025 |
Etablissement(s) : | Orléans |
Ecole(s) doctorale(s) : | Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes - MIPTIS |
Partenaire(s) de recherche : | Laboratoire : LIFO - Laboratoire d'Informatique Fondamentale d'Orléans |
Jury : | Examinateurs / Examinatrices : Guillaume Cleuziou, Farah Benamara, Benjamin Piwowarski, Adel Hafiane, Cécile Gracianne, Laure Tougne |
Rapporteurs / Rapporteuses : Farah Benamara, Benjamin Piwowarski |
Mots clés
Résumé
L'essor des réseaux sociaux, comme Twitter, a rendu ces plateformes essentielles pour diffuser des informations en temps réel lors de crises. Des méthodes automatisées de filtrage et de catégorisation de ces publications, basées sur le texte ou les images, ont été développées pour exploiter ces données. Ce travail propose d'intégrer simultanément texte et images des tweets, en fusionnant ces deux modalités. Dans un premier temps, cette thèse explore l'utilisation de plusieurs encodeurs unimodaux et techniques de fusion, tout en procédant à une analyse des tweets afin de mieux comprendre les relations entre les modalités visuelle et textuelle. Cette thèse introduit ensuite une méthode qui convertit les images dans un espace de représentation compatible avec le texte, rendant ainsi la fusion des deux modalités plus efficace et améliorant la robustesse et la performance du modèle. Cette approche est également hybride, permettant au modèle de traiter aussi bien des tweets unimodaux que multimodaux. Cette étude met en évidence un problème courant en apprentissage multimodal : le déséquilibre des modalités, où l'une d'elles domine le processus d'apprentissage. Une méthode d'adaptation a été proposée pour réguler cette dynamique et permettre une progression d'apprentissage plus équilibrée entre les modalités. En plus des avancées méthodologiques, cette thèse présente M-CATNAT, un jeu de données multimodal français qui comble un manque linguistique et multimodal dans les ressources liées aux crises. M-CATNAT offre des annotations détaillées pour le texte, les images et le contenu combiné, fournissant une base pour le traitement des tweets de crise multimodaux en français.