Modélisation et analyse des réseaux complexes associées à des informations textuelles : les apports de la prétopologie, du topic modeling et de l’apprentissage automatique à l’étude de la dynamique des réseaux sociaux, la prédiction de liens et la diffusion des sujets
Auteur / Autrice : | Thi Kim Thoa Ho |
Direction : | Marc Bui, Quang Vu Bui |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique, statistiques et cognition |
Date : | Soutenance le 27/11/2020 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale de l'École pratique des hautes études (Paris) |
Partenaire(s) de recherche : | Laboratoire : Cognitions humaine et artificielle (Paris) |
Établissement de préparation de la thèse : École pratique des hautes études (Paris ; 1868-....) | |
Jury : | Président / Présidente : Nahid Emad Petiton |
Examinateurs / Examinatrices : Marc Bui, Quang Vu Bui, Nahid Emad Petiton, Nadia Lynda Mokdad, Soufian Ben Amor, Nadia Kabachi | |
Rapporteurs / Rapporteuses : Nadia Lynda Mokdad, Soufian Ben Amor |
Mots clés
Mots clés contrôlés
Résumé
L’objet de cette thèse porte sur le concept de réseau complexe associé à de l’information textuelle. Nous nous sommes intéressés à l’analyse de ces réseaux avec une perspective d’application aux réseaux sociaux. Notre première contribution a consisté à réaliser un modèle d’analyse pour un réseau social dynamique en utilisant l’approche de modélisation à base d’agents (agent based modeling ou ABM), modèle auteur-sujet du text-mining (« author-topic modeling » ou ATM), et en ayant recours à le cadre mathématique de la prétopologie pour représenter la proximité des sujets. Notre modélisation se nomme Textual-ABM. Notre démarche a été d’utiliser le modèle auteur-sujet pour estimer l’intérêt de l’utilisateur sur la base du contenu textuel et d’employer la prétopologie pour modéliser plusieurs relations et représenter un ensemble de voisinages plus élaboré qu’une simple relation. Notre deuxième contribution concerne la diffusion des informations sur un réseau social « hétérogène ». Nous proposons d’étendre le modèle de diffusion épidémique independant cascade model (IC) et le modèle de diffusion en cascade prétopologique que nous nommons respectivement Textual-Homo-IC et Textual-PCM. Pour Textual-Homo-IC, la probabilité d’infection est basée sur l’homophilie c’est-à-dire l’affiliation à des agents ressemblants, celle-ci est obtenue à partir du contenu textuel en utilisant le modèle de sujet (topic modeling). Pour Textual-PCM, une fonction d’adhérence (pseudo-closure function) avec différentes variantes d’association pour les relations qui la constitue est proposée pour réaliser un ensemble de voisinages plus complexe. En outre, nous proposons d’utiliser l’apprentissage supervisé pour prédire la diffusion d’un sujet avec une combinaison de facteurs intrinsèques ou externes. Notre troisième contribution concerne la présiction des relations entre co-auteurs avec l’ajout d’une nouvelle caractéristique topologique liés aux facteurs géographiques et fonctionnalités de contenu à l’aide du topic modeling. L’ensemble de ces travaux est accompagné d’une partie expérimentale et de la présentation des algorithmes développés.