Pretopology and Topic Modeling for Complex Systems Analysis : Application on Document Classification and Complex Network Analysis - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2018

Pretopology and Topic Modeling for Complex Systems Analysis : Application on Document Classification and Complex Network Analysis

Prétopologie et modélisation de sujets pour l'analyse de systèmes complexes : application à la classification de documents et à l'analyse de réseaux complexes

Résumé

The work of this thesis presents the development of algorithms for document classification on the one hand, or complex network analysis on the other hand, based on pretopology, a theory that models the concept of proximity. The first work develops a framework for document clustering by combining Topic Modeling and Pretopology. Our contribution proposes using topic distributions extracted from topic modeling treatment as input for classification methods. In this approach, we investigated two aspects: determine an appropriate distance between documents by studying the relevance of Probabilistic-Based and Vector-Based Measurements and effect groupings according to several criteria using a pseudo-distance defined from pretopology. The second work introduces a general framework for modeling Complex Networks by developing a reformulation of stochastic pretopology and proposes Pretopology Cascade Model as a general model for information diffusion. In addition, we proposed an agent-based model, Textual-ABM, to analyze complex dynamic networks associated with textual information using author-topic model and introduced Textual-Homo-IC, an independent cascade model of the resemblance, in which homophily is measured based on textual content obtained by utilizing Topic Modeling.
Les travaux de cette thèse présentent le développement d'algorithmes de classification de documents d'une part, ou d'analyse de réseaux complexes d'autre part, en s'appuyant sur la prétopologie, une théorie qui modélise le concept de proximité. Le premier travail développe un cadre pour la classification de documents en combinant une approche de topicmodeling et la prétopologie. Notre contribution propose d'utiliser des distributions de sujets extraites à partir d'un traitement topic-modeling comme entrées pour des méthodes de classification. Dans cette approche, nous avons étudié deux aspects : déterminer une distance adaptée entre documents en étudiant la pertinence des mesures probabilistes et des mesures vectorielles, et effet réaliser des regroupements selon plusieurs critères en utilisant une pseudo-distance définie à partir de la prétopologie. Le deuxième travail introduit un cadre général de modélisation des Réseaux Complexes en développant une reformulation de la prétopologie stochastique, il propose également un modèle prétopologique de cascade d'informations comme modèle général de diffusion. De plus, nous avons proposé un modèle agent, Textual-ABM, pour analyser des réseaux complexes dynamiques associés à des informations textuelles en utilisant un modèle auteur-sujet et nous avons introduit le Textual-Homo-IC, un modèle de cascade indépendant de la ressemblance, dans lequel l'homophilie est fondée sur du contenu textuel obtenu par un topic-model.
Fichier principal
Vignette du fichier
2018PSLEP034_archivage.pdf (7.22 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02147578 , version 1 (04-06-2019)

Identifiants

  • HAL Id : tel-02147578 , version 1

Citer

Quang Vu Bui. Pretopology and Topic Modeling for Complex Systems Analysis : Application on Document Classification and Complex Network Analysis. Modeling and Simulation. Université Paris sciences et lettres, 2018. English. ⟨NNT : 2018PSLEP034⟩. ⟨tel-02147578⟩
211 Consultations
275 Téléchargements

Partager

Gmail Facebook X LinkedIn More