Détection de topiques et leur similarité dans les textes scientifiques

par Simon David Hernandez Perez

Thèse de doctorat en Informatique

Sous la direction de Thierry Charnois et de Davide Buscaldi.


  • Résumé

    Pour un chercheur la recherche de documents scientifiques relatifs à l’état de l’art de son domaine est une tâche difficile, notamment en raison de la grande quantité de données publiées qui augmente chaque jour. D’un autre côté l’indexation et la structuration de tels documents sont des tâches couteuses en temps et requièrent une grande expertise et des connaissances des domaines. Actuellement, des services tels que ScienceDirect, Microsoft Academic Graph, Mendeley, Google Scholar, SpringerLink, etc., fournissent des interfaces pour parcourir une vaste collection de publications scientifiques permettant de proposer des articles intéressants pour leurs utilisateurs. Ces servicesreposentprincipalementsurlecontenulexicaldesdocumentsetleurs métadonnées,commelesmots-clés,lesrelationsentreréférences,lescitations et auteurs. L’utilisation de ces informations est efficace lorsque le sujet de rechercheestbienconnuetdesconceptsconventionnelsabordés. Cependant, pour repousser les limites de son champ de recherche, le chercheur fait face à des difficultés lorsqu’il recherche des informations sur des sujets ou concepts non conventionnels. En effet, les systèmes doivent pouvoir traiter des phénomènes linguistiques sémantiques tels que la polysémie et la synonymie, ce qui nécessite de pouvoir mesurer la similarité sémantique entre termes et entre documents. Pour améliorer la mesure de similarité sémantique entre documents scientifiques, il existe des travaux récents portant sur la tâche d’extraction automatique d’expressions-clés (ACL RD-TEC 2.0, SemEval 2017 tâche 10). Ces travaux utilisent des approches supervisées et non supervisées, principalement basées sur des méthodes heuristiques (comme les méthodes de ranking, les règles, les expressions régulières), les approches probabilistes (telles que les CRF), les approches de classification ou de clustering, et les réseaux neuronaux (tels que LSTM), ces derniers offrant les meilleurs résultats. Pour calculer la mesure de similarité sémantique entre termes et documents, des approches statistiques (telles que LSA, PMI, LDA), Word Embeddings (notamment Word2Vec, FastText, GloVe) sont souvent combinées avec des ressources ontologiques (telles que WordNet, ConceptNetnumberbatch). De plus, des efforts notables ont été déployés pour fournir des données expérimentales publiques (ArnetMiner). Dans ce contexte, notre première contribution concerne les résultats expérimentaux de l’utilisation de séquences d’étiquettes de catégorie grammaticale pour filtrer des candidates d’expressions-clés dans des documents scientifiques. Nous avons amélioré de manière satisfaisante les performances du CRF entraîné avec ces candidats filtrés. Nous avons ainsi extrait un ensemble de séquences d’étiquettes de catégorie grammaticale pour filtrer des candidats à partir de textes scientifiques. De plus, nous avons implémenté notreapprochedansunlogiciellibreaccessibleaupublic. Nousavonsanalysé les corrélations des mesures de similitude des documents et constaté que la mesure des centroïdes de similarité des Word Embeddings se comporte de la mêmemanièreenutilisantdesmotsetdesexpressions-clés. Nousavonségalementgénéréunsous-ensemblederésumésscientifiquesàpartird’ArnetMiner contenantdesconcepts(expressions-clésoutermes)avecdifférentesreprésentationslexicales. Cesconceptssontdesexpressions-clés,extraitesenutilisant notre approche et notre outil, et correspondent aux termes des redirections Wikipédia.

  • Titre traduit

    Topic detection and similarity from scientific literature


  • Résumé

    Nowadays, it is increasingly difficult for researchers to find the state of the art of their respective fields of study, mostly due to the amount of scientific documents generated in the world every day. It is challenging and highly time-consuming to curate and index scientific literature, mostly because it is required wide knowledge and expertness. Currently, there are services like ScienceDirect, Microsoft Academic Graph, Mendeley, Google Scholar, SpringerLink, etc., providing interfaces to browse along a vast collections of scientific publications facilitating and suggesting articles of interest to their users. Those services rely mostly on the lexical content of the documents and their metadata, like keywords, relationships between references, citations and authors. Using that information is effective when the topic to search is widely known and conventional concepts are addressed. Considering,researchers’workdemandstopushtheboundariesoftheirfieldsofstudy, problems emerge when they need to find information about unconventional concepts, a situation that is not strange. Under this circumstance, there are distinct phenomena affecting the results in the semantic level, i.e., polysemy and synonymy, therefore, it is needed to measure semantic similarity on the content of the documents. In the interest of easing the measuring of semantic similarity between scientific documents, there are recent works addressing the task of automatic keyphrase extraction (ACL RD-TEC 2.0, SemEval 2017 Task 10), usingsupervisedandunsupervisedapproaches,mostly,basedonheuristics(like ranking methods, rules, regular expressions), probabilistic approaches (like CRFs), classification or clusterization, and neural networks (like LSTM), being the latter the ones providing best results. To measure semantic similarity between terms and documents, there are statistical approaches (like LSA, PMI, LDA), Word Embeddings (like Word2Vec, FastText, GloVe) in combination with ontological resources (like WordNet, ConceptNet numberbatch). In addition, given that the access to scientific literature is usually restricted, there are notables efforts to concentrate public experimental data (ArnetMiner).In this context, our first contribution is the experimental results of using part-of-speech tag sequences to filter candidate keyphrases in scientific documents. We improved satisfactorily the performance of CRFs trained using those filtered candidates. We extracted a set of part-of-speech tag sequences to filter candidates from scientific texts. Additionally, we implemented our approach in an open-source software package publicly available. We analized correlations of document similarity measures and find that measuring similarity centroids of word embeddings behave similarly using words and keyphrases. We also generated a subset of scientific abstracts from ArnetMiner containing concepts (keyphrases or terms) with different lexical representations. Those concepts are extracted keyphrases, using our approach and package, matching terms from Wikipedia redirections.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.