Analyse et Traitement Automatique des Articles Scientifiques Pour l'Identification et l'Extraction des Jeux de Données

par Seda Ozturk

Projet de thèse en Sciences du Langage, mention Traitement Automatique des Langues

Sous la direction de Iana Atanassova.

Thèses en préparation à Bourgogne Franche-Comté , dans le cadre de LECLA - Lettres, Communication, Langues, Arts , en partenariat avec CRIT - Centre de Recherches Interdisciplinaires et Transculturelles (laboratoire) depuis le 01-10-2017 .


  • Résumé

    Le succès du mouvement Open Access ces dernières années montre la pertinence de ce modèle pour le monde de la recherche. Il s'agit de nouvelles pratiques de l'édition scientifique qui cherchent à fournir un accès libre et gratuit à l'information de la recherche et de faciliter ainsi la diffusion du savoir. Pour aller plus loin, l'Open Science désigne une approche qui vise à rendre universel, libre et gratuit l'accès non seulement aux publications scientifiques, mais aussi à leurs données, méthodologie et résultats pour permettre une meilleure reproductibilité des recherches, faciliter la collaboration entre les chercheurs, et accélérer les découvertes. La recherche scientifique d'aujourd'hui bénéficie de la société d'information et des « big data », à travers l'exploitation de grands jeux de données, qui font partie intégrante des outils actuels pour la génération de nouvelles connaissances. Les informations contenues dans les articles scientifiques sur l'utilisation des jeux de données, leur accessibilité et les résultats obtenus, sont un facteur important pour garantir la reproductibilité de la recherche. Cette thèse a pour objet d'analyser et de traiter automatiquement des articles scientifiques afin d'en extraire de nouvelles méta-données concernant les jeux de données (datasets) et les résultats de la recherche liés à ces jeux de données. Nous étudierons les enjeux de l'Open Science et les différentes phénomènes concernant les articles scientifiques et leurs données, afin de proposer une typologie de jeux de données de la recherche sous forme d'ontologie. Nous mettrons en place une approche automatique pour l'identification des segments textuels se référant aux jeux de données au sein des articles scientifiques. Les nouvelles méta-données, produites suite à cette analyse automatique de corpora scientifiques, seront agrégées sous forme de Open Data afin de proposer de nouveaux outils à destination des chercheurs pour exploiter et analyser la production scientifique d'un domaine.

  • Titre traduit

    Automatic Analysis and Processing Of Scientific Articles for the Identification and the Extraction of Datasets


  • Résumé

    The success of the Open Access movement during the last decade shows the relevance of this model for the research community. The new practices in scientific publishing aim to offer free access to information about research and to foster the dissemination of scientific knowledge. Furthermore, Open Science advocates for the free accessibility of not only research publications, but also their dataset, methods and results in order to enhance the reproducibility of scientific research, facilitate collaboration between researchers and accelerate innovation. Nowadays, scientific research benefits from the information society and Big Data, through the exploitation of big datasets, which are integral part of the current tools for the generation of new knowledge. The information in scientific articles about the use of datasets, their accessibility and the results obtained from them, are a significant factor to guarantee the reproducibility of research. This thesis aims to analyse and to process scientific articles in order to extract new meta-data regarding the datasets and the research results related to these datasets. We will study the challenges facing Open Science and the different phenomena related to scientific papers and their data, in order to propose a typology for datasets in the form of an ontology. We will propose an approach for the automatic identification of textual segments referring to datasets in scientific articles. The new metadata, obtained from these automatic analyses of scientific corpora, will be aggregated in the form of Open Data in order to propose new tools for the exploitation and analysis of the scientific output of a given domain.