Thèse soutenue

Extraction et catégorisation de l'information temporelle de textes scientifiques

FR  |  
EN
Auteur / Autrice : Salah Yahiaoui
Direction : Iana Atanassova
Type : Thèse de doctorat
Discipline(s) : Sciences du Langage. Traitement Automatique des Langues
Date : Soutenance le 08/12/2023
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Lettres, Communication, Langues, Arts (Dijon ; Besançon ; 2017-....)
Partenaire(s) de recherche : établissement de préparation : Université de Franche-Comté (1971-2024)
Laboratoire : Centre de recherches interdisciplinaires et transculturelles (Besançon)
Jury : Président / Présidente : Mohamed Hassoun
Examinateurs / Examinatrices : Sylviane Cardey-Greenfield, Marc Bertin
Rapporteurs / Rapporteuses : Cyril Labbé, Guillaume Cabanac

Résumé

FR  |  
EN

Cette thèse aborde la problématique du traitement de corpus scientifiques, d’un point de vue linguistique, afin d’en extraire, catégoriser et agréger les informations spatio-temporelles pour produire de nouvelles représentations de l’information textuelle. Dans un premier temps, nous proposons le schéma d'annotation TimeInfo, qui permet de rendre compte de la sémantique des différentes expressions temporelles dans les textes scientifiques. Nous montrons l'apport de TimeInfo par rapport aux schémas d'annotation existants, notamment TimeML. Dans un deuxième temps, nous construisons des ensembles de règles linguistiques pour l'annotation automatique des corpus scientifiques avec TimeInfo. Nous traitons le corpus CORD-19 et produisons un nouveau corpus annoté, TimeTank. Enfin, nous proposons des applications autour de TimeInfo et abordons la problématique des informations spatiales, par une expérimentation sur leur annotation et cartographie.