Thèse soutenue

Induction non-supervisée de schémas d’évènements à partir de textes journalistiques

FR  |  
EN
Auteur / Autrice : Swen Ribeiro
Direction : Xavier Tannier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/03/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : référent : Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....)
Laboratoire : Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020)
Jury : Président / Présidente : Karine Bennis-Zeitouni
Examinateurs / Examinatrices : Philippe Langlais, Antoine Doucet, Olivier Ferret, Kata Gábor
Rapporteurs / Rapporteuses : Philippe Langlais, Antoine Doucet

Résumé

FR  |  
EN

L'événement est un concept central dans plusieurs tâches du Traitement Automatique des Langues, en dépit de l'absence d'une définition unifiée de ce que recouvre cette notion. Le traitement des événements s'est structuré sous l'égide des campagnes d'évaluation MUC (Message Understanding Conference), qui fournissaient des structures de référence appelées schémas (templates), se présentant sous la forme d'un titre et d'une collection d'arguments (slots), chacun représentant un élément caractéristique de l'événement décrit (par exemple l'épicentre d'un séisme). La création de ces schémas requiert une connaissance experte et est donc longue, coûteuse et difficile à étendre à un large ensemble de domaines de spécialité.En parallèle de ces travaux, la quantité de données produites par les individus et les organisations a crû de manière exponentielle, ouvrant des perspectives applicatives inédites. Cette croissance a notamment favorisé l'essor d'un nouveau paradigme journalistique appelé journalisme de données (data-journalism).Le présent travail se propose d'induire, à partir d'un grand volume de texte journalistique et sans supervision, des représentations synthétiques d'événements journalistiques comparables aux templates des campagnes MUC, dans l'objectif de faciliter l'exploitation de grandes masses de données par des journalistes des données. Pour ce faire, nous suivons une approche ascendante divisée en trois grandes étapes. Dans la première étape, nous groupons ensemble les nombreuses mentions textuelles relatant la même réalisation d'un événement, identifiée dans le temps et l'espace et appelée instance. La deuxième étape vise à s'abstraire des caractéristiques spatio-temporelles de chaque instance pour les grouper en grands types d'événements. Enfin, la dernière étape de cette contribution vise à extraire les éléments caractéristiques de chaque type d'événement induit afin d'en proposer une représentation synthétique assimilable à un schéma d'événement.