Thèse soutenue

Toward Automatic Fact-Checking of Statistic Claims
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Tien Duc Cao
Direction : Ioana Gabriela Manolescu GoujotXavier Tannier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 26/09/2019
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020) - Institut national de recherche en informatique et en automatique (France). Unité de recherche (Saclay, Ile-de-France)
Jury : Président / Présidente : Philippe Pucheral
Examinateurs / Examinatrices : Ioana Gabriela Manolescu Goujot, Xavier Tannier, Philippe Pucheral, Nathalie Aussenac-Gilles, Paolo Papotti, Julien Leblay, Philippe Lamarre
Rapporteurs / Rapporteuses : Nathalie Aussenac-Gilles, Paolo Papotti

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

La thèse vise à explorer des modèles et algorithmes d'extraction de connaissance et d'interconnexion de bases de données hétérogènes, appliquée à la gestion de contenus tels que rencontrés fréquemment dans le quotidien des journalistes. Le travail se déroulera dans le cadre du projet ANR ContentCheck (2016-2019) qui fournit le financement et dans le cadre duquel nous collaborons aussi avec l'équipe "Les Décodeurs" (journalistes spécialisés dans le fact-checking) du journal Le Monde.La démarche scientifique de la thèse se décompose comme suit:1. Identifier les technologies et domaines de gestion de contenu (texte, données, connaissances) intervenant de façon recurrente (ou dont le besoin est ressenti comme important) dans l'activité des journalistes.Il est par exemple déjà clair que ceux-ci ont l'habitude d'utiliser "en interne" quelques bases de données construites par les journalistes eux-mêmes ; ils disposent aussi d'outils internes (à la rédaction) de recherche par mots-clé ; cependant, ils souhaiterait augmenter leur capacité d'indexation sémantique...Parmi ces problèmes, identifier ceux pour lesquels des solutions techniques (informatiques) sont connues, et le cas échéant mis en oeuvre dans des systèmes existants.2. S'attaquer aux problèmes ouverts (sur le plan de la recherche), pour lesquels des réponses satisfaisantes manquent, liés à la modélisation et à l'algorithmique efficace pour des contenus textuels, sémantiques, et des données, dans un contexte journalistique.