Thèse soutenue

Construction dynamique incrémentale de graphes de connaissances par fouille de contenus

FR  |  
EN
Auteur / Autrice : Cyrielle Mallart
Direction : Pascale SébillotGuillaume Gravier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/11/2022
Etablissement(s) : Rennes, INSA
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Entreprise : Ouest-France (périodique)
Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes)
Jury : Président / Présidente : Anne Vilnat
Examinateurs / Examinatrices : Pascale Sébillot, Guillaume Gravier, Anne Vilnat, Frédéric Béchet, Xavier Tannier, Pierre-François Marteau
Rapporteurs / Rapporteuses : Frédéric Béchet, Xavier Tannier

Résumé

FR  |  
EN

Cette thèse présente plusieurs travaux, autour de l'extraction et la classification de relations dans les articles d'Ouest-France, acteur majeur de la presse française. Ce cas d'usage révèle des difficultés relatives aux données, notamment un manque de données annotées et un déséquilibre de celles-ci. Nos travaux présentent deux approches pour appliquer l'état-de-l'art en classification de relations a ce scénario, tout en questionnant la pertinence de ces modèles état-de-l'art. Une première méthode est la détection en amont d'un modèle de classification des couples d’entités n'exprimant pas de relation, afin d’améliorer les résultats du classifieur via l'amélioration de la qualité des données qui lui sont fournies, tandis qu'une seconde stratégie est l' extit{active learning}, où un modèle est entraîné de façon incrémentale, en sélectionnant à chaque étape des exemples qui maximisent les prédictions de ce modèle. Ces deux approches permettent l’amélioration des performances de modèles de classification simples, alors que la complexité des modèles de l'état-de-l'art les rend incompatibles avec le peu de données annotées présentes chez-Ouest-France. Nous explorons en outre plusieurs pistes d'extraction de relations non-supervisée, dont l'idée directrice se révèle incompatible avec notre besoin, et de représentation auto-supervisée des relations, qui a montré quelques résultats encourageants pour une poursuite des travaux.