Construction dynamique incrémentale de graphes de connaissances par fouille de contenus
Auteur / Autrice : | Cyrielle Mallart |
Direction : | Pascale Sébillot, Guillaume Gravier |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 23/11/2022 |
Etablissement(s) : | Rennes, INSA |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes) |
Partenaire(s) de recherche : | Entreprise : Ouest-France (périodique) |
Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) | |
Jury : | Président / Présidente : Anne Vilnat |
Examinateurs / Examinatrices : Pascale Sébillot, Guillaume Gravier, Anne Vilnat, Frédéric Béchet, Xavier Tannier, Pierre-François Marteau | |
Rapporteurs / Rapporteuses : Frédéric Béchet, Xavier Tannier |
Mots clés
Résumé
Cette thèse présente plusieurs travaux, autour de l'extraction et la classification de relations dans les articles d'Ouest-France, acteur majeur de la presse française. Ce cas d'usage révèle des difficultés relatives aux données, notamment un manque de données annotées et un déséquilibre de celles-ci. Nos travaux présentent deux approches pour appliquer l'état-de-l'art en classification de relations a ce scénario, tout en questionnant la pertinence de ces modèles état-de-l'art. Une première méthode est la détection en amont d'un modèle de classification des couples d’entités n'exprimant pas de relation, afin d’améliorer les résultats du classifieur via l'amélioration de la qualité des données qui lui sont fournies, tandis qu'une seconde stratégie est l' extit{active learning}, où un modèle est entraîné de façon incrémentale, en sélectionnant à chaque étape des exemples qui maximisent les prédictions de ce modèle. Ces deux approches permettent l’amélioration des performances de modèles de classification simples, alors que la complexité des modèles de l'état-de-l'art les rend incompatibles avec le peu de données annotées présentes chez-Ouest-France. Nous explorons en outre plusieurs pistes d'extraction de relations non-supervisée, dont l'idée directrice se révèle incompatible avec notre besoin, et de représentation auto-supervisée des relations, qui a montré quelques résultats encourageants pour une poursuite des travaux.