Construction dynamique incrémentale de graphes de connaissances par fouille de contenus

Cyrielle Mallart

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Construction dynamique incrémentale de graphes de connaissances par fouille de contenus

FR |

EN

Auteur / Autrice :	Cyrielle Mallart
Direction :	Pascale Sébillot, Guillaume Gravier
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 23/11/2022
Etablissement(s) :	Rennes, INSA
Ecole(s) doctorale(s) :	École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche :	Entreprise : Ouest-France (périodique)
	Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes)
Jury :	Président / Présidente : Anne Vilnat
	Examinateurs / Examinatrices : Pascale Sébillot, Guillaume Gravier, Anne Vilnat, Frédéric Béchet, Xavier Tannier, Pierre-François Marteau
	Rapporteurs / Rapporteuses : Frédéric Béchet, Xavier Tannier

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage supervisé (intelligence artificielle)

Traitement automatique du langage naturel

Exploration de données

Mots clés libres

Traitement du langage naturel

Extraction de relations

Classification de relations

Résumé

FR |

EN

Cette thèse présente plusieurs travaux, autour de l'extraction et la classification de relations dans les articles d'Ouest-France, acteur majeur de la presse française. Ce cas d'usage révèle des difficultés relatives aux données, notamment un manque de données annotées et un déséquilibre de celles-ci. Nos travaux présentent deux approches pour appliquer l'état-de-l'art en classification de relations a ce scénario, tout en questionnant la pertinence de ces modèles état-de-l'art. Une première méthode est la détection en amont d'un modèle de classification des couples d’entités n'exprimant pas de relation, afin d’améliorer les résultats du classifieur via l'amélioration de la qualité des données qui lui sont fournies, tandis qu'une seconde stratégie est l' extit{active learning}, où un modèle est entraîné de façon incrémentale, en sélectionnant à chaque étape des exemples qui maximisent les prédictions de ce modèle. Ces deux approches permettent l’amélioration des performances de modèles de classification simples, alors que la complexité des modèles de l'état-de-l'art les rend incompatibles avec le peu de données annotées présentes chez-Ouest-France. Nous explorons en outre plusieurs pistes d'extraction de relations non-supervisée, dont l'idée directrice se révèle incompatible avec notre besoin, et de représentation auto-supervisée des relations, qui a montré quelques résultats encourageants pour une poursuite des travaux.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Construction dynamique incrémentale de graphes de connaissances par fouille de contenus

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Construction dynamique incrémentale de graphes de connaissances par fouille de contenus

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses