Thèse soutenue

Inférences et explications dans les réseaux lexico-sémantiques
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Kévin Cousot
Direction : Mathieu Lafourcade
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/12/2019
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : École Doctorale Information, Structures, Systèmes (Montpellier ; 2015)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....)
Jury : Président / Présidente : Anne Laurent
Examinateurs / Examinatrices : Mathieu Lafourcade, Patrice Bellot, Cécile Fabre, Marianne Huchard, Nùria Gala
Rapporteurs / Rapporteuses : Patrice Bellot, Cécile Fabre

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Grâce à la démocratisation des nouvelles technologies de communications nous disposons d'une quantité croissante de ressources textuelles, faisant du Traitement Automatique du Langage Naturel (TALN) une discipline d'importance cruciale tant scientifiquement qu'industriellement. Aisément disponibles, ces données offrent des opportunités sans précédent et, de l'analyse d'opinion à la recherche d'information en passant par l’analyse sémantique de textes les applications sont nombreuses.On ne peut cependant aisément tirer parti de ces données textuelles dans leur état brut et, en vue de mener à bien de telles tâches il semble indispensable de posséder des ressources décrivant les connaissances sémantiques, notamment sous la forme de réseaux lexico-sémantiques comme par exemple celui du projet JeuxDeMots. La constitution et la maintenance de telles ressources restent cependant des opérations difficiles, de part leur grande taille mais aussi à cause des problèmes de polysémie et d’identification sémantique. De plus, leur utilisation peut se révéler délicate car une part significative de l'information nécessaire n'est pas directement accessible dans la ressource mais doit être inférée à partir des données du réseau lexico-sémantique.Nos travaux cherchent à démontrer que les réseaux lexico-sémantiques sont, de par leur nature connexionniste, bien plus qu'une collection de faits bruts et que des structures plus complexes telles que les chemins d’interprétation contiennent davantage d'informations et permettent d'accomplir de multiples opérations d'inférences. En particulier, nous montrerons comment utiliser une base de connaissance pour fournir des explications à des faits de haut niveau. Ces explications permettant a minima de valider et de mémoriser de nouvelles informations.Ce faisant, nous pouvons évaluer la couverture et la pertinence des données de la base ainsi que la consolider. De même, la recherche de chemins se révèle utile pour des problèmes de classification et de désambiguïsation, car ils sont autant de justifications des résultats calculés.Dans le cadre de la reconnaissance d'entité nommées, ils permettent aussi bien de typer les entités et de les désambiguïser (l'occurrence du terme Paris est-il une référence à la ville, et laquelle, ou à une starlette ?) en mettant en évidence la densité des connexions entre les entités ambiguës, leur contexte et leur type éventuel.Enfin nous proposons de tourner à notre avantage la taille importante du réseau JeuxDeMots pour enrichir la base de nouveaux faits à partir d'un grand nombre d'exemples comparables et par un processus d'abduction sur les types de relations sémantiques pouvant connecter deux termes donnés. Chaque inférence s’accompagne d’explications pouvant être validées ou invalidées offrant ainsi un processus d’apprentissage.