Identification automatique d'entités pour l'enrichissement de contenus textuels

Rosa Stern

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR

Auteur / Autrice :	Rosa Stern
Direction :	Laurence Danlos
Type :	Thèse de doctorat
Discipline(s) :	Linguistique théorique, descriptive et automatique
Date :	Soutenance en 2013
Etablissement(s) :	Paris 7

Mots clés

FR

Mots clés contrôlés

Agence France-Presse

Systèmes experts (informatique)

Web sémantique

Identification automatique

Traitement automatique du langage naturel

Résumé

FR |

EN

Cette thèse propose une méthode et un système d'identification d'entités (personnes, lieux, organisations) mentionnées au sein des contenus textuels produits par l'Agence France Presse dans la perspective de l'enrichissement automatique de ces contenus. Les différents domaines concernés par cette tâche ainsi que par l'objectif poursuivi par les acteurs de la publication numérique de contenus textuels sont abordés et mis en relation : Web Sémantique, Extraction d'Information et en particulier Reconnaissance d'Entités Nommées (REN), Annotation Sémantique, Liage d'Entités. À l'issue de cette étude, le besoin industriel formulé par l'Agence France Presse fait l'objet des spécifications utiles au développement d'une réponse reposant sur des outils de Traitement Automatique du Langage. L'approche adoptée pour l'identification des entités visées est ensuite décrite : nous proposons la conception d'un système prenant en charge l'étape de REN à l'aide de n'importe quel module existant, dont les résultats, éventuellement combinés à ceux d'autres modules, sont évalués par un module de Liage capable à la fois (i) d'aligner une mention donnée sur l'entité qu'elle dénote parmi un inventaire constitué au préalable, (ii) de repérer une dénotation ne présentant pas d'alignement dans cet inventaire et (iii) de remettre en cause la lecture dénotationnelle d'une mention (repérage des faux positifs). Le système Nomos est développé à cette fin pour le traitement de données en français. Sa conception donne également lieu à la construction et à l'utilisation de ressources ancrées dans le réseau des Linked Data ainsi que d'une base de connaissances riche sur les entités concernées.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Identification automatique d'entités pour l'enrichissement de contenus textuels

Mots clés

Mots clés contrôlés

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Identification automatique d'entités pour l'enrichissement de contenus textuels

Mots clés

Mots clés contrôlés

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses