Auteur / Autrice : | Vincent Barbier |
Direction : | Brigitte Grau |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2009 |
Etablissement(s) : | Paris 11 |
Partenaire(s) de recherche : | autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) |
Mots clés
Résumé
Ce mémoire se situe dans le domaine des systèmes de questions-réponses, ces systèmes qui, à partir d'une question en langage naturel posée par l'utilisateur recherche une réponse dans une collection de documents. Notre travail se fonde sur la notion de justification, que nous formalisons comme un graphe d'appariement entre les informations linguistiques extraites de la question et les éléments justificatifs correspondants de le passage réponse. Ce modèle fait intervenir trois types de phénomènes linguistiques : les variations paradigmatiques locales d'un terme (sémantiques, morphologiques, inférences), les liens syntagmatiques entre les constituants d'une phrase, et une composante de sémantique énonciative reliant des éléments distants (anaphores, coréférences, thématisation), dans un contexte multiphrase, aussi bien mono- que multi-documents. Dans ce travail, nous décrivons premièrement l'extraction semi-automatique d'un corpus de questions-réponses. Ce corpus regroupe des couples d'une question et d'un passage réponse, où sont annotées les structures de justification évoquées ci-avant. Nous mesurons sur ce corpus la conformation des justifications en termes de variation sémantique et d'étendue spatiale. Ensuite, nous décrivons et évaluons un programme extrayant et pondérant des justifications à partir de passages d'articles de journaux rapportés par une chaîne de traitements questions-réponses. Notre programme vise à conserver au système la capacité à produire une justification structurée, tout en rendant possible l'intégration d'une grande hétérogénéité de traitements linguistiques, de nature, de niveau de granularité et de fiabilité variés.