Question answering over Knowledge Bases

Dennis Diefenbach

Résumé

Question Answering (QA) is a field in computer science, which is concerned about building a system, which can automatically answer a given question posed by user in natural language. There are mainly three sources that Question Answering systems use to find an answer: free text (like office documents, web-pages and books), web-services (like services for weather, stock prices and time) and knowledge bases (KB). KBs are a structured collection of information that can be accessed and interpreted easily by machines. The main topic of this thesis is to study QA systems over such KB. QA systems over KBs are important because there is a large amount of information available in KBs and at the same time the information in KBs is very difficult to access by end users. QA systems over KBs are used in diverse industrial applications like Google Search, Siri, Alexa and Bing. One thing is common between these applications that they query proprietary KBs. This thesis provides several contributions in the domain of QA systems over KBs. First, it presents a comprehensive study of existing QA systems. It presents a detailed analysis and comparison of all QA systems that were evaluated over a popular benchmark called QALD, and points to the QA systems evaluated over other two very popular benchmarks, namely WebQuestions and SimpleQuestions. The analysis also contains a list of important challenges in this domain. Second, it presents a novel algorithm to construct QA systems over KBs. It is characterized by the fact that it can be easily adapted to new languages as well as to new KBs. It supports both keyword questions and full natural language questions. Moreover, it is robust to malformed questions. We prove these claims by applying this novel algorithm to 5 different languages (namely English, German, French, Spanish and Italian), to 6 different knowledge bases (namely Wikidata, DBpedia, Freebase, Scigraph, Dblp and MusicBrainz) and by comparing its performance over popular benchmarks like QALD and SimpleQuestions. Third, it shows how the answer of a QA system can be presented to a user. KBs contain main possible contextual information that can be presented together with the answer itself. These include textual descriptions, external links, images and videos. This thesis show how this information can be presented to the user together with the answer. Moreover, this thesis contains a mechanism to let the user interact when the question is ambiguous. This is done by using an algorithm which presents the interpretation of the question as understood by the QA system. Another algorithm is used to generate summaries for the answer to deliver additional contextual information. The last part describes a possible architecture for QA systems that allows to construct QA systems in a modular and collaborative way. It allows to build QA systems which can be distributed over the web and is a tentative approach to standardize typical QA work flows.  All the contributions of this thesis are integrated in an online demo that is available under www.wdaqua.eu/qa.

Question Answering (QA) est un domaine de l’informatique qui se préoccupe de la construction d’un système qui peut répondre automatiquement à une question posée par un utilisateur en langage naturel. Les systèmes Question Answering utilisent principalement trois sources pour trouver une réponse: du texte libre (documents de bureau, pages web et livres), des services Web (services météorologiques, prix des actions, horaire, etc.) et bases de connaissances. Une base de connaissances est une collection structurée d’informations qui peuvent être consultées et interprétées facilement par des machines. Le sujet principal de cette thèse est d’étudier les systèmes de QA sur de telles bases de connaissances. Les systèmes de QA sur les bases de connaissances sont importants car ces bases contiennent de très grandes quantités d’informations et en même temps ces informations sont a priori très difficiles d’accès pour les utilisateurs. Les systèmes QA sur bases de connaissances sont utilisés dans différentes applications industrielles telles que Google Search, Siri, Alexa et Bing. Ces applications ont en commun d’interroger des bases de connaissances propriétaires. Cette thèse apporte plusieurs contributions dans le domaine des systèmes QA sur bases de connaissances. D’abord, nous présentons une étude complète des systèmes QA existants. Nous présentons une analyse détaillée et une comparaison de tous les systèmes QA qui ont été évalués sur un benchmark populaire appelé QALD, et nous ciblons les systèmes de QA évalués par rapport à deux autres benchmarks très populaires, à savoir WebQuestions et SimpleQuestions. L’analyse contient également une liste des défis importants dans ce do- maine. Dans un deuxième temps, nous présentons un nouvel algorithme pour construire des systèmes de QA sur des bases de connaissances. Cet algorithme se caractérise par le fait qu’il peut être facilement adapté à de nouvelles langues, qu’il peut être facilement adapté aux nouvelles bases de connaissances, qu’il prend en charge les questions sous forme de mots clés et les questions en langage naturel, et qu’il est robuste aux questions mal formées. Nous prouvons ces revendications en appliquant ce nouvel algorithme à 5 langues différentes (à savoir anglais, allemand, français, espagnol et italien), à 6 bases de connaissances différentes (à savoir Wikidata, DBpedia, Freebase, Scigraph, Dblp et MusicBrainz) et en comparant les performances sur les benchmarks populaires QALD et SimpleQuestions. Dans une troisième partie, nous montrons comment la réponse d’un système QA peut être présentée à un utilisateur. Les bases de connaissances contiennent beaucoup d’informations contextuelles qui peuvent être présentées avec la réponse elle-même. Ces informations sont par exemple des descriptions textuelles, des liens externes, des images et des vidéos. Nous montrons comment ces informations peuvent être présentées à l’utilisateur pour enrichir la réponse. En outre, nous proposons un mécanisme permettant à l’utilisateur d’interagir lorsque la question est ambiguë, un algo- rithme pour présenter à l’utilisateur l’interprétation que le système QA a de la question reçue et un algorithme pour générer des résumés. La dernière partie décrit une architecture pour les systèmes QA qui permet de construire des systèmes QA de manière modulaire et collaborative. Cette approche permet de créer des systèmes QA distribués sur le Web et constitue une proposition pour standardiser le processus d’un système QA.  Toutes les contributions de cette thèse sont intégrées dans une démonstration en ligne disponible sous www.wdaqua.eu/qa.

Question answering over Knowledge Bases

System the Question-Réponse sur des Base de Connaissances

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager