Gestion et exploitation de larges bases de connaissances en présence de données incomplètes et incertaines
Auteur / Autrice : | Ibrahim Dellal |
Direction : | Allel Hadj Ali, Brice Chardin, Stéphane Jean |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et applications |
Date : | Soutenance le 10/12/2019 |
Etablissement(s) : | Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique |
Ecole(s) doctorale(s) : | École doctorale Sciences et ingénierie pour l'information, mathématiques (Limoges ; 2009-2018) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique et d'Automatique pour les Systèmes / LIAS |
Jury : | Président / Présidente : François Goasdoué |
Examinateurs / Examinatrices : Béatrice Markhoff | |
Rapporteur / Rapporteuse : Nadine Cullot, Guy De Tré |
Mots clés
Résumé
Avec l’émergence et la prolifération des applications du Web sémantique, de nombreuses et récentes larges bases de connaissances (BC) sont disponibles sur le Web. Ces BC contiennent des entités (nommées) et des faits sur ces entités. Elles contiennent également les classes sémantiques de ces entités et leurs liens mutuels.De plus, plusieurs BC peuvent être interconnectées au niveau entités, formant ainsi le noyau du Web des données liées (ou ouvertes). Une caractérisation essentielle de ces BC est qu’elles contiennent des millions à des billions de triplets RDF incertains. Les causes de cette incertitude sont diverses et multiples. Elle peut résulter de l’intégration de sources de données de différents niveaux de fiabilité ou elle peut être causée par des considérations de préservation de la confidentialité. Aussi, elle peut être due à des facteurs li´es au manque d’informations, à la limitation des équipements de mesures ou à l’évolution d’informations. L’objectif de ce travail de thèse est d’améliorer l’ergonomie et la convivialité des systèmes modernes visant à exploiter des BC entachées d’incertitude. En particulier, ce travail propose des techniques coopératives et intelligentes aidant l’utilisateur dans ses prises de décisions quand ses recherches retournent des résultats insatisfaisants en termes de quantité ou de fiabilité.Dans un premier temps, nous nous sommes intéressés au problème des requêtes RDF retournant un ensemble vide de réponses. Ce type de réponse est frustrant et ne sert pas les attentes de l’utilisateur. L’approche proposée pour le traitement de ce problème est guidée par la requête initiale et offre un double avantage :(i) elle permet de fournir une explication sur l’échec de la requête en identifiant les MFS (Minimal Failing Sub-queries) et, (ii) elle permet de calculer des requêtes alternatives appelées XSS (maXimal Succeeding Subqueries),sémantiquement proches de la requête initiale et dont les réponses sont non-vides. Par ailleurs, d’un point de vue utilisateur, cette solution présente un niveau élevé de flexibilité dans le sens o`u plusieurs degrés d‘incertitude peuvent être simultanément considérés. Dans une seconde contribution, nous avons abord´e l’étude du problème dual au problème cité ci-dessus,c’est-`a-dire le cas des requêtes retournant un nombre trop élevé de réponses dans le contexte des données RDF.La solution préconisée vise `a réduire cet ensemble de réponses pour permettre à l’utilisateur de les examiner.Des contreparties des MFS et des XSS ont été établies, ce qui a permis d’identifier, d’une part, les causes du problème et, d’autre part, des requêtes alternatives dont les résultats peuvent être directement et facilement exploitables à des fins de décision.L’ensemble de nos propositions ont été validées par une série d’expérimentations portant sur différentes larges bases de connaissances en présence d’incertitude (WatDiv et LUBM). Nous avons aussi utilisé plusieurs Triplestores pour mener nos tests.