Thèse soutenue

Conception des outils de Big Data pour le contrôle de la qualité des données dans des graphes de connaissances à grande échelle

FR  |  
EN
Auteur / Autrice : Hussein Baalbaki
Direction : Lina MrouehHassan Moustafa HarbRafael Enrique Angarita Arocha
Type : Thèse de doctorat
Discipline(s) : Sciences de l'ingénieur
Date : Soutenance le 22/12/2023
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Laboratoire d’Informatique, Signal et Image, Électronique et Télécommunication (Paris)
Jury : Président / Présidente : Jean-François Pradat-Peyre
Examinateurs / Examinatrices : Ali Jaber, Shohreh Ahvar, Mourad Ouziri
Rapporteurs / Rapporteuses : Marta Rukoz-Castillo, Ali Kadhum Idrees

Résumé

FR  |  
EN

Les Knowledge Graphs (KG) sont la représentation la plus utilisée d'informations structurées sur un domaine particulier, composée de milliards de faits sous la forme d'entités (nœuds) et de relations (bords) entre eux. De plus, les informations de type sémantique des entités sont également contenues dans les KG. Le nombre de KG n'a cessé d'augmenter au cours des 20 dernières années dans divers domaines, notamment le gouvernement, la recherche universitaire, les domaines biomédicaux, etc. Les applications basées sur l'apprentissage automatique qui utilisent les KG incluent la liaison d'entités, les systèmes de questions-réponses, les systèmes de recommandation, etc. Les Open KG sont généralement produits de manière heuristique, automatiquement à partir de diverses sources, notamment du texte, des photos et d'autres ressources, ou sont sélectionnés manuellement. Cependant, ces KG sont souvent incomplètes, c'est-à-dire qu'il existe des liens manquants entre les entités et des liens manquants entre les entités et leurs types d'entités correspondants. Dans cette thèse, nous abordons l’un des problèmes les plus difficiles auxquels est confronté le Knowledge Graph Completion (KGC), à savoir la prédiction de liens. Prédiction générale des liens en KG qui inclut la prédiction de la tête et de la queue, triple classification. Ces dernières années, les KGE ont été formés pour représenter les entités et les relations du KG dans un espace vectoriel de faible dimension préservant la structure du graphe. Dans la plupart des travaux publiés tels que les modèles translationnels, les modèles de réseaux neuronaux et autres, la triple information est utilisée pour générer la représentation latente des entités et des relations. Dans cette thèse, plusieurs méthodes ont été proposées pour KGC et leur efficacité est démontrée empiriquement dans cette thèse. Tout d’abord, un nouveau modèle d’intégration KG, TransModE, est proposé pour la prédiction de liens. TransModE projette les informations contextuelles des entités dans un espace modulaire, tout en considérant la relation comme vecteur de transition qui guide l'entité tête vers l'entité queue. Deuxièmement, nous avons travaillé sur la construction d'un modèle KGE simple et de faible complexité, tout en préservant son efficacité. KEMA est un nouveau modèle KGE parmi les modèles KGE les plus bas en termes de complexité, tout en obtenant des résultats prometteurs. Enfin, KEMA++ est proposé comme une mise à niveau de KEMA pour prédire les triplets manquants dans les KG en utilisant l'opération arithmétique des produits dans un espace modulaire. Les expériences approfondies et les études d'ablation montrent l'efficacité du modèle proposé, qui rivalise avec les modèles de pointe actuels et établit de nouvelles références pour KGC.