Complétion de graphes de connaissances à l'aide de graphes intégrés et de grands modèles de langage
Auteur / Autrice : | Yiwen Peng |
Direction : | Thomas Bonald |
Type : | Projet de thèse |
Discipline(s) : | Informatique, données, IA |
Date : | Inscription en doctorat le 01/10/2023 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Traitement et Communication de l'Information |
Equipe de recherche : DIG Data, Intelligence and Graphs |
Résumé
1. Contexte scientifique Les graphes de connaissances (KG) ont récemment attiré l'attention en raison de leur applicabilité à divers domaines de recherche, allant de la gestion, de la représentation et du raisonnement des connaissances à l'apprentissage de représentations sur les KG. Les graphes de connaissances représentent les connaissances sous la forme de relations entre les entités, appelées faits, ainsi que des informations schématiques sous la forme d'ontologies. Les KG ont été utilisés pour diverses tâches en aval telles que la recherche sur le web, les systèmes de recommandation et la réponse aux questions. Ces tâches peuvent également tirer parti des grands modèles linguistiques (LLM) qui ont récemment révolutionné le paysage de l'intelligence artificielle. Les LLM sont utilisés pour diverses tâches de traitement du langage naturel (NLP) en aval, telles que la compréhension du langage naturel, la réponse aux questions, le raisonnement, etc. Les LLM comprennent des modèles de langage masqués tels que BERT, RoBerta, etc., et des modèles de langage génératifs tels que LLaMa, ChatGPT et GPT-4. Les LLM ont fait preuve de performances élevées dans les paradigmes d'apprentissage à quelques coups ou à zéro coup par le biais de l'incitation et de l'apprentissage en contexte. Malgré leurs performances remarquables dans diverses tâches de TAL, les LLM sont formés sur des données à usage général et ont des performances moindres dans les tâches spécifiques à un domaine, ce qui a conduit à la publication de divers LLM spécifiques à un domaine, tels que BioBERT, Galactica, etc. En outre, les LLM ont montré des préjugés sociétaux conduisant à la discrimination puisque les données sur lesquelles les LLM sont entraînés contiennent ce type de préjugés. En outre, les LLM souffrent de problèmes d'hallucination. Enfin, les LLM sont des modèles opaques qui manquent d'interprétabilité. Une solution potentielle à ces problèmes est d'induire la connaissance des KG vers les LLM, puisque les KG représentent explicitement des informations factuelles de manière structurée sous la forme de triples. Les KG sont connus pour leurs capacités de raisonnement et pour la production de résultats interprétables. Les KG et les LLM sont donc complémentaires et peuvent bénéficier de leurs capacités respectives. Cet aspect a récemment fait l'objet d'une attention particulière : les LLM peuvent être enrichis de connaissances externes, les KG peuvent être enrichis de LLM, ou les deux peuvent être combinés pour améliorer les capacités de raisonnement. Les KG souffrent toutefois d'un manque d'exhaustivité en raison de leur génération manuelle ou automatisée. La génération manuelle conduit à des connaissances limitées représentées par le conservateur et contient des biais de conservateur, tandis que la génération automatique peut conduire à des informations erronées ou manquantes. Pour compléter les KG, divers modèles basés sur des règles ou sur l'intégration ont été proposés. 2. État de l'art Plusieurs études ont examiné l'état de l'art (SoTA) en matière d'achèvement des KG. Les travaux de Paulheim [5] présentent une étude des articles relatifs au raffinement des KG, y compris diverses approches classiques et basées sur des règles pour la complétion des KG. D'autres études se concentrent spécifiquement sur les méthodes de complétion des KG basées sur l'intégration des KG. Wang et al [7] organisent les algorithmes de complétion de KG basés sur l'intégration en fonction de leurs fonctions de notation, telles que les modèles de traduction, les modèles de correspondance sémantique, etc. Toutefois, cette étude n'aborde pas les méthodes proposées pour compléter les KG à l'aide d'informations multimodales liées à une entité ou à une relation, telles que des images, du texte et des littéraux numériques. Ces aspects sont abordés dans l'étude de Gesese et al [3], qui classe ces méthodes en fonction de la fonction de notation (inspirée de [7]) et des modalités multiples. L'étude présente des comparaisons théoriques et expérimentales des approches existantes. Bianchi et al [1] présentent brièvement les méthodes d'intégration KG et donnent un aperçu des aspects explicatifs de ces méthodes. 3. Objectifs de la thèse Compte tenu de l'état de l'art dans le domaine de l'achèvement des KG, divers aspects seront pris en compte dans les thèses de doctorat actuelles. 1) Prédiction du type d'entité. Le typage des entités [2] est l'un des aspects importants de la complétion automatique des bases de connaissances. Les algorithmes actuels sont principalement basés sur l'apprentissage supervisé. Cette thèse se concentrera davantage sur l'apprentissage à partir de zéro, où une entité peut se voir attribuer un type qui n'a pas été vu dans les données d'apprentissage. Cette approche est particulièrement adaptée aux bases de connaissances évolutives ainsi qu'aux applications spécifiques à un domaine, où l'étiquetage manuel n'est pas abordable. 2) Correspondance entre les ontologies. L'appariement d'ontologies consiste à trouver des correspondances entre les classes de deux ontologies, c'est-à-dire à prédire les correspondances/liens entre les deux ontologies. L'initiative d'évaluation de l'alignement des ontologies (OAEI) fournit plusieurs ensembles de données de référence ainsi qu'une méthode d'évaluation unifiée pour ce problème. La plupart des ensembles de données de l'OAEI contiennent des informations structurelles, qui sont exploitées par de nombreux systèmes de mise en correspondance. Dans la pratique, cela suppose que les ontologies soient bien structurées, ce qui n'est pas nécessairement le cas pour les graphes de connaissances (KG) interdomaines et générés automatiquement. L'une des études récentes utilise la description textuelle des classes à l'aide de LLM masqués [6]. Cette étude ne tient actuellement pas compte des relations spécifiques à aligner entre les classes des deux ontologies, telles que subClassOf, et n'aligne pas non plus les relations existant entre ces classes, ce qui permet d'exploiter les informations structurelles. De plus, elle ne prend pas en compte l'aspect dynamique des ontologies [4]. 4. References [1] F. Bianchi, G. Rossiello, L. Costabello, M. Palmonari, and P. Minervini. Knowledge graph embeddings and explainable AI. In Knowledge Graphs for eXplainable Artificial Intelligence: Foundations, Applications and Challenges, volume 47, pages 4972. IOS Press, 2020. [2] R. Biswas, J. Portisch, H. Paulheim, H. Sack, and M. Alam. Entity type prediction leveraging graph walks and entity descriptions. In International Semantic Web Conference (ISWC), 2022. [3] G. A. Gesese, R. Biswas, M. Alam, and H. Sack. A survey on knowledge graph embeddings with literals: Which model links better literally? Semantic Web, 12(4):617647, 2021. [4] J. Li, J. Tang, Y. Li, and Q. Luo. Rimom: A dynamic multistrategy ontology alignment framework. IEEE Trans. Knowl. Data Eng., 21(8):12181232, 2009. [5] H. Paulheim. Knowledge graph refinement: A survey of approaches and evaluation methods. Semantic Web, 8(3):489508, 2017. [6] Y. Peng, M. Alam, and T. Bonald. Ontology matching using textual class descriptions. 2023. [7] Q. Wang, Z. Mao, B. Wang, and L. Guo. Knowledge graph embedding: A survey of approaches and applications. IEEE Trans. Knowl. Data Eng., 29(12):27242743, 2017.