Connaissances a priori pour la Recherche d'Information textuelle basée sur l'apprentissage profond

par Jibril Frej

Thèse de doctorat en Informatique

Sous la direction de Jean-Pierre Chevallet.

Soutenue le 05-02-2021

à l'Université Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'informatique de Grenoble (laboratoire) , Modélisation et Recherche d’Information Multimédia [Grenoble] (équipe de recherche) et de Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (équipe de recherche) .

Le président du jury était Catherine Berrut.

Le jury était composé de Laure Soulier.

Les rapporteurs étaient Mohand Boughanem, Pierre Zweigenbaum.


  • Résumé

    Ce travail de thèse se situe dans les domaines de la recherche d'information (RI) textuelle et de l'apprentissage profond utilisant des réseaux de neurones. Les travaux effectués dans ce travail de thèse sont motivés par le fait que l'utilisation de réseaux de neurones en RI textuelle s'est révélée efficace sous certaines conditions mais que leur utilisation présente néanmoins plusieurs limitations pouvant grandement restreindre leur application en pratique.Dans ce travail de thèse, nous proposons d'étudier l'incorporation de connaissances a priori pour aborder 3 limitations de l'utilisation de réseaux de neurones pour la RI textuelle : (1) la nécessité de disposer de grandes quantités de données étiquetées, (2) les représentations du texte sont basées uniquement sur des analyses statistiques, (3) le manque d'efficience.Nous nous sommes intéressés à trois types de connaissances a priori pour aborder les limitations mentionnées ci-dessus: (1) des connaissances issues d'une ressource semi-structurée : Wikipédia; (2) des connaissances issues de ressources structurées sous forme de ressources sémantiques telles que des ontologies ou des thésaurus; (3) des connaissances issues de texte non structurées.Dans un premier temps, nous proposons WIKIR : un outil libre d'accès permettant de créer automatiquement des collections de RI depuis Wikipédia. Les réseaux de neurones entraînés sur les collections créées automatiquement ont besoin par la suite de moins de données étiquetées pour atteindre de bonnes performances. Dans un second temps, nous avons développé des réseaux de neurones pour la RI utilisant des ressources sémantiques. L'intégration de ressources sémantiques aux réseaux de neurones leur permet d'atteindre de meilleures performances pour la recherche d'information dans le domaine médical. Finalement, nous présentons des réseaux de neurones utilisant des connaissances issues de texte non structurées pour améliorer la performance et l'efficience des modèles de référence de RI n'utilisant pas d'apprentissage.

  • Titre traduit

    Prior Knowledge for Deep learning-based Textual Information Retrieval


  • Résumé

    This thesis work is in the fields of textual information retrieval (IR) and deep learning using neural networks. The motivation for this thesis work is that the use of neural networks in textual IR has proven to be efficient under certain conditions but that their use still presents several limitations that can greatly restrict their application in practice.In this thesis work, we propose to study the incorporation of prior knowledge to address 3 limitations of the use of neural networks for textual IR: (1) the need to have large amounts of labeled data, (2) a representation of the text-based only on statistical analysis, (3) the lack of efficiency.We focused on three types of prior knowledge to address the limitations mentioned above: (1) knowledge from a semi-structured resource: Wikipedia; (2) knowledge from structured resources in the form of semantic resources such as ontologies or thesauri; (3) knowledge from unstructured text.At first, we propose WIKIR: an open-access toolkit to automatically build IR collections from Wikipedia. The neural networks trained on the collections created automatically need less labeled data afterward to achieve good performance. Secondly, we developed neural networks for IR that use semantic resources. The integration of semantic resources into neural networks allows them to achieve better performance for information retrieval in the medical field. Finally, we present neural networks that use knowledge from unstructured text to improve the performance and efficiency of non-learning baseline IR models.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Grenoble Alpes. Bibliothèque et Appui à la Science Ouverte. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.