Thèse en cours

Alambic : un environnement basé sur l'IA pour l'exploration de textes littéraires en arabe moderne

FR  |  
EN
Auteur / Autrice : Aya Mourad
Direction : Hadid Abdenour
Type : Projet de thèse
Discipline(s) : Sciences de l'ingénieur
Date : Inscription en doctorat le 01/11/2024
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Institut des Systèmes Intelligents et de Robotique

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Le nombre de documents patrimoniaux numérisés et nativement numériques en arabe, situés dans les bibliothèques nationales, les archives et les collections spécialisées du monde entier, croît de façon exponentielle. Cependant, malgré les récentes initiatives de numérisation, cet important patrimoine culturel reste difficile à exploiter à grande échelle sans l'utilisation d'outils intelligents permettant une analyse approfondie de ces collections. Face à ces défis, l'objectif de ce projet de doctorat est de créer un pipeline d'analyse de texte basé sur l'IA et le traitement du langage naturel, applicable aux textes littéraires en arabe (livres et autres documents de longueur substantielle). Dans un premier temps, le pipeline inclura la reconnaissance d'entités nommées, l'identification de la structure dialogique et l'analyse émotionnelle, utilisées pour visualiser et explorer la structure narrative fictionnelle, les réseaux de personnages et les cartographies littéraires. Ce projet ouvrira ainsi une approche avancée basée sur l'IA pour l'étude des textes littéraires afin de tester des hypothèses et de développer de nouvelles connaissances. Le pipeline proposé simplifiera le processus de lecture numérique et de recherche pour les étudiants et les chercheurs, et permettra de réaliser des analyses à la fois qualitatives et quantitatives, proposant de nouvelles façons de comprendre les œuvres ou les auteurs à travers les émotions associées aux lieux et aux personnages. Plus largement, les représentations produites permettront de créer des scénarios de navigation virtuelle autour d'un personnage ou d'un lieu donné, de relier les éléments identifiés à d'autres textes ou ressources en ligne (GeoNames, Wikidata, etc.). En outre, ce projet fournira à la communauté scientifique un modèle pour la reconnaissance d'entités nommées et l'analyse émotionnelle dans les textes littéraires arabes, ainsi qu'un jeu de données largement disponible de sources fictionnelles analysées en arabe avec ses directives d'annotation.