Alambic : un environnement basé sur l'IA pour l'exploration de textes littéraires en arabe moderne
Auteur / Autrice : | Aya Mourad |
Direction : | Hadid Abdenour |
Type : | Projet de thèse |
Discipline(s) : | Sciences de l'ingénieur |
Date : | Inscription en doctorat le 01/11/2024 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : Institut des Systèmes Intelligents et de Robotique |
Mots clés
Mots clés libres
Résumé
Le nombre de documents patrimoniaux numérisés et nativement numériques en arabe, situés dans les bibliothèques nationales, les archives et les collections spécialisées du monde entier, croît de façon exponentielle. Cependant, malgré les récentes initiatives de numérisation, cet important patrimoine culturel reste difficile à exploiter à grande échelle sans l'utilisation d'outils intelligents permettant une analyse approfondie de ces collections. Face à ces défis, l'objectif de ce projet de doctorat est de créer un pipeline d'analyse de texte basé sur l'IA et le traitement du langage naturel, applicable aux textes littéraires en arabe (livres et autres documents de longueur substantielle). Dans un premier temps, le pipeline inclura la reconnaissance d'entités nommées, l'identification de la structure dialogique et l'analyse émotionnelle, utilisées pour visualiser et explorer la structure narrative fictionnelle, les réseaux de personnages et les cartographies littéraires. Ce projet ouvrira ainsi une approche avancée basée sur l'IA pour l'étude des textes littéraires afin de tester des hypothèses et de développer de nouvelles connaissances. Le pipeline proposé simplifiera le processus de lecture numérique et de recherche pour les étudiants et les chercheurs, et permettra de réaliser des analyses à la fois qualitatives et quantitatives, proposant de nouvelles façons de comprendre les uvres ou les auteurs à travers les émotions associées aux lieux et aux personnages. Plus largement, les représentations produites permettront de créer des scénarios de navigation virtuelle autour d'un personnage ou d'un lieu donné, de relier les éléments identifiés à d'autres textes ou ressources en ligne (GeoNames, Wikidata, etc.). En outre, ce projet fournira à la communauté scientifique un modèle pour la reconnaissance d'entités nommées et l'analyse émotionnelle dans les textes littéraires arabes, ainsi qu'un jeu de données largement disponible de sources fictionnelles analysées en arabe avec ses directives d'annotation.