Thèse soutenue

Modèles et algorithmes de simplification automatique de textes

FR  |  
EN
Auteur / Autrice : El Mehdi Issouani
Direction : Patrice Bertail
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 23/06/2023
Etablissement(s) : Paris 10
Ecole(s) doctorale(s) : École doctorale Connaissance, langage, modélisation (Nanterre, Hauts-de-Seine ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Modal'X (Nanterre). Université Paris Nanterre
Jury : Président / Présidente : Antoine Chambaz
Examinateurs / Examinatrices : Patrice Bertail, Antoine Chambaz, Amor Keziou, Estelle Kuhn, Delphine Battistelli, Marianne Clausel, Jean-François Pradat-Peyre
Rapporteur / Rapporteuse : Amor Keziou, Estelle Kuhn

Résumé

FR  |  
EN

Le but de la thèse est de contribuer aux méthodes de simplification automatique du texte. Plus précisément, il s’agit de construire des mesures de complexité (classifieur binaire de textes simples vs textes complexes) et de contribuer au développement de modèles de langage prédictif (comme ceux utilisés dans le désormais célèbre chatbot ChatGPT). Pour ce faire, nous nous sommes intéressés aux méthodes d’entropie utilisées en NLP (que nous réinterprétons en terme de vraisemblance empirique généralisée) et au comportement de la statistique de Hotelling en grande dimension. Cette statistique apparaı̂t naturellement dans ce type de problème et permet d’effectuer des tests de moyenne en grande dimension (c’est-à-dire lorsque la dimension des paramètres dépasse le nombre d’observations). Pour cela, nous proposons un estimateur pénalisé et un choix optimal pour le coefficient de pénalité. Nous discutons également brièvement des modèles de réseaux neuronaux dans le domaine du traitement automatique du langage naturel. Nous résumons ensuite les performances d'une série d'architectures d'apprentissage profond sur un corpus Wikipédia pour la construction d'une mesure de complexité et pour la simplification automatique de textes.L’objectif de ce projet transversal de mathématiques appliquées et de linguistique est d’apporter un éclairage aux problèmes de simplification automatique de texte, ce qui potentiellement pourrait à termes aider les personnes ayant une déficience auditive à faire face aux difficultés rencontrées. Les travaux sont situés dans des champs variés (statistique, linguistique, informatique) et revêt un caractère fortement pluridisciplinaire.