Modèles et algorithmes de simplification automatique de textes
Auteur / Autrice : | El Mehdi Issouani |
Direction : | Patrice Bertail |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 23/06/2023 |
Etablissement(s) : | Paris 10 |
Ecole(s) doctorale(s) : | École doctorale Connaissance, langage, modélisation (Nanterre, Hauts-de-Seine ; 1992-....) |
Partenaire(s) de recherche : | Laboratoire : Modal'X (Nanterre). Université Paris Nanterre |
Jury : | Président / Présidente : Antoine Chambaz |
Examinateurs / Examinatrices : Patrice Bertail, Antoine Chambaz, Amor Keziou, Estelle Kuhn, Delphine Battistelli, Marianne Clausel, Jean-François Pradat-Peyre | |
Rapporteur / Rapporteuse : Amor Keziou, Estelle Kuhn |
Mots clés
Mots clés contrôlés
Résumé
Le but de la thèse est de contribuer aux méthodes de simplification automatique du texte. Plus précisément, il s’agit de construire des mesures de complexité (classifieur binaire de textes simples vs textes complexes) et de contribuer au développement de modèles de langage prédictif (comme ceux utilisés dans le désormais célèbre chatbot ChatGPT). Pour ce faire, nous nous sommes intéressés aux méthodes d’entropie utilisées en NLP (que nous réinterprétons en terme de vraisemblance empirique généralisée) et au comportement de la statistique de Hotelling en grande dimension. Cette statistique apparaı̂t naturellement dans ce type de problème et permet d’effectuer des tests de moyenne en grande dimension (c’est-à-dire lorsque la dimension des paramètres dépasse le nombre d’observations). Pour cela, nous proposons un estimateur pénalisé et un choix optimal pour le coefficient de pénalité. Nous discutons également brièvement des modèles de réseaux neuronaux dans le domaine du traitement automatique du langage naturel. Nous résumons ensuite les performances d'une série d'architectures d'apprentissage profond sur un corpus Wikipédia pour la construction d'une mesure de complexité et pour la simplification automatique de textes.L’objectif de ce projet transversal de mathématiques appliquées et de linguistique est d’apporter un éclairage aux problèmes de simplification automatique de texte, ce qui potentiellement pourrait à termes aider les personnes ayant une déficience auditive à faire face aux difficultés rencontrées. Les travaux sont situés dans des champs variés (statistique, linguistique, informatique) et revêt un caractère fortement pluridisciplinaire.