Créativité Computationnelle : conception et développement d'algorithmes pour la génération automatique de phrases littéraires
Auteur / Autrice : | Luis gil Moreno jimenez |
Direction : | Juan-Manuel Torres-Moreno, Roseli S. Wedemann |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 18/11/2022 |
Etablissement(s) : | Avignon |
Ecole(s) doctorale(s) : | École doctorale Sciences et agrosciences (Avignon) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire informatique d'Avignon |
Jury : | Président / Présidente : Rachid El-Azouzi |
Examinateurs / Examinatrices : Pascale Sébillot, Luis Meneses Lerin, Antoine Doucet | |
Rapporteur / Rapporteuse : Béatrice Daille, Gerardo Reyes Salgado |
Mots clés
Mots clés contrôlés
Résumé
Dans le présent ouvrage, nous abordons l’étude de la créativité à l’aide de dispositifs artificiels, et nous présentons un traitement plus ciblé et formel de la génération artificielle de texte littéraire. Dans The creative Mind : Mythes and mécanismes (Boden, 2004), Margaret Boden explique que le processus créatif est un chemin intuitif suivi par les humains pour générer des artefacts appréciés pour leur nouveauté, leur beauté et leur importance pour la société. La recherche de processus automatisés capables de générer des artefacts de manière créative a récemment donné naissance à un domaine de recherche appelé Créativité computationnelle, qui offre des perspectives intéressantes dans divers domaines artistiques tels que les arts visuels, la musique et la littérature. Bien que des avancées significatives aient été réalisées dans ce domaine, il existe des difficultés et des limites liées à la complexité inhérente à la compréhension du processus créatif chez l’humain. Notre objectif principal dans cette étude concerne la Génération Automatique de Texte (GAT) et, plus particulièrement, la génération de phrases littéraires. Nous visons donc le problème du développement de techniques automatiques (algorithmes) pour générer des objets linguistiques qui sont des phrases ou des parties de paragraphes qui peuvent être perçues comme appartenant à un texte littéraire. La plupart des recherches concernant la GAT évitent le genre littéraire en raison de sa complexité. Certaines difficultés fondamentales concernent l’ambiguïté du sens et même l’absence d’une définition universelle de ce qu’est un texte littéraire. Également, les documents littéraires font souvent référence à des mondes ou des situations imaginaires ou allégoriques, contrairement aux genres qui traitent de la communication écrite de faits. Ces caractéristiques et d’autres, comme l’élégance ou l’utilisation de mots rares dans la littérature, font de la génération et de l’analyse automatiques de textes littéraires une tâche complexe et difficile. En raison des difficultés évoquées et afin d’aborder le problème de la GAT de manière réalisable, nous partons d’un point de vue pragmatique et nous adoptons une définition opérationnelle de ce qu’est une phrase littéraire, basée sur la structure des corpora littéraires. Nous considérons ainsi qu’une phrase est littéraire, si elle est possède une structure grammaticale et un vocabulaire existant dans un corpus suffisamment large et considéré comme littéraire. Pour atteindre nos objectifs, nous avons collecté des textes littéraires et constitué le corpus MegaLite avec de documents en français, espagnol et portugais, tels que des romans, des nouvelles, des récits, du théâtre et poésie. Nous présentons dans cette thèse une nouvelle approche pour la génération de phrases littéraires. Notre proposition est basée sur trois nouveaux corpora littéraires que nous avons construits, ainsi que des techniques de réseaux de neurones artificiels, des modèles de langage et une d’analyse syntaxique superficielle. Nos modèles GAT analysent les corpora littéraires afin d’extraire et d’exploiter leurs structures grammaticales, sémantiques et linguistiques. Nous avons également considéré la génération de rimes (assonante et consonante), en tenant compte la rime sémantique. Plusieurs protocoles d’évaluation manuelle ont été proposé, permettant de mesurer la qualité des phrases générées par nos modèles GAT littéraires. Les résultats que nous avons obtenus sont assez encourageants. Nos systèmes génèrent des phrases grammaticalement correctes et suffisamment cohérentes, perçues comme littéraires dans une bonne mesure. De plus, ces résultats soutiennent notre hypothèse selon laquelle il est possible de générer, à partir de structures de phrases littéraires connues, de nouvelles phrases avec une nouvelle sémantique.