Thèse soutenue

Detection of automatically generated academic Content

FR  |  
EN
Auteur / Autrice : Vijini Pilana Liyanage
Direction : Adeline NazarenkoDavide Buscaldi
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 16/05/2024
Etablissement(s) : Paris 13
Ecole(s) doctorale(s) : École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Paris Nord (Paris)
Jury : Président / Présidente : Karën Fort
Rapporteurs / Rapporteuses : Cyril Labbé, Didier Schwab

Résumé

FR  |  
EN

Dans cette thèse, nous avons concentré notre intérêt sur l'identification de technologies/méthodologies de détection de contenus académiques générés artificiellement. Les principales contributions de cette thèse sont triples. Tout d'abord, nous avons construit plusieurs corpus composés de textes académiques générés automatiquement. Dans cette tâche, nous avons utilisé plusieurs derniers modèles NLG pour la tâche de génération. Ces corpus contiennent des contenus entièrement générés ainsi que des contenus composés de manière hybride (avec intervention humaine). Ensuite, nous avons utilisé plusieurs modèles statistiques et d'apprentissage profond pour la détection des contenus générés à partir du contenu original (écrit par l'homme). Dans ce scénario, nous avons considéré la détection comme une tâche de classification binaire. Ainsi, plusieurs modèles de classification SOTA ont été utilisés. Les modèles ont été améliorés ou modifiés à l'aide de techniques d'assemblage pour obtenir une plus grande précision de détection. De plus, nous avons utilisé plusieurs outils de détection les plus récents pour identifier leur capacité à distinguer le texte généré automatiquement. Enfin, les corpus générés ont été testés par rapport aux bases de connaissances afin de trouver d'éventuelles inadéquations susceptibles d'aider à améliorer la tâche de détection. Les résultats de cette thèse soulignent l'importance d'imiter le comportement humain en tirant parti des modèles de génération ainsi que d'utiliser des corpus réalistes et stimulants dans les recherches futures visant à détecter des textes générés artificiellement. Enfin, nous souhaitons souligner le fait que, quelle que soit l'avancée de la technologie, il est toujours crucial de se concentrer sur l'aspect éthique de son utilisation.