Detection of automatically generated academic Content

Vijini Pilana Liyanage

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Detection of automatically generated academic Content

FR |

EN

Auteur / Autrice :	Vijini Pilana Liyanage
Direction :	Adeline Nazarenko, Davide Buscaldi
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 16/05/2024
Etablissement(s) :	Paris 13
Ecole(s) doctorale(s) :	École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique de Paris Nord (Paris)
Jury :	Président / Présidente : Karën Fort
	Rapporteurs / Rapporteuses : Cyril Labbé, Didier Schwab

Mots clés

FR |

EN

Mots clés contrôlés

Détection du plagiat

Intelligence artificielle

Interaction humain-machine

Traitement automatique du langage naturel

Systèmes experts (informatique)

Classification

Mots clés libres

Génération de langage naturel

Textes générés automatiquement

Détection

Résumé

FR |

EN

Dans cette thèse, nous avons concentré notre intérêt sur l'identification de technologies/méthodologies de détection de contenus académiques générés artificiellement. Les principales contributions de cette thèse sont triples. Tout d'abord, nous avons construit plusieurs corpus composés de textes académiques générés automatiquement. Dans cette tâche, nous avons utilisé plusieurs derniers modèles NLG pour la tâche de génération. Ces corpus contiennent des contenus entièrement générés ainsi que des contenus composés de manière hybride (avec intervention humaine). Ensuite, nous avons utilisé plusieurs modèles statistiques et d'apprentissage profond pour la détection des contenus générés à partir du contenu original (écrit par l'homme). Dans ce scénario, nous avons considéré la détection comme une tâche de classification binaire. Ainsi, plusieurs modèles de classification SOTA ont été utilisés. Les modèles ont été améliorés ou modifiés à l'aide de techniques d'assemblage pour obtenir une plus grande précision de détection. De plus, nous avons utilisé plusieurs outils de détection les plus récents pour identifier leur capacité à distinguer le texte généré automatiquement. Enfin, les corpus générés ont été testés par rapport aux bases de connaissances afin de trouver d'éventuelles inadéquations susceptibles d'aider à améliorer la tâche de détection. Les résultats de cette thèse soulignent l'importance d'imiter le comportement humain en tirant parti des modèles de génération ainsi que d'utiliser des corpus réalistes et stimulants dans les recherches futures visant à détecter des textes générés artificiellement. Enfin, nous souhaitons souligner le fait que, quelle que soit l'avancée de la technologie, il est toujours crucial de se concentrer sur l'aspect éthique de son utilisation.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Detection of automatically generated academic Content

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Detection of automatically generated academic Content

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses