Détection de segments textuels produits par des systèmes d'intelligence artificielle générative dans les travaux étudiants
| Auteur / Autrice : | Julien Lemaire |
| Direction : | Natalia Grabar |
| Type : | Projet de thèse |
| Discipline(s) : | Sciences du langage : linguistique et phonétique générales |
| Date : | Inscription en doctorat le 01/12/2025 |
| Etablissement(s) : | Université de Lille (2022-....) |
| Ecole(s) doctorale(s) : | École doctorale Sciences de l'homme et de la société |
| Partenaire(s) de recherche : | Laboratoire : Savoirs, Textes, langages |
Mots clés
Résumé
Les récents développements en traitement automatique du langage (TAL) et Intelligence Artificielle (IA) ont permis l'avènement de giga-modèles de langues génératifs comme ChatGPT, Gemini ou encore Mistral. Leur disponibilité et facilité d'utilisation permettent au plus grand nombre de les employer. Le monde académique n'est pas en reste et doit lui aussi questionner la survenance de nouvelles pratiques liées à l'usage de ces Systèmes d'Intelligence Artificielle Générative (SIAG) et notamment l'usage par les étudiants desdits SIAG pour l'accomplissement de leurs travaux académiques y compris lorsque leur utilisation est déconseillée, voire proscrite par l'enseignant. Il n'existe pas à ce jour de moyen robuste et fiable de détecter un usage non mentionné de SIAG dans une copie. Cela entrave donc la capacité des professionnels de l'éducation à sanctionner un mésusage des SIAG puisqu'il n'est pas possible de prouver assurément qu'un étudiant se soit rendu coupable d'une mauvaise conduite académique telle que définie par le Réseau Européen pour l'Intégrité Académique (ENAI). Bien que des méthodes de détection soient d'ores et déjà disponibles, leur performance dépend de la nature, des types et des méthodes de génération des textes à évaluer. Nous ambitionnons dans ce travail de proposer des outils et critères de détection adaptés à (1) la nature particulière des travaux académiques étudiants, (2) au caractère hybride (rédaction conjointe humaine et IAG) de ces textes, (3) aux domaines ciblés (les Sciences Humaines) et (4) aux différents SIAG susceptibles d'être utilisés par les étudiants. Notre approche se veut originale par son orientation linguistique. Nous postulons que des critères langagiers pourraient améliorer significativement les méthodes de détection puisque la langue pourrait constituer un matériel robuste face aux quatre points évoqués supra. Il nous faudra pour cela constituer un corpus de travaux étudiants, procéder à son annotation selon des critères linguistiques établis et identifier les idiosyncrasies linguistiques caractéristiques des humains et des SIAG.