Thèse soutenue

Apport du TAL à l’exploitation linguistique d’un corpus scolaire longitudinal

FR  |  
EN
Auteur / Autrice : Claire Wolfarth
Direction : Catherine BrissaudClaude Ponton
Type : Thèse de doctorat
Discipline(s) : Sciences du langage Spécialité Informatique et sciences du langage
Date : Soutenance le 09/12/2019
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale langues, littératures et sciences humaines (Grenoble ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de linguistique et didactique des langues étrangères et maternelles (Grenoble)
Jury : Président / Présidente : Cédrick Fairon
Examinateurs / Examinatrices : Karën Fort, Lilia Terrugi
Rapporteurs / Rapporteuses : Cédrick Fairon, Claire Doquet-Lacoste

Résumé

FR  |  
EN

Depuis peu, émerge une réelle dynamique de constitution et de diffusion de corpus d’écrits scolaires, notamment francophones. Ces corpus, qui appuient les travaux en didactique de l’écriture, sont souvent de taille restreinte et peu diffusés. Des corpus longitudinaux, c'est-à-dire réalisant le suivi d’une cohorte d’élèves et permettant de s’intéresser à la progressivité des apprentissages, n’existent pas à ce jour pour le français.Par ailleurs, bien que le traitement automatique des langues (TAL) ait outillé des corpus de natures très diverses, peu de travaux se sont intéressés aux écrits scolaires. Ce nouveau champ d’application représente un défi pour le TAL en raison des spécificités des écrits scolaires, et particulièrement les nombreux écarts à la norme qui les caractérisent. Les outils proposés à l’heure actuelle ne conviennent donc pas à l’exploitation de ces corpus. Il y a donc un enjeu pour le TAL à développer des méthodes spécifiques.Cette thèse présente deux apports principaux. D’une part, ce travail a permis la constitution d’un corpus d’écrits scolaires longitudinal (CP-CM2), de grande taille et numérisé, le corpus Scoledit. Par « constitution », nous entendons le recueil, la numérisation et la transcription des productions, l’annotation des données linguistiques et la diffusion de la ressource ainsi constituée. D’autre part, ce travail a donné lieu à l’élaboration d’une méthode d’exploitation de ce corpus, appelée approche par comparaison, qui s’appuie sur la comparaison entre la transcription des productions et une version normalisée de ces productions pour produire des analyses.Cette méthode a nécessité le développement d’un aligneur de formes, appelé AliScol, qui permet de mettre en correspondance les formes produites par l’élève et les formes normalisées. Cet outil représente un premier niveau d’alignement à partir duquel différentes analyses linguistiques ont été menées (lexicales, morphographiques, graphémiques). La conception d’un aligneur en graphèmes, appelé AliScol_Graph, a été nécessaire pour conduire une étude sur les graphèmes.