Apport du TAL à l’exploitation linguistique d’un corpus scolaire longitudinal

Claire Wolfarth

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Claire Wolfarth
Direction :	Catherine Brissaud, Claude Ponton
Type :	Thèse de doctorat
Discipline(s) :	Sciences du langage Spécialité Informatique et sciences du langage
Date :	Soutenance le 09/12/2019
Etablissement(s) :	Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) :	École doctorale langues, littératures et sciences humaines (Grenoble ; 1991-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire de linguistique et didactique des langues étrangères et maternelles (Grenoble)
Jury :	Président / Présidente : Cédrick Fairon
	Examinateurs / Examinatrices : Karën Fort, Lilia Terrugi
	Rapporteurs / Rapporteuses : Cédrick Fairon, Claire Doquet-Lacoste

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage de l'écriture

Traitement automatique du langage naturel

Mots clés libres

Linguistique outillée

Recueil de corpus d’écrits scolaires

TAL et corpus scolaires

Alignement automatique

Apprentissage de l’écriture

Production de texte

Résumé

FR |

EN

Depuis peu, émerge une réelle dynamique de constitution et de diffusion de corpus d’écrits scolaires, notamment francophones. Ces corpus, qui appuient les travaux en didactique de l’écriture, sont souvent de taille restreinte et peu diffusés. Des corpus longitudinaux, c'est-à-dire réalisant le suivi d’une cohorte d’élèves et permettant de s’intéresser à la progressivité des apprentissages, n’existent pas à ce jour pour le français.Par ailleurs, bien que le traitement automatique des langues (TAL) ait outillé des corpus de natures très diverses, peu de travaux se sont intéressés aux écrits scolaires. Ce nouveau champ d’application représente un défi pour le TAL en raison des spécificités des écrits scolaires, et particulièrement les nombreux écarts à la norme qui les caractérisent. Les outils proposés à l’heure actuelle ne conviennent donc pas à l’exploitation de ces corpus. Il y a donc un enjeu pour le TAL à développer des méthodes spécifiques.Cette thèse présente deux apports principaux. D’une part, ce travail a permis la constitution d’un corpus d’écrits scolaires longitudinal (CP-CM2), de grande taille et numérisé, le corpus Scoledit. Par « constitution », nous entendons le recueil, la numérisation et la transcription des productions, l’annotation des données linguistiques et la diffusion de la ressource ainsi constituée. D’autre part, ce travail a donné lieu à l’élaboration d’une méthode d’exploitation de ce corpus, appelée approche par comparaison, qui s’appuie sur la comparaison entre la transcription des productions et une version normalisée de ces productions pour produire des analyses.Cette méthode a nécessité le développement d’un aligneur de formes, appelé AliScol, qui permet de mettre en correspondance les formes produites par l’élève et les formes normalisées. Cet outil représente un premier niveau d’alignement à partir duquel différentes analyses linguistiques ont été menées (lexicales, morphographiques, graphémiques). La conception d’un aligneur en graphèmes, appelé AliScol_Graph, a été nécessaire pour conduire une étude sur les graphèmes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apport du TAL à l’exploitation linguistique d’un corpus scolaire longitudinal

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apport du TAL à l’exploitation linguistique d’un corpus scolaire longitudinal

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses