Thèse soutenue

Vers un outil sémantique d’autocodage qualitatif pour l’évaluation de l’acceptabilité des innovations
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Doriane Simonnet
Direction : Georges Antoniadis
Type : Thèse de doctorat
Discipline(s) : Sciences du langage Spécialité Informatique et sciences du langage
Date : Soutenance le 03/03/2022
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale langues, littératures et sciences humaines (Grenoble ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de linguistique et didactique des langues étrangères et maternelles (Grenoble)
Jury : Président / Présidente : Panayota-Tita Kyriacopoulou
Examinateurs / Examinatrices : François Portet, Jean Caelen
Rapporteurs / Rapporteuses : Alain Polguère, Guy Lapalme

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les techniques du Traitement Automatique des Langues (TAL) et les méthodes d’analyse qualitative des données textuelles entretiennent une certaine affinité épistémologique. Malgré cela, l’analyse qualitative ne profite pas pleinement des apports potentiels du TAL. En particulier, les travaux visant à une réelle automatisation du codage qualitatif des données restent somme toute assez rares. Cette thèse se donne pour ambition d’investiguer le potentiel de différentes techniques du TAL dans cet objectif et pour une tâche qui nécessite un certain degré d’expertise humaine. Elle vise à la création d’un outil utilisable dans un contexte industriel et pour une méthode d’analyse spécifique qui permet d’évaluer l’acceptabilité des innovations. Cette méthode mobilise une grille de 20 codes qui présentent une complexité sémantique plus élevée que ceux traditionnellement utilisés en analyse qualitative outillée.Nous explorons les moyens de parvenir à effectuer cette tâche à travers une approche ascendante puis une approche descendante. Pour la première, nous réalisons une exploration lexicométrique sur un corpus de données d’études anciennes afin de définir le profil lexical des données attendues pour chaque code. Puis, nous traitons le problème qui nous est posé comme une tâche de classification en testant des classifieurs statistiques de plusieurs types. Nous investiguons également les possibilités offertes par la projection d’une ressource syntaxico-sémantique sur le corpus.Nous suivons ensuite une approche descendante moins conventionnelle. Pour celle-ci, nous réalisons une modélisation experte du paradigme de l’entretien qualitatif d’évaluation de l’acceptabilité sous forme d’ontologie. Cette modélisation est assortie à un lexique construit de manière ad hoc. Nous proposons ainsi une architecture originale d’outil d’analyse sémantique dans laquelle les triplets de l’ontologie servent de support à l’interprétation et dont des sous-ensembles constituent des règles de classification. Nous obtenons un outil d’analyse hyperspécialisé dont les performances dépassent celles obtenues par le machine learning sur notre corpus d’entraînement. Cet outil est porté jusqu’à l’opérationnalisation, par son intégration dans une plateforme d’autocodage, en vue de la mise en place d’un processus d’apprentissage continu.