Thèse soutenue

De l’analyse statistique de données textuelles aux réseaux de neurones artificiels. Vers des motifs linguistiques profonds
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Laurent Vanni
Direction : Damon MayaffreFrédéric Precioso
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/12/2021
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes)
Partenaire(s) de recherche : Laboratoire : Bases, Corpus, Langage (Nice ; 2012-....) - Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Fabrice Huet
Examinateurs / Examinatrices : Damon Mayaffre, Frédéric Precioso, Fabrice Huet, Valérie Beaudouin, Florence Sèdes, Dominique Longrée
Rapporteurs / Rapporteuses : Valérie Beaudouin, Florence Sèdes

Résumé

FR  |  
EN

Au croisement de la statistique textuelle, de l’analyse automatique des langues et du deep learning, cette thèse propose une méthodologie nouvelle pour l’analyse des textes. L'hypothèse de départ repose sur l'architecture des réseaux de neurones et leur capacité à extraire automatiquement l'information contenue dans un texte. La précision des modèles convolutionnels pour la classification de textes souligne l'importance des marqueurs linguistiques identifiés. Pour rendre accessible aux linguistes cette information d'un genre nouveau nous développons un protocole d'analyse qui combine l'approche informatique avec l'approche linguistique. Plus particulièrement :1) La déconvolution (Zeiler et Fergus 2014), procédé algorithmique utilisé dans l’analyse d’images, est appliquée aux textes pour pouvoir décoder la représentation des mots engendrés par le réseau de neurones. Plus généralement nous nous intéressons à l'ensemble des couches d'un modèle profond pour comprendre et transmettre aux linguistes la chaine de traitements qui existe entre les données brutes (le texte) en entrée du réseau et la prédiction en sortie du réseau (classification). Une nouvelle mesure est proposée pour rendre compte du poids des mots dans un modèle profond : le Text Deconvolution Saliency (TDS).2) Les motifs linguistiques fortement théorisés par (S. Mellet et D. Longrée 2009) accompagnent notre raisonnement sur les réseaux de neurones. Leur nature nous pousse à concevoir des architectures profondes capables de considérer le texte comme un objet complexe et multidimensionnel. Les motifs nous conduisent à entrevoir des passages-clés à la sortie d'une déconvolution et des motifs profonds lorsque le modèle utilise plusieurs représentations des mots (forme graphique, catégorie grammaticale, lemme).Ce lien que nous tentons de créer entre observations empiriques (TDS) et théories linguistiques ouvre des voies nouvelles d'interprétation des textes. Les cas d'utilisation de notre méthode sont nombreux et font déjà l'objet de plusieurs études que nous verrons tout au long de cette thèse. L'exploration des réseaux de neurones profonds pour la linguistique de corpus n'en est encore qu'à ses débuts, mais les premiers résultats que nous présentons ici sont dès à présent encourageants.