De l’analyse statistique de données textuelles aux réseaux de neurones artificiels. Vers des motifs linguistiques profonds

Laurent Vanni

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

De l’analyse statistique de données textuelles aux réseaux de neurones artificiels. Vers des motifs linguistiques profonds

FR |

EN

Auteur / Autrice :	Laurent Vanni
Direction :	Damon Mayaffre, Frédéric Precioso
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 10/12/2021
Etablissement(s) :	Université Côte d'Azur
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....)
Partenaire(s) de recherche :	Laboratoire : Bases, Corpus, Langage (Nice ; 2012-....) - Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes)
Jury :	Président / Présidente : Fabrice Huet
	Examinateurs / Examinatrices : Damon Mayaffre, Frédéric Precioso, Fabrice Huet, Valérie Beaudouin, Florence Sèdes, Dominique Longrée
	Rapporteurs / Rapporteuses : Valérie Beaudouin, Florence Sèdes

Mots clés

FR |

EN

Mots clés contrôlés

Réseaux neuronaux (informatique)

Linguistique -- Informatique

Analyse des données

Statistique linguistique

Apprentissage profond

Mots clés libres

Texte

Motif

Apprentissage profond

Statistique

Linguisitique

Analyse de données textuelles

Résumé

FR |

EN

Au croisement de la statistique textuelle, de l’analyse automatique des langues et du deep learning, cette thèse propose une méthodologie nouvelle pour l’analyse des textes. L'hypothèse de départ repose sur l'architecture des réseaux de neurones et leur capacité à extraire automatiquement l'information contenue dans un texte. La précision des modèles convolutionnels pour la classification de textes souligne l'importance des marqueurs linguistiques identifiés. Pour rendre accessible aux linguistes cette information d'un genre nouveau nous développons un protocole d'analyse qui combine l'approche informatique avec l'approche linguistique. Plus particulièrement :1) La déconvolution (Zeiler et Fergus 2014), procédé algorithmique utilisé dans l’analyse d’images, est appliquée aux textes pour pouvoir décoder la représentation des mots engendrés par le réseau de neurones. Plus généralement nous nous intéressons à l'ensemble des couches d'un modèle profond pour comprendre et transmettre aux linguistes la chaine de traitements qui existe entre les données brutes (le texte) en entrée du réseau et la prédiction en sortie du réseau (classification). Une nouvelle mesure est proposée pour rendre compte du poids des mots dans un modèle profond : le Text Deconvolution Saliency (TDS).2) Les motifs linguistiques fortement théorisés par (S. Mellet et D. Longrée 2009) accompagnent notre raisonnement sur les réseaux de neurones. Leur nature nous pousse à concevoir des architectures profondes capables de considérer le texte comme un objet complexe et multidimensionnel. Les motifs nous conduisent à entrevoir des passages-clés à la sortie d'une déconvolution et des motifs profonds lorsque le modèle utilise plusieurs représentations des mots (forme graphique, catégorie grammaticale, lemme).Ce lien que nous tentons de créer entre observations empiriques (TDS) et théories linguistiques ouvre des voies nouvelles d'interprétation des textes. Les cas d'utilisation de notre méthode sont nombreux et font déjà l'objet de plusieurs études que nous verrons tout au long de cette thèse. L'exploration des réseaux de neurones profonds pour la linguistique de corpus n'en est encore qu'à ses débuts, mais les premiers résultats que nous présentons ici sont dès à présent encourageants.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

De l’analyse statistique de données textuelles aux réseaux de neurones artificiels. Vers des motifs linguistiques profonds

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

De l’analyse statistique de données textuelles aux réseaux de neurones artificiels. Vers des motifs linguistiques profonds

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses