Thèse en cours

Quelles opinions émergent des modèles de langue ? Une étude des grands modèles de langue multilingues et francophones.

FR  |  
EN
Auteur / Autrice : Léo Labat
Direction : François Yvon
Type : Projet de thèse
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Inscription en doctorat le 02/09/2024
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Institut des Systèmes Intelligents et de Robotique
Equipe de recherche : Interactions Multi-Echelles

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Le projet de thèse se concentre sur l'analyse des opinions politiques dans les grands modèles de langue multilingues, avec un intérêt marqué pour les modèles francophones. L'objectif est d'examiner comment ces modèles, utilisés dans des agents conversationnels tels que ChatGPT, peuvent produire ou reproduire certaines opinions et sembler manifester des ''biais idéologiques''. Étant donné le développement rapide de ces technologies et leur déploiement dans diverses applications, comprendre leur fonctionnement est essentiel, bien que difficile en raison de leur nature de « boîte noire », qui empêche une interprétation claire de leurs paramètres et de leur comportement. Dans un premier temps, il s'agit de prolonger les études empiriques existantes sur les modèles de langue et leur relation avec l'opinion publique, par l'élaboration de protocoles expérimentaux visant à identifier et caractériser automatiquement les tendances idéologiques des modèles, tant sur le plan politique que linguistique. Les données des sondages français (INSEE, Ined, Ifop) serviront de références et de prompts pour les modèles, permettant une comparaison entre les opinions humaines et celles générées par les modèles de langue francophones, tels que CamemBERT ou GPT 3.5. Il s'agit également de mobiliser les outils d'analyse automatique d'opinions du Traitement Automatique des Langues (TAL), habituellement appliqués aux discours humains, pour analyser les textes générés par les modèles de langue. S'appuyant sur l'entraînement de tels algorithmes sur des corpus de textes français existants ou spécialement constitués, dans un contexte socio-politique français distinct des cadres américains souvent dominants dans ce domaine d'étude, l'objectif est de projeter les opinions exprimées dans les textes générés par les modèles dans un espace des opinions pour mieux les caractériser. Enfin, le projet explorera la possibilité de « contrôler » la génération d'opinions par ces modèles en modifiant leurs algorithmes de génération ou en les réentraînant sur des corpus idéologiquement biaisés. Cela inclut la manipulation des embeddings ou l'introduction de biais politiques dans la fonction objectif, afin de déterminer dans quelle mesure la génération d'opinions est contrôlable et, potentiellement, neutralisable.