Thèse en cours

Des données aux systèmes : étude des liens entre données d’apprentissage et biais de performance genrés dans les systèmes de reconnaissance automatique de la parole

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 16/03/2022. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Mahault Garnerin
Direction : Claudine MoïseLaurent Besacier
Type : Projet de thèse
Discipline(s) : Sciences du langage Spécialité Informatique et sciences du langage
Date : Inscription en doctorat le
Soutenance le 16/03/2022
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale langues, littératures et sciences humaines (Grenoble, Isère, France ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de Linguistique et Didactique des Langues Etrangères et Maternelles
Jury : Président / Présidente : François Portet
Examinateurs / Examinatrices : Claudine Moïse, Laurent Besacier, Jean-François Bonastre, Frédérique Segond, Maria Candea
Rapporteurs / Rapporteuses : Jean-François Bonastre, Frédérique Segond

Résumé

FR  |  
EN

Certains systèmes issus de l'apprentissage machine, de par leurs données et les impensés qu'ils encapsulent, contribuent à reproduire des inégalités sociales, alimentant un discours sur les ``biais de l'intelligence artificielle''. Ce travail de thèse se propose de contribuer à la réflexion collective sur les biais des systèmes automatiques en questionnant l'existence de biais de genre dans les systèmes de reconnaissance automatique de la parole ou ASR (pour Automatic Speech Recognition). Penser l'impact des systèmes nécessite une articulation entre les notions de biais (ayant trait à la constitution du système et de ses données) et de discrimination, définie au niveau de la législation de chaque pays. On considère un système comme discriminatoire lorsqu'il effectue une différence de traitement sur la base de critères considérés comme brisant le contrat social. En France, le sexe et l'identité de genre font partie des 23 critères protégés par la législation. Après une réflexion théorique autour des notions de biais, et notamment sur le biais de prédictif (ou biais de performance) et le biais de sélection, nous proposons un ensemble d'expériences pour tenter de comprendre les liens entre biais de sélection dans les données d'apprentissage et biais prédictif du système. Nous nous basons sur l'étude d'un système HMM-DNN appris sur des corpus médiatiques francophones, et d'un système end-to-end appris sur des livres audio en anglais. Nous observons ainsi qu'un biais de sélection du genre important dans les données d'apprentissage contribue de façon assez partielle au biais prédictif du système d'ASR, mais que ce dernier émerge néanmoins lorsque les données de parole regroupent des situations d'énonciation et des rôles de locuteurs et locutrices différents. Ce travail nous a également conduite à questionner la représentation des femmes dans les données, et plus généralement à repenser les liens entre conception théorique du genre et s ystèmes d'ASR.