Thèse soutenue

Détection et caractérisation des interruptions dans les interactions orales pour la description du comportement des femmes et des hommes dans les contenus audiovisuels

FR  |  
EN
Auteur / Autrice : Rémi Uro
Direction : Albert RilliardDavid DoukhanMarie Tahon
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/10/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....) - Institut national de l'audiovisuel (France ; 1986-....) - Laboratoire d'informatique de l'Université du Mans
Référent : Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....)
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-….)
Jury : Président / Présidente : Sophie Rosset
Examinateurs / Examinatrices : Chloé Clavel, Plínio Almeida Barbosa, François Portet, Solange Rossato, Richard Dufour, Virginie Julliard
Rapporteurs / Rapporteuses : Chloé Clavel, Plínio Almeida Barbosa

Résumé

FR  |  
EN

Les travaux présentés dans ce manuscrit décrivent la conception de systèmes de traitement automatiques des langues (TAL) permettant d'aborder la question de l'analyse de phénomènes complexes liés aux interactions humaines, tels que les interruptions. Dans un premier temps, deux études sont présentées, qui montrent les capacités des systèmes de TAL pour pouvoir mener des études sociologiques ou linguistiques à grande échelle. (1) La combinaison des méthodes quantitative et qualitative est précieuse pour de mener des études sur la représentation des femmes et des hommes dans les médias. Ainsi, des travaux ont été menés avec des chercheur·euses en sociologie des médias, notamment des études sur les temps de parole en fonction des rôles réalisées dans le cadre du projet ANR GEM; une analyse de la manière dont le genre se manifeste et organise le discours d'information dans le cadre du Global Media Monitoring Project; et une participation aux rapports annuels sur la représentation des femmes et des hommes de l'ARCOM. (2) Un corpus diachronique de voix, équilibré en genre et âge, a été constitué à partir des archives de l'INA pour quatre périodes (1955, 1975, 1995, 2015). La chaîne de traitement automatique mise en place permet une identification humaine des locuteur·ices plus rapide d'un facteur dix. La fréquence fondamentale (F0) et la longueur du conduit vocal (VTL) ont été estimés pour chaque locuteur·ice. Les voix plus récentes sont aussi plus graves, indépendamment du genre. Une baisse de la hauteur est observée avec l'âge pour les locutrices, pas pour les locuteurs. Cette étude ne soutient pas l'hypothèse d'un changement comportemental spécifique aux femmes. (3) Un test perceptif étudie les jugements de la possibilité de prise de parole. Des Unités Inter-Pauses (IPU) ont été extraites de dialogues et annotées en terminalité, puis présentées sous forme audio ou textuelle. Les participant·es indiquaient la possibilité de prendre la parole « Maintenant », « Bientôt » ou « Pas encore ». Les participant·es sont moins susceptibles de prendre la parole pour les frontières non terminales en modalité audio que textuelle. La modalité audio permet également d'anticiper une fin de tour de parole au moins trois mots avant sa fin. La modalité textuelle permet moins d'anticipation. Cela soutiennent l'importance de la parole pour la planification des dialogues. (4) Peu de ressources de langage décrivent les phénomènes d'interruption, en particulier pour les contenus médiatiques. Nous présentons une annotation des lieux de transition pertinents (TRP) et des types d'événements de prise de parole sur un corpus télévisuel et radiophonique français, pour faciliter l'étude des interruptions. Chaque changement de locuteur·ice est annoté avec la présence ou non d'un TRP, et une classification de la prise de parole suivante. L'accord inter-annotateur atteint κ=0,75 pour l'annotation en TRP. Il semble que le phénomène d'interruption n'est pas forcément lié à la présence de parole superposée. Sur la base de ce corpus, des systèmes automatiques ont été conçus, comparant les approches audio, texte et des fusions des deux. Nous rapportons les résultats pour différentes stratégies de fusion et des tailles de contexte variables. Cette étude questionne également le problème de la variabilité des performances en analysant les différences de résultats pour plusieurs exécutions d'entraînement avec initialisation aléatoire. Les modèles se basant sur une fusion de l'audio et du texte, et sur l'audio seul ont des performances similaires (exactitude>95%) tandis que le texte seul a des performances inférieures (autour de 90%). Le modèle basé uniquement sur l'audio est plus léger et ne requiert pas de transcription comme étape de pré-traitement. Ainsi, il semble le plus viable pour un usage dans des conditions réelles. Les résultats obtenus tendent à montrer que de tels systèmes pourraient être utilisés pour une analyse à grande échelle de la prise de tour de parole.