Analyse et détection des émotions verbales dans les interactions orales

par Laurence Vidrascu

Thèse de doctorat en Informatique

Sous la direction de Laurence Devillers.

Soutenue en 2007

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    La thèse traite de l’analyse et la classification des états émotionnels perçus dans la parole lors de conversations naturelles. La majorité des expériences ont été effectuées sur des données enregistrées dans un centre d’appel médical contenant 20h de conversation homme-homme. La première partie du travail a consisté à proposer un protocole d’annotation adapté à la complexité des données réelles avec en particulier la possibilité d’annoter deux états émotionnels par segment. Des réflexions ont été conduites sur la manière de valider ces annotations et un vecteur « émotion » a été déduit de chaque annotation. Ces vecteurs ont révélé la présence d’états émotionnels mélangés qui ont été analysés et validés par des tests perceptifs. La deuxième partie porte sur la mise en œuvre d’algorithmes de classification pour détecter des états émotionnels après l’extraction de plus d’une centaine d’indices paralinguistiques par segment. Les segments non complexes du corpus ont été utilisés pour entraîner des classifieurs, principalement des Support Vector Machine (SVM), afin de discriminer 2 à 5 classes « Emotion ». Les performances ont également été comparées selon le type d’indices extraits et en prenant en considération le sexe ou le rôle (agent/client) du locuteur. Une collaboration a été effectuée avec d’autres sites du réseau d’excellence HUMAINE afin de comparer les indices et méthodes sur des données en allemand. Les performances du LIMSI étaient au niveau de l’état de l’art. Enfin, une comparaison entre les états émotionnels présents dans des données actées et naturelles a montré que les modèles entraînés sur un type de données ne fonctionnaient pas forcément sur l’autre.

  • Titre traduit

    Emotion analysis and detection in real-life spontaneous speech


  • Résumé

    The thesis addresses the representation and automatic detection of emotions in natural speech. Most experiments were conducted on data recorded in a 20-hour real-life human-human call center. In a first part, we present and validate an annotation scheme allowing the annotation of emotion mixtures. Several annotations are combined in an "emotion vector" and the presence of many blended emotions is thus revealed. Those emotion mixtures are further studied with two perceptive tests. In the second part, more than a hundred paralinguistic cues are extracted per emotion segments and the non complex segments are used to train classifiers, mostly Support Vector Machine. Discrimination experiments are done with 2 to 5 emotion classes. Some take into consideration the speaker gender and role, i. E. Agent vs. Client. The relative importance of different paralinguistic cues as well as the combination of linguistic and paralinguistic cues are also studied. In addition, during a collaboration between different sites involved in the HUMAINE network of excellence, we have been able to compare and combine our expertise on a common corpus. The results obtained by LIMSI were at the state of the art. Finally, we study the performances of classifiers trained and tested on different corpus. In the case of acted speech and natural speech, models trained on one type of data do not necessarily work on the other type of data.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (III-3-197 p.)
  • Annexes : Bibliogr. p. 189-196

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2007)310
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.