Thèse en cours

Traitement de la parole adapté au domaine médical

FR  |  
EN
Auteur / Autrice : Yanis Labrak
Direction : Mickael Rouvier
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 02/09/2022
Etablissement(s) : Avignon
Ecole(s) doctorale(s) : École doctorale Sciences et agrosciences (Avignon)
Partenaire(s) de recherche : Laboratoire : LIA - Laboratoire d'Informatique d'Avignon
Equipe de recherche : SLG - Speech and Language Group

Résumé

FR  |  
EN

Cette thèse vise à proposer des approches innovantes en traitement de la parole pour le domaine de la santé. L'objectif principal est de concevoir un modèle multimodal et multilingue capable de traiter simultanément la parole et le texte, en exploitant les connaissances textuelles pour améliorer les tâches de reconnaissance automatique de la parole, de question-réponse et d'extraction d'informations à partir de la parole. La thèse se concentre initialement sur l'amélioration et l'évaluation des systèmes en cascade composés d'un système de transcription automatique de la parole et d'un modèle de langue (e.g. : BERT, T5 ou Mistral) dans le cadre de tâches spécifiques comme la structuration des informations, l'anonymisation et les questions-réponses parlées. Ensuite, nous proposons d'explorer l'intégration de la modalité de la parole dans les modèles de langue autorégressifs, afin de proposer une alternative aux systèmes de bout-en-bout (E2E) existants et de tirer parti de la grande disponibilité des données textuelles médicales. Nous souhaitons également réfléchir à des solutions autour des avancées en termes de méthodes d'apprentissage en contexte de données limitées, telles que Low Rank Adaptation (LoRa), les méthodes de conditionnement des modèles pendant l'inférence (few-shot in-context learning) et l'optimisation des ressources matérielles (quantification variable de la précision des nombres flottants). Nous souhaitons ainsi rendre les systèmes E2E moins coûteux à adapter à de nouvelles langues et domaines de spécialité comme la santé, tout en offrant des performances plus intéressantes, des temps d'inférence plus rapides, et en réduisant l'impact matériel.