Collage: agents capable d'écoute et d'apprentissage collectif pour l'improvisation générative
Auteur / Autrice : | Orian Sharoni |
Direction : | Gérard Assayag |
Type : | Projet de thèse |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Inscription en doctorat le 01/11/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Sciences et technologies de la musique et du son (Paris ; 1983-....) |
Résumé
Le projet de recherche doctorale intitulé ''Collage: agents capable d'écoute et d'apprentissage collectif pour l'improvisation générative'' vise à ameliorier les interactions musiciens-machines par le développement de l'intelligence sociale artificielle (ASI). Le projet est supervisé par Gérard Assayag de l'Ircam et Vincent Lostanlen du LS2N, CNRS. Le domaine de l'intelligence artificielle (IA) a connu une croissance considérable au cours de la dernière décennie, mais la plupart des systèmes d'IA existants manquent de capacités pour le travail en équipe et l'interaction sociale, un phénomène appelé ''IA faible''. COLLAGE vise à combler ces lacunes en introduisant l'ASI, notamment dans le contexte de l'improvisation musicale collaborative. Le projet émet l'hypothèse que la musique est une plateforme expérimentale idéale pour l'ASI pour trois raisons : La musique est intrinsèquement sociale et émotionnelle. La performance musicale inclut à la fois des éléments planifiés et spontanés, ressemblant à la prise de décision dans le monde réel. Le processus créatif en musique est de plus en plus lié à des outils computationnels. COLLAGE vise à s'éloigner des paradigmes traditionnels de l'apprentissage supervisé pour se concentrer sur l'apprentissage auto-supervisé (SSL). Il prévoit de déployer des algorithmes d'apprentissage de représentation multi-vues pour l'écoute et l'apprentissage collectifs (CoLL). Le projet fonctionnera sur des données audio pour analyser comment les musiciens écoutent et répondent les uns aux autres en temps réel. Le projet contribue notamment au domaine de l'écoute artificielle en appliquant le SSL aux données multimodales, une approche qui a déjà eu du succès en neurosciences auditives