Thèse en cours

Apprentissage de representations invariantes à travers des données temporelles

FR  |  
EN
Auteur / Autrice : Badr Youbi idrissi
Direction : Michèle Sebag
Type : Projet de thèse
Discipline(s) : Informatique mathématique
Date : Inscription en doctorat le 03/05/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
Equipe de recherche : A&O - Apprentissage et Optimisation
référent : Faculté des sciences d'Orsay

Résumé

FR  |  
EN

L'apprentissage profond a démontré d'excellente performances pour déterminer des dépendances statistiques dans des espaces de grande dimension, mais principalement pour des problèmes ayant une distribution sous-jacente des données qui reste inchangée au fil du temps. Cependant, les problèmes du monde réel sont intrinsèquement dynamiques et changeants. Par exemple, les visages ont différentes formes, tailles, couleurs de peau et peuvent se trouver dans des paysages ouverts clairs ou dans des chambres sombres. La distribution de ces attributs peut changer au fil du temps selon l'endroit où l'algorithme de détection de visage est déployé ou par qui il est utilisé. En nous appuyant sur des travaux antérieurs [1,2,3], nous voulons aborder le problème des représentations d'apprentissage invariantes aux changements de distribution, en exposant la machine d'apprentissage à une distribution de données en constante évolution. Dans notre cadre, nous supposons que les données sont produites par un système fixe, sur la période de temps d'intérêt, exposé à un environnement changeant. Par exemple, nous nous intéressons aux tâches de reconnaissance d'objets dans lesquelles les objets sont capturés par des caméras dans des conditions changeantes, mais les objets restent les mêmes. Ainsi, ce problème diffère de celui de la prévision de séries temporelles ou de la régression de séries temporelles, où le système est en constante évolution. Dans notre contexte, le système est figé, mais l'environnement évolue. Ce problème diffère également de l'apprentissage tout au long de la vie et de l'apprentissage continu en ce qu'il ne s'agit pas d'une séquence de tâches discrètes mais d'une distribution de données en constante évolution pour un système fixe. La clé pour résoudre ce problème est d'avoir de bons ensembles de données de référence. L'un des objectifs de cette thèse sera de combler une lacune actuelle dans les jeux de données de référence pour ce problème, en introduisant (1) un problème de référence synthétique utilisant des caractères imprimés (qui pourrait devenir un jeu de données de style MNIST en constante évolution) ; (2) un ensemble de données de compression audio avec des personnes parlant dans des environnements bruyants en constante évolution tels qu'une ville, un bureau ou à la maison. (3) en utilisant un ensemble de données vidéo pour un problème de détection d'objet, obtenu à partir de séquences de caméras portables fixées sur le front d'enfants qui jouent [4]. Nous prévoyons que les méthodes pour résoudre ce problème pourraient inclure une approche auto-supervisée avec une tâche prétexte basée sur l'invariance dans le temps de la représentation. Cela s'appuierait sur les succès récents dans ce domaine [5] et les adapterait au domaine temporel. Nous envisageons que les progrès réalisés au cours de cette thèse pourraient approfondir la recherche sur la généralisation hors distribution, avec des applications à - Détection/reconnaissance d'objets : De nombreux algorithmes de détection/reconnaissance d'objets sont nécessaires dans des environnements dynamiques tels que les voitures autonomes, où les conditions météorologiques et de circulation, ainsi que l'éclairage peuvent changer en permanence. Les missions de sauvetage de robots pourraient bénéficier d'une représentation invariante dans le temps car elles traitent de conditions très uniques et extrêmes qui peuvent rarement être observées autrement dans un ensemble de données de vision normale, par exemple, reconnaître un humain en mer avec une caméra montée sur un hélicoptère pour une recherche et mission de sauvetage. - Compression son/audio : Les médias sociaux ont vu un grand afflux de contenu vidéo, qui comprend également de l'audio. Ce contenu se déroule souvent dans des environnements changeants tels que les maisons ou à l'extérieur. Si nous nous concentrons sur le type de contenu audio posté sur les réseaux sociaux, nous pouvons peut-être apprendre des invariances qui peuvent aider à la compression de ce type de signal. - Reconnaissance vocale automatique Comme pour le contenu audio, la parole a également lieu dans des environnements dynamiques. Apprendre une représentation invariante au fil du temps lorsqu'une personne parle dans un environnement bruyant changeant pourrait aider à isoler la partie vocale du signal audio, améliorant ainsi le fonctionnement des systèmes de reconnaissance du langage ou d'identification du locuteur. **Références** [1] M. Arjovsky, L. Bottou, I. Gulrajani, and D. Lopez-Paz, “Invariant Risk Minimization,” _arXiv:1907.02893 [cs, stat]_, Mar. 2020, Accessed: Sep. 21, 2020. [Online]. Available: [http://arxiv.org/abs/1907.02893](http://arxiv.org/abs/1907.02893) [2] B. Y. Idrissi, M. Arjovsky, M. Pezeshki, and D. Lopez-Paz, “Simple data balancing achieves competitive worst-group-accuracy,” _arXiv:2110.14503 [cs]_, Oct. 2021, Accessed: Dec. 15, 2021. [Online]. Available: [http://arxiv.org/abs/2110.14503](http://arxiv.org/abs/2110.14503) [3] J. von Kügelgen _et al._, “Self-Supervised Learning with Data Augmentations Provably Isolates Content from Style,” _ArXiv_, 2021. [4] J. Sullivan, M. Mei, A. Perfors, E. Wojcik, and M. C. Frank, “SAYCam: A Large, Longitudinal Audiovisual Dataset Recorded From the Infant's Perspective,” _Open Mind_, vol. 5, pp. 20–29, May 2021, doi: [10.1162/opmi_a_00039](https://doi.org/10.1162/opmi_a_00039). [5] M. Caron _et al._, “Emerging Properties in Self-Supervised Vision Transformers,” _arXiv:2104.14294 [cs]_, May 2021, Accessed: Jan. 25, 2022. [Online]. Available: [http://arxiv.org/abs/2104.14294](http://arxiv.org/abs/2104.14294)