Apprentissage sensorimoteur profond, auto-supervisé et actif de représentations d'objets manipulables
| Auteur / Autrice : | Telio Dupuis |
| Direction : | Jean-Charles Quinton, Mathieu Lefort |
| Type : | Projet de thèse |
| Discipline(s) : | CIA - Ingénierie de la Cognition, de l'interaction, de l'Apprentissage et de la création |
| Date : | Inscription en doctorat le 01/10/2025 |
| Etablissement(s) : | Université Grenoble Alpes |
| Ecole(s) doctorale(s) : | École doctorale ingénierie pour la santé, la cognition, l'environnement |
| Partenaire(s) de recherche : | Laboratoire : Laboratoire Jean Kuntzmann |
| Equipe de recherche : SVH - Statistique pour les sciences du Vivant et de l'Homme |
Résumé
Le sujet porte sur l'apprentissage de représentations à partir de séquences d'interaction avec l'environnement. Nous nous appuierons en particulier sur la théorie des contingences sensorimotrices [3,4] afin que l'action structure à la fois les représentations apprises mais également la dynamique de l'interaction. Dans ce cadre, nous voulons apprendre des structures prédictives du monde, permettant de définir de manière auto-supervisée les objets comme graphes d'interactions potentielles [5]. Durant la thèse, les problématiques suivantes seront abordées : - Comment intégrer l'action dans les modèles existants d'apprentissage profond auto-supervisé (par exemple Transformer ou State Space Models) et quelle est son influence sur les structures et les capacités prédictives du modèle. - Comment apprendre des structures spatio-temporelles pouvant correspondre à des notions de proto-objets. Des approches hybrides couplant des graphes et de l'apprentissage profond seront étudiées, en particulier pour apprendre des structures multi-échelles, localement organisées et globalement reliées. Ces représentations pourront également servir de signal de supervision pour les approches auto-supervisées utilisées pour l'apprentissage multimodal effectué dans une autre partie du projet. - Comment obtenir des méthodes efficaces en termes de temps d'apprentissage et de données utilisées. En effet, l'utilisation de l'action requiert un simulateur qui induit des temps de calculs plus importants que l'utilisation d'une base de données. La possibilité de faire du pré apprentissage hors ligne (par exemple avec des comportements aléatoires pré enregistrés) sera étudiée. De plus, des mécanismes d'apprentissage actifs (par un choix d'action opportun pour obtenir une information utile) seront proposés afin de réduire la quantité de données d'apprentissage nécessaires pour atteindre un certain niveau de performance. Ces mécanismes, par la formalisation d'hypothèses testables sur l'environnement, permettront également de réduire la taille des représentations (en ne conservant que les sous parties prédictibles des entrées). Ces recherches pourront également être couplées avec des mécanismes de choix de politiques explorées dans une autre partie du projet. Ces différentes pistes seront testées dans des environnements simples (comme nous l'avons fait avec Tetris [6]), ou dans un environnement de simulation robotique avec des objets aux formes et propriétés simples (en lien avec les autres recherches menées dans le projet MeSMRise).