Thèse soutenue

Apprentissage non-supervisé pour la découverte de propriétés d'objets par découplage entre interaction et interprétation

FR  |  
EN
Auteur / Autrice : Maxime Chareyre
Direction : Jean-Marc BourinetYoucef Mezouar
Type : Thèse de doctorat
Discipline(s) : Génie électrique, électronique et systèmes
Date : Soutenance le 18/12/2023
Etablissement(s) : Université Clermont Auvergne (2021-...)
Ecole(s) doctorale(s) : École doctorale des sciences pour l'ingénieur (Clermont-Ferrand)
Partenaire(s) de recherche : Laboratoire : Institut Pascal (Aubière, Puy-de-Dôme) - Office national d'études et recherches aérospatiales. Département Traitement de l’Information et Systèmes (DTIS)
Jury : Président / Présidente : Olivier Sigaud
Examinateurs / Examinatrices : Jean-Marc Bourinet, Ouiddad Labbani-Igbida, Pierre Fournier, Julien Moras
Rapporteurs / Rapporteuses : Alain Dutech, David Filliat

Résumé

FR  |  
EN

Les robots sont de plus en plus utilisés pour réaliser des tâches dans des environnements contrôlés. Leur utilisation en milieu ouvert est cependant encore confrontée à des difficultés. L'agent robotique est en effet susceptible de rencontrer des objets dont il ignore le comportement et la fonction. Dans certains cas, il doit interagir avec ces éléments pour réaliser sa mission en les collectant ou en les déplaçant mais, sans la connaissance de leurs propriétés dynamiques il n'est pas possible de mettre en place une stratégie de résolution de la mission efficace.Dans cette thèse, nous présentons une méthode visant à apprendre à un robot autonome une stratégie d'interaction physique avec des objets inconnus, sans aucune connaissance a priori, l'objectif étant d'extraire de l'information sur un maximum de propriétés physiques de l'objet à partir des interactions observées par ses capteurs. Les méthodes existantes pour la caractérisation d'objets par interactions physiques ne répondent pas entièrement à ces critères. En effet, les interactions établies ne permettent qu'une représentation implicite de la dynamique des objets, nécessitant une supervision pour identifier leurs propriétés. D'autre part, la solution proposée s'appuie sur des scénarios peu réalistes sans agent. Notre approche se distingue de l'état de l'art en proposant une méthode générique pour l'apprentissage de l'interaction, indépendante de l'objet et de ses propriétés, et pouvant donc être découplée de la phase de leurs prédictions. Cela permet notamment de mener à un pipeline global totalement non-supervisé.Dans une première phase, nous proposons d'apprendre une stratégie d'interaction avec l'objet via une méthode d'apprentissage par renforcement non-supervisée, en utilisant un signal de motivation intrinsèque qui repose sur l'idée de maximisation des variations d'un vecteur d'état de l'objet. Le but est d'obtenir une série d'interactions contenant des informations fortement corrélées aux propriétés physiques de l'objet. Cette méthode a été testée sur un robot simulé interagissant par poussée et a permis d'identifier avec précision des propriétés telles que la masse, la forme de l'objet et les frottements.Dans une seconde phase, nous réalisons l'hypothèse que les vraies propriétés physiques définissent un espace latent explicatif des comportements de l'objet et que cet espace peut être identifié à partir des observations recueillies grâce aux interactions de l'agent. Nous mettons en place une tâche de prédiction auto-supervisée dans laquelle nous adaptons une architecture de l'état de l'art pour construire cet espace latent. Nos simulations confirment que la combinaison du modèle comportemental avec cette architecture permet de faire émerger une représentation des propriétés de l'objet dont les composantes principales s'avèrent fortement corrélées avec les propriétés physiques de l'objet.Les propriétés des objets étant extraites, l'agent peut les exploiter pour améliorer son efficacité dans des tâches impliquant ces objets. Nous concluons cette étude par une mise en avant du gain de performance de l'agent au travers d'un entraînement via l'apprentissage par renforcement sur une tâche simplifiée de repositionnement d'objet où les propriétés sont parfaitement connues.L'intégralité du travail effectué en simulation confirme l'efficacité d'une méthode novatrice visant à découvrir en autonomie les propriétés physiques d'un objet au travers d'interactions physiques d'un robot. Les perspectives d'extension de ces travaux concernent le transfert vers un robot réel en milieu encombré.