Apprentissage profond auto-supervisé par simulation pour la saisie robotique adaptative
Auteur / Autrice : | Amaury Depierre |
Direction : | Liming Chen, Emmanuel Dellandréa |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 21/05/2021 |
Etablissement(s) : | Lyon |
Ecole(s) doctorale(s) : | École doctorale InfoMaths (Lyon ; 2009-....) |
Partenaire(s) de recherche : | établissement opérateur d'inscription : École Centrale de Lyon (1857-....) |
Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) | |
Jury : | Président / Présidente : Véronique Perdereau |
Examinateurs / Examinatrices : Liming Chen, Emmanuel Dellandréa, Matthieu Grard, Alessandra Sciutti | |
Rapporteur / Rapporteuse : Jan Peters, Sylvain Calinon |
Mots clés
Résumé
La maîtrise de la préhension robotique par un robot est nécessaire pour l'accomplissement de toutes les tâches nécessitant la manipulation d'un ou plusieurs objets. Avec une automatisation croissante de l'industrie, ces tâches se retrouvent aujourd'hui dans de nombreux domaines de l'industrie tels que l'automobile, le tri des déchets ou encore l'agro-alimentaire. Dans de tels cas, l'environnement ne peut pas être totalement contrôlé, et il est donc nécessaire de faire appel à des systèmes capables d'analyser leur environnement pour interagir avec eux.Pour ce faire, on ne peut pas toujours utiliser les modèles 3D des objets pour détecter la configuration des instances dans une scène. Dans certains cas, les modèles ne sont pas disponibles. Il est alors possible d'utiliser une approche géométrique pour détecter des opportunités de prises robotiques dans des images. Cependant, ces approches nécessitent de régler de nombreux paramètres manuellement pour que les critères géométriques soient adaptés à la scène. Pour pallier à ce problème, il est possible d'utiliser des méthodes à base d'apprentissage automatique : à partir d'un grand nombre d'exemples d'images et de bonnes positions de prises, un réseau de neurones profond est capable d'apprendre à prédire des bonnes positions sur de nouvelles images. L'acquisition d'une telle quantité de données annotées représente cependant un obstacle pour la robotique.En collaboration avec Siléane, une entreprise de robotique industrielle française, l'objectif de ce travail est donc de développer des solutions pour l'apprentissage de la préhension robotique à travers les données simulées, disponibles en grandes quantités. Dans ce domaine, ce travail apporte deux contributions.Premièrement, nous proposons une nouvelle architecture de réseau de neurones permettant de prédire des positions de prises pour une pince à mors parallèles sur des images d'objets isolés. Les précédents travaux de l'état de l'art utilisaient de faibles quantités de données annotées manuellement. Dans ce travail, nous construisons une très grande base de données d’images synthétiques annotées automatiquement par simulation physique, que nous utilisons ensuite pour entrainer notre réseau. L'utilisation d'une grande quantité de données diversifiées, plutôt que de quelques images seulement, permet au réseau d'être entrainé sur des situations plus variées, et ainsi de pouvoir gérer de plus nombreux cas différents.Dans un deuxième temps, les travaux présentés ici s'intéressent à la détection de prises au sein d'un vrac, i.e. d'un enchevêtrement de nombreux objets avec de forts recouvrements entre eux. Alors que les approches traditionnelles dans ce domaine utilisent une vision locale, classifiant la qualité potentielle d'une prise en fonction des données alentours dans l'image, le réseau proposé complète cette information en ajoutant la notion d'instances d'objets. Entrainé sur des images simulées de manière auto-supervisée, il peut ainsi estimer la qualité d'une position de prise en se basant non seulement sur une information locale, mais également sur le contexte global de l'objet présent à la position considérée dans l'image. A partir de plusieurs expériences, nous montrons que cette double approche permet d'améliorer la qualité des prédictions, aussi bien dans un environnement simulé que dans de vrais contextes robotiques.