Apprentissage profond pour les séries temporelles multivariées : contrôle de véhicule autonome, reconnaissance de gestes et génération de mouvement
Auteur / Autrice : | Guillaume Devineau |
Direction : | Fabien Moutarde |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique temps réel, robotique, automatique |
Date : | Soutenance le 02/09/2020 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris) |
Partenaire(s) de recherche : | Laboratoire : Centre de robotique (Paris) |
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....) | |
Jury : | Président / Présidente : Alexandre Gramfort |
Examinateurs / Examinatrices : Fabien Moutarde, Alexander Gepperth, Jean-Philippe Vandeborre | |
Rapporteur / Rapporteuse : Catherine Achard, Christian Wolf |
Mots clés
Mots clés contrôlés
Résumé
L'apprentissage profond est une branche du domaine de l'intelligence artificielle qui vise à doter les machines de la capacité d'apprendre par elles-mêmes à réaliser des tâches précises. L'apprentissage profond a abouti à des développements spectaculaires dans le domaine de l'image et du langage naturel au cours des dernières années. Pourtant, dans de nombreux domaines, les données d'observations ne sont ni des images ni du texte mais des séries temporelles qui représentent l'évolution de grandeurs mesurées ou calculées. Dans cette thèse, nous étudions et proposons différentes représentations de séries temporelles à partir de modèles d'apprentissage profond. Dans un premier temps, dans le domaine du contrôle de véhicules autonomes, nous montrons que l'analyse d'une fenêtre temporelle par un réseau de neurones permet d'obtenir de meilleurs résultats que les méthodes classiques qui n'utilisent pas de réseaux de neurones. Dans un second temps, en reconnaissance de gestes et d'actions, nous proposons des réseaux de neurones convolutifs 1D où la dimension temporelle seule est convoluée, afin de tirer profit des invariances temporelles. Dans un troisième temps, dans un but de génération de mouvements humains, nous proposons des réseaux de neurones génératifs convolutifs 2D où les dimensions temporelles et spatiales sont convoluées de manière jointe. Enfin, dans un dernier temps, nous proposons un plongement où des représentations spatiales de poses humaines sont (ré)organisées dans un espace latent en fonction de leurs relations temporelles.