Apprentissage non supervisé à grande échelle de réseaux neuronaux profonds

par Mathilde Caron

Projet de thèse en Mathématiques et Informatique

Sous la direction de Julien Mairal.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire Jean Kuntzmann (Grenoble) (laboratoire) et de LEAR : Learning and Recognition in Vision (equipe de recherche) depuis le 12-11-2018 .


  • Résumé

    L'apprentissage automatique est une classe d'algorithme qui a de très nombreuses applications technologiques, notamment dans les domaines de la vision par ordinateur et de la reconnaissance d'image. En effet, les réseaux neuronaux profonds pré-entraînés de manière supervisée représentent aujourd'hui la pierre angulaire de la vision par ordinateur. Ils permettent de produire d'excellentes représentations intermédiaires des images qui peuvent ensuite être utilisées pour améliorer des modèles appris sur une petite quantité de données. Plus spécifiquement, une pratique standard de nos jours pour résoudre une tâche de reconnaissance d'image (détection d'objets, segmentation ou classification d'images par exemple) est d'utiliser un réseau neuronal profond pré-entraîné et ensuite de l'adapter à la tâche particulière à résoudre. L'entraînement des réseaux neuronaux profonds nécessite d'importante quantité de données ainsi que des ressources de calcul conséquentes. L'existence de bases de données entièrement annotées composée de plusieurs millions d'images, a suscité de nombreux progrès dans le pré-entraînements des réseaux neuronaux profonds. Néanmoins, les performances ont aujourd'hui tendance à saturer sur ces bases de donnée, et ce malgré la mise en place d'architectures de plus en plus élaborées. Par ailleurs, ces bases de données annotées ne recouvrent qu'une partie du champs du visible, spécifique à la classification d'objet, et ont une taille relativement petite par rapport à la quantité d'images disponible sur Internet. Une piste naturelle pour améliorer les performances du pré-entraînement des réseaux neuronaux profonds serait donc d'utiliser des bases de données plus grosses et recouvrant une plus grande variété de contenu. Cependant, construire une telle base de données supervisée requiert un effort d'annotation trop important. Aussi, les représentations apprises par un réseau neuronal profond sont nécessairement spécifiques au domaine particulier sur lequel le pré-entraînement a eu lieu. Ainsi, les méthodes actuelles sont tributaires de l'existence d'une importante base de donnée annotée dans le domaine spécifique de la tâche d'application. Cela pose problème dans des domaines tels que l'imagerie satellite ou médicale. Le but de cette thèse CIFRE est donc de mettre en place des méthodes d'entraînement de réseaux neuronaux profonds sur des base de données arbitrairement grandes qui ne nécessitent aucune supervision.

  • Titre traduit

    Large scale unsupervised learning of deep neural networks


  • Résumé

    Deep learning is a type of algorithms that has many technological applications, in particular in the fields of computer vision and image recognition. Indeed, deep neural networks pre-trained with supervision represent the building blocks of computer vision. They make it possible to produce excellent intermediate representations of images that can then be used to improve models learned on a small amount of data. More specifically, a standard practice nowadays to solve an image recognition task (object detection, segmentation or image classification for example) is to use a pre-trained deep neural network and then to adapt it to the particular task to be solved. The training of deep neural networks requires a large amount of data as well as significant computing resources. The existence of fully annotated databases consisting of several million images has led to many advances in the pre-training of deep neural networks. Nevertheless, the performances tend today to saturate on these databases, and this despite the numerous novel elaborate architectures. In addition, these databases cover only a portion of the visible field, specific to object classification, and are relatively small in size compared to the amount of images available on the Internet. A natural way to improve pre-training performance of deep neural networks would be to use larger databases that cover a wider variety of content. However, building such a supervised database requires too much annotation effort. Also, the representations learned by a deep neural network are necessarily specific to the particular domain on which the pre-training took place. Thus, current methods depend on the existence of a large annotated database in the specific domain of the application task. This is problematic in areas such as satellite or medical imaging. The goal of this CIFRE thesis is to set up deep neural network training methods on arbitrarily large databases that do not require any supervision.