Adéquation algorithme-architecture pour les réseaux de neurones à convolution : application à l'analyse de visages embarquée
Auteur / Autrice : | Franck Mamalet |
Direction : | Christophe Garcia |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 06/07/2011 |
Etablissement(s) : | Lyon, INSA |
Ecole(s) doctorale(s) : | École doctorale InfoMaths (Lyon ; 2009-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône ; 2003-....) |
Jury : | Président / Présidente : Michel Paindavoine |
Examinateurs / Examinatrices : Christophe Garcia, Michel Paindavoine, Bertrand Granado, Bernadette Dorizzi, Eric Flamand, Atilla Baskurt | |
Rapporteur / Rapporteuse : Bertrand Granado, Bernadette Dorizzi |
Résumé
La prolifération des capteurs d'images dans de nombreux appareils électroniques, et l'évolution des capacités de traitements à proximité de ces capteurs ouvrent un champ d'exploration pour l'implantation et l'optimisation d'algorithmes complexes de traitement d'images afin de proposer des systèmes de vision artificielle embarquée. Ces travaux s'inscrivent dans la problématique dite d'adéquation algorithme-architecture (A3). Ils portent sur une classe d'algorithmes appelée réseau de neurones à convolutions (ConvNet) et ses applications en analyse de visages embarquée. La chaîne d'analyse de visages, introduite par Garcia et al., a été choisie d'une part pour ses performances en taux de détection/reconnaissance au niveau de l'état de l'art, et d'autre part pour son caractère homogène reposant sur des ConvNets. La première contribution de ces travaux porte sur une étude d'adéquation de cette chaîne d'analyse de visages aux processeurs embarqués. Nous proposons plusieurs adaptations algorithmiques des ConvNets, et montrons que celles-ci permettent d'obtenir des facteurs d'accélération importants (jusqu'à 700) sur un processeur embarqué pour mobile, sans dégradation des performances en taux de détection/reconnaissance. Nous présentons ensuite une étude des capacités de parallélisation des ConvNets, au travers des travaux de thèse de N. Farrugia. Une exploration ''gros-grain'' du parallélisme des ConvNets, suivie d'une étude de l'ordonnancement interne des processeurs élémentaires, conduisent à une architecture parallèle paramétrable, capable de détecter des visages à plus de 10 images VGA par seconde sur FPGA. Nous proposons enfin une extension de ces études à la phase d'apprentissage de ces réseaux de neurones. Nous étudions des restrictions de l'espace des hypothèses d'apprentissage, et montrons, sur un cas d'application, que les capacités d'apprentissage des ConvNets ne sont pas dégradées, et que le temps d'apprentissage peut être réduit jusqu'à un facteur cinq.