Thèse soutenue

Intégration de connaissances contextuelles dans des modèles à base d’apprentissage profond pour l’analyse de données visuelles

FR  |  
EN
Auteur / Autrice : Fatima Ezzahra Benkirane
Direction : Vincent HilaireYassine RuichekNathan Crombez
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 28/02/2024
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Connaissance et Intelligence Artificielle Distribuées (CIAD) (Dijon) - Connaissance et Intelligence Artificielle Distribuées [Dijon] / CIAD
Etablissement de préparation : Université de technologie de Belfort-Montbéliard (1999-....)
Jury : Président / Présidente : Marie-Hélène Abel
Examinateurs / Examinatrices : Vincent Hilaire, Yassine Ruichek, Nathan Crombez, Abdelmalik Taleb-Ahmed, Sylvie, Julie Chambon
Rapporteurs / Rapporteuses : Abdelmalik Taleb-Ahmed, Sylvie, Julie Chambon

Résumé

FR  |  
EN

La vision par ordinateur a connu une évolution importante, passant des méthodes traditionnelles aux modèles d'apprentissage profond. L’un des principaux objectifs des tâches de vision par ordinateur est d’émuler la perception humaine. En effet, le processus classique effectué par les modèles d’apprentissage profond dépend entièrement des caractéristiques visuelles, reflétant simplement la manière dont les humains perçoivent visuellement leur environnement. Cependant, pour que les humains comprennent l’environnement qui les entoure, leur raisonnement dépend non seulement de leurs capacités visuelles, mais aussi de leurs connaissances pré-acquises. Combler cette différence entre la perception humaine et celle des machines est essentielle afin de parvenir à un raisonnement similaire à celui des humains. Dans cette thèse, nous proposons de nouvelles approches pour améliorer les performances des modèles d’apprentissage profond en intégrant les systèmes basés sur les connaissances dans les réseaux de neuronaux profonds. L'objectif est d’aider ces réseaux à prendre les bonnes décisions en exploitant à la fois les caractéristiques visuelles et les connaissances pour émuler l’analyse visuelle de l’être humain. Ces méthodologies impliquent deux axes principaux. Premièrement, définir la représentation des connaissances pour incorporer des informations utiles à une tâche spécifique de vision. Deuxièmement, examiner comment intégrer ces connaissances dans les réseaux de neurones pour améliorer leurs performances. La première contribution porte sur l'estimation de la profondeur monoculaire. En effet, les humains sont capables d'estimer leur distance par rapport aux objets perçus, même en n’utilisant qu’un seul œil, et ceci en se basant sur les indices monoculaires. Nous proposons d'intégrer ces indices au sein des réseaux de neurones comme un raisonnement similaire à celui des humains pour l'estimation de la profondeur. À cette fin, nous suggérons d'exploiter un modèle ontologique pour représenter l'environnement comme un ensemble de concepts liés par des relations sémantiques. Les informations sur les indices monoculaires sont extraites grâce à un raisonnement effectué sur l'ontologie proposée et sont transférées dans les réseaux de neurones. Le deuxième travail porte sur la tâche de segmentation panoptique qui vise à identifier toutes les instances d’objets capturées dans une image. Nous proposons une approche qui combine les avantages des réseaux de neurones avec des connaissances sur les relations spatiales entre les objets. Nous avons choisi ce type de connaissances car elles peuvent fournir des indices utiles pour résoudre les ambiguïtés et distinguer entre les instances d'objets similaires. Plus précisément, nous proposons une stratégie d'entraînement qui intègre les connaissances dans le processus d'optimisation des réseaux de neurones. L’approche comprend un processus d'extraction et de représentation des connaissances sur les relations spatiales, qui sont incorporées dans l’entraînement sous forme d'une fonction de perte. Afin de valider l'efficacité des approches proposées, nous avons choisi l'environnement urbain et les véhicules autonomes comme principale cas d’application. Ce domaine est particulièrement intéressant car il s'agit d'un axe de recherche novateur en développement continu, avec des implications significatives pour la sécurité et la mobilité des humains. En conclusion, nous avons étudié diverses approches pour représenter les connaissances et les intégrer aux réseaux de neurones. Ces approches valident que l’utilisation combinée de méthodes basées sur les connaissances et celles basées sur les données conduit de manière constante à des résultats améliorés. Le défi principal réside toujours dans le choix des connaissances pertinentes pour chaque tâche, leur représentation et leur intégration de la manière la plus optimale dans l'architecture des réseaus de neurones profonds.