Thèse soutenue

Caractérisation de l'inclusivité des systèmes de vision par ordinateur basés sur l'apprentissage profond pour les pays du Sud

FR  |  
EN
Auteur / Autrice : Théophile Bayet
Direction : Christophe DenisAlassane BahJean-Daniel Zucker
Type : Thèse de doctorat
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Soutenance le 19/06/2024
Etablissement(s) : Sorbonne université en cotutelle avec Université Cheikh Anta Diop (Dakar, Sénégal ; 1957-....)
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : LIP6 (1997-....)
Jury : Président / Présidente : Nicolas Maudet
Examinateurs / Examinatrices : Mandicou Ba
Rapporteur / Rapporteuse : Céline Hudelot, Dro Désiré Sidibé

Résumé

FR  |  
EN

Les changements mondiaux modernes, tels que le changement climatique et la sixième extinction de masse, perturbent profondément nos sociétés et nos écosystèmes. Les nouvelles technologies, notamment l'apprentissage machine, sont à la fois facteurs aggravants et moyens potentiels d'atténuation des défis que posent ces changements. En 2015, les Nations Unies ont établi les Objectifs de Développement Durable pour évaluer l'impact écologique et les risques pour les populations, révélant que les pays du Sud sont les plus éloignés des objectifs de ce cadre. Les pays avec des infrastructures numériques limitées déploient moins les modèles d'apprentissage machine, rencontrant un problème de glissement de contexte dû à l'incohérence entre les données d'entraînement et de déploiement. En vision par ordinateur, ce glissement est exacerbé par l'absence de données des pays du Sud dans les ensembles d'entraînement, conduisant à une performance réduite des modèles dans ces contextes. Dans cette thèse, nous faisons le pont entre l'intelligence artificielle au service de la science soutenable et l'inclusivité des systèmes de vision par ordinateur. Nous montrons comment les approches qui ont précédé à la notre pour démontrer le manque d'inclusivité des systèmes de vision actuels ont fait l'impasse sur des points importants de la problématique, comme la formalisation du biais géographique et des métriques qui témoignent de son impact. Cela nous amène à proposer un protocole pour la formalisation des biais, qui se base sur l'identification d'une source, d'un type et d'un impact pour la caractérisation de ce dernier. Ce protocole est implémenté pour le biais géographique, en premier lieu sur des données synthétiques. Les bases de données synthétiques connues ne possédant pas de biais géographique, nous nous inspirons des modifications de la base de données MNIST pour créer des bases de données synthétiques comportant des biais géographiques. Nous utilisons ces derniers pour tester l'implémentation de notre protocole et démontrer son utilité. Nous expérimentons ensuite le protocole sur des données réelles pour la caractérisation du biais occidental dans les systèmes de vision, et constatons que les résultats obtenus sont différents de ceux attendus, allant à l'encontre des observations dans les précédents travaux académiques. Nous procédons à une analyse visuelle à différents niveaux de granularité de ces résultats pour tenter de les comprendre et proposer des théories les expliquant. Au final, nous mettons en avant la présence de biais concomitants, des éléments composant le biais géographique mais ayant des impacts différenciés avec l'entité principale. Ces biais concomitants empêchent la caractérisation du biais géographique en influençant les prédictions des modèles. Nous montrons donc comment la problématique de la caractérisation du biais géographique se révèle plus complexe qu'elle ne peut le paraître au premier abord, quels sont les écueils actuels et quelles pistes sont privilégiées pour remédier aux problèmes rencontrés. Globalement, nous proposons à la communauté scientifique des outils pour mieux appréhender les problématiques de déploiement de modèles dans les pays du Sud, afin de mieux comprendre les enjeux de ces déploiements pour des applications en science soutenable.