Thèse soutenue

Apprentissage actif pour la détection d'objets d'intérêt opérationnel dans les contenus multimédias

FR  |  
EN
Auteur / Autrice : Paul Guélorget
Direction : Titus Bogdan Zaharia
Type : Thèse de doctorat
Discipline(s) : Informatique, données, IA
Date : Soutenance le 09/12/2022
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Télécom SudParis (Evry ; 2012-....) - Institut Polytechnique de Paris / IP Paris - Advanced Research and TEchniques for Multidimensional Imaging Systems / ARTEMIS-MAP5 - ARMEDIA / ARMEDIA-SAMOVAR
Etablissement opérateur d'inscription : Télécom SudParis (France)
Jury : Président / Présidente : Azeddine Beghdadi
Examinateurs / Examinatrices : Alexis Joly, Jenny Benois Pineau, Anne Verroust-Blondet, Bruno Grilhères
Rapporteurs / Rapporteuses : Alexis Joly, Jenny Benois Pineau

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Une profusion de contenus, acteurs et interactions en source ouverte sont ciblées par les analystes à des fins commerciales, politiques ou de renseignement. Analyser l'immensité de ces données requiert une assistance automatisée. Bien que les propositions récentes en matière d'architectures de réseaux de neurones aient montré de fortes capacités envers les modalités image et texte, leur entraînement exploite des jeux de données massifs, inexistant pour la majorité des classes d'intérêt opérationnel. Pour résoudre ce problème, l'apprentissage actif tire parti de la grande quantité de documents non annotés en sollicitant un oracle humain pour obtenir les labels des documents présumés les plus informatifs, afin d'améliorer la précision. Cependant, les justifications derrière les décisions du modèle sont opaques et sans lien avec celles de l'oracle. De plus, à cause de ses longues étapes successives, le déroulement de l'apprentissage actif nuit à ses performances en temps réel. Nos contributions dans cette thèse visent à analyser et résoudre ces problèmes à quatre niveaux. Premièrement, nous observons les justifications derrière les décision d'un réseau de neurones. Deuxièmement, nous mettons ces justifications en perspective avec celles élaborées par des humains. Troisièmement, nous incitons un réseau de neurones à aligner ses justificatifs sur ceux d'un modèle professeur qui simule ceux d'un oracle humain, et améliorons sa précision. Finalement, nous mettons au point et exploitons un système d'apprentissage actif pour surmonter ses limitations usuelles. Ces études ont été menées sur des données uni-modales texte ou image, ou sur des paires multi-modales texte/image, principalement des articles de presse en anglais et en français. À travers les chapitres de cette thèse, nous traitons plusieurs cas d'utilisation parmi lesquels la reconnaissance du vague et des fausses nouvelles, la détection du manque d'avis contradictoires dans les articles et la classification d'articles comme abordant des sujets arbitrairement choisis, tels que les manifestations ou la violence.