Apprentissage actif pour la détection d'objets d'intérêt opérationnel dans les contenus multimédias
Auteur / Autrice : | Paul Guélorget |
Direction : | Titus Bogdan Zaharia |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique, données, IA |
Date : | Soutenance le 09/12/2022 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Télécom SudParis (Evry ; 2012-....) - Institut Polytechnique de Paris / IP Paris - Advanced Research and TEchniques for Multidimensional Imaging Systems / ARTEMIS-MAP5 - ARMEDIA / ARMEDIA-SAMOVAR |
Etablissement opérateur d'inscription : Télécom SudParis (France) | |
Jury : | Président / Présidente : Azeddine Beghdadi |
Examinateurs / Examinatrices : Alexis Joly, Jenny Benois Pineau, Anne Verroust-Blondet, Bruno Grilhères | |
Rapporteurs / Rapporteuses : Alexis Joly, Jenny Benois Pineau |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Une profusion de contenus, acteurs et interactions en source ouverte sont ciblées par les analystes à des fins commerciales, politiques ou de renseignement. Analyser l'immensité de ces données requiert une assistance automatisée. Bien que les propositions récentes en matière d'architectures de réseaux de neurones aient montré de fortes capacités envers les modalités image et texte, leur entraînement exploite des jeux de données massifs, inexistant pour la majorité des classes d'intérêt opérationnel. Pour résoudre ce problème, l'apprentissage actif tire parti de la grande quantité de documents non annotés en sollicitant un oracle humain pour obtenir les labels des documents présumés les plus informatifs, afin d'améliorer la précision. Cependant, les justifications derrière les décisions du modèle sont opaques et sans lien avec celles de l'oracle. De plus, à cause de ses longues étapes successives, le déroulement de l'apprentissage actif nuit à ses performances en temps réel. Nos contributions dans cette thèse visent à analyser et résoudre ces problèmes à quatre niveaux. Premièrement, nous observons les justifications derrière les décision d'un réseau de neurones. Deuxièmement, nous mettons ces justifications en perspective avec celles élaborées par des humains. Troisièmement, nous incitons un réseau de neurones à aligner ses justificatifs sur ceux d'un modèle professeur qui simule ceux d'un oracle humain, et améliorons sa précision. Finalement, nous mettons au point et exploitons un système d'apprentissage actif pour surmonter ses limitations usuelles. Ces études ont été menées sur des données uni-modales texte ou image, ou sur des paires multi-modales texte/image, principalement des articles de presse en anglais et en français. À travers les chapitres de cette thèse, nous traitons plusieurs cas d'utilisation parmi lesquels la reconnaissance du vague et des fausses nouvelles, la détection du manque d'avis contradictoires dans les articles et la classification d'articles comme abordant des sujets arbitrairement choisis, tels que les manifestations ou la violence.