Détection de clickbait utilisant fusion multimodale et apprentissage par transfert
Auteur / Autrice : | Rajapaksha Waththe Vidanelage Praboda Chathurangani Rajapaksha |
Direction : | Noël Crespi, Reza Farahbakhsh |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 27/11/2020 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Télécom SudParis (France) - Institut Polytechnique de Paris / IP Paris - Département Réseaux et Services Multimédia Mobiles / RS2M - Réseaux, Systèmes, Services, Sécurité / R3S-SAMOVAR |
Jury : | Président / Présidente : Gareth Tyson |
Examinateurs / Examinatrices : Xiaoming Fu, Christophe Cerisara, Bruce Macdowell Maggs, Cécile Bothorel | |
Rapporteurs / Rapporteuses : Xiaoming Fu, Christophe Cerisara |
Résumé
Presque tous les internautes sont susceptibles d'être victimes de clickbait, supposant à tort qu’il s’agit d’informations légitimes. Un type important de clickbait se présente sous la forme de spam et de publicités qui sont utilisés pour rediriger les utilisateurs vers des sites web. Un autre type de "clickbait" est conçu pour faire la une des journaux et rediriger les lecteurs vers leurs sites en ligne, mais ces nouvelles sensationnelles peuvent être trompeuses. Il est difficile de prédire le degré de click-baity d'une nouvelle donnée car les clickbait sont des messages très courts et écrits de manière souvent obscure. La principale caractéristique qui permet d'identifier les clickbait est d'explorer l'écart entre ce qui est attendu dans un post, le titre de l'information et l’information réellement présente dans l'article qui y est lié. Dans cette thèse, on propose deux approches innovantes pour explorer le clickbait généré par les médias d'information dans les médias sociaux. Les contributions 1) de proposer une approche multimodèle basée sur la fusion en incorporant des techniques d'apprentissage profond et d'exploration de texte et 2) d’adapter les modèles d'apprentissage par transfert (TL) pour étudier l'efficacité des transformateurs permettant de prédire le contenu des clickbaits.