Thèse soutenue

Interactions entre informations dans les processus de diffusion
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Gaël Poux-Médard
Direction : Sabine Loudcher RabasedaJulien Velcin
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/09/2022
Etablissement(s) : Lyon 2
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon
Partenaire(s) de recherche : établissement opérateur d'inscription : Université Lumière (Lyon ; 1969-....)
Laboratoire : Entrepôts, Représentation et Ingénierie des Connaissances
Jury : Président / Présidente : Pierre Borgnat
Examinateurs / Examinatrices : Camille Roth, Fabrice Rossi
Rapporteurs / Rapporteuses : Sabine Largeron

Résumé

FR  |  
EN

À compter du développement de l'écriture, il y a environ 5000 ans, la quantité de données générées par l'homme n'a cessé de croître de façon exponentielle. Cette tendance est étroitement liée au rythme des innovations techniques facilitant leur diffusion ; chacune de ces avancées va de pair avec le développement de méthodes visant à faciliter leur archivage. Or, aujourd’hui, l'archivage classique ne peut répondre à nos besoins. L’immense quantité de données générée quotidiennement requiert de nouvelles stratégies de récupération de l'information. Plutôt que référencer individuellement chaque fragment d'information (un tweet, un mème, une vidéo), comme le ferait une méthode d'archivage standard, une approche plus pertinente consiste à comprendre les principales idées convoyées par les flux d'informations à une échelle globale. Discerner de telles tendances à partir d'une masse de données apparemment informe nécessite une compréhension fine des mécanismes de génération de données sous-jacentsDans la riche littérature traitant du fonctionnement de tels mécanismes, la question de l'interaction entre différents fragments d'information est restée largement inexplorée. Plus explicitement, peu de travaux ont étudié le rôle de l'influence de données produites antérieurement par une population sur les mécanismes génératifs de données produites ultérieurement par cette même population. Dans ce manuscrit, nous développons un éventail de nouvelles méthodes d'apprentissage automatique, permettant d'explorer cet aspect particulier des mécanismes de génération de données en ligne.En premier lieu, nous examinons la fréquence de telles interactions entres fragments d'information. Sur la base de récentes avancées en Stochastic Block Modelling, nous explorons le rôle de ces interactions dans la génération d'informations sur plusieurs plateformes sociales en ligne. Cette première étude nous permet de conclure que les interactions sont rares dans ces jeux de données.Ensuite, nous nous intéressons à l'évolution temporelle de ces interactions ; un fragment d'information ne devrait pas influencer indéfiniment les mécanismes de génération ultérieurs, ni de la même manière au cours du temps. Une publicité peut par exemple influer les comportements d'achat à court terme, mais pas nécessairement à l'échelle d'une décennie. Nous modélisons ce phénomène dans des jeux de données provenant des réseaux sociaux, en nous basant sur de récents progrès effectués en inférence de graphes dynamiques. Nous en tirons la conclusion que les interactions sont brèves, et que leur intensité décroît généralement de manière exponentielle avec le temps.Enfin, en guise de réponse aux difficultés soulevées dans les deux paragraphes précédents, nous élaborons une méthode permettant de modéliser des interactions rares et brèves. Ce faisant, nous étudions des connexions encore peu exploitées entre les processus de Dirichlet et les processus ponctuels. Nous explorons cette voie en vue de la résolution de notre problème, et discutons à cette occasion le concept plus général de processus de Dirichlet-Point. Nous justifions l'usage de cette nouvelle classe de modèles dans la modélisation d'interactions rares et brèves. En guise de conclusion, nous conduisons une application à grande échelle de notre méthode sur un jeu de données provenant de Reddit ; suite à cette étude, nous concluons que les interactions jouent un rôle mineur dans ce cas précis.D'un point de vue plus global, nos travaux aboutissent à une collection de modèles flexibles en termes de champs d'applications, d'une part, et à une réflexion sur plusieurs concepts au coeur des méthodes d'apprentissage automatique actuelles d'autre part. Ce faisant, nous ouvrons la voie à une panoplie de nouvelles perspectives, tant en termes d'applications à des problématiques de recherche transdisciplinaires, qu'en termes de contributions à l'apprentissage automatique en tant que tel.