Clustering de données mixtes temporelles pour la modélisation d'enquêtes longitudinales
Auteur / Autrice : | Francesco Amato |
Direction : | Julien Jacques, Isabelle Prim-allaz |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques |
Date : | Inscription en doctorat le 16/11/2021 |
Etablissement(s) : | Lyon 2 |
Ecole(s) doctorale(s) : | InfoMaths - Informatique et Mathématiques de Lyon |
Partenaire(s) de recherche : | Laboratoire : ERIC |
Mots clés
Résumé
Les deux principaux besoins visés par cette thèse sont, d'une part, la gestion de données longitudinales mixtes et, d'autre part, l'élaboration d'un modèle facilement compréhensible et interprétable pour les praticiens ayant une formation non-strictement statistique. Le cur de la thèse est le développement d'un modèle statistique et d'algorithmes d'inférence associés, dans le but de fournir un outil d'analyse des enquêtes répétées dans le temps, sous la forme d'un paquet R, afin que les chercheurs en sciences humaines et sociales puissent facilement utiliser le modèle qui en résulte. La tâche d'apprentissage automatique à laquelle nous voulons répondre pour ces données n'est pas supervisée : il n'y a pas de notions spécifiques que nous voulons prédire, mais nous voulons explorer les données afin de présenter des comportements typiques. Cette tâche est connue sous le nom de clustering : nous voulons créer des clusters de données de sorte que les observations au sein d'un cluster soient similaires et que les clusters soient différents les uns des autres. Ainsi, l'analyse des données ne sera plus basée sur l'observation des réponses individuelles aux questionnaires, mais sur les synthèses fournies par les clusters. Plus précisément, une fois que l'ensemble des données d'observations au fil du temps sera regroupé, les clusters rassembleront un ensemble de participants qui ont la même évolution des réponses au fil du temps. Ces informations sont essentielles pour l'analyse des données du point de vue des sciences humaines et sociales.