Méthodes de fouille de données en épidémiologie psychiatrique : application à l’analyse des facteurs et marqueurs de risque de la symptomatologie dépressive à l’adolescence.
Auteur / Autrice : | Aminata Ali |
Direction : | Bruno Falissard, Caroline Barry |
Type : | Thèse de doctorat |
Discipline(s) : | Santé publique - épidémiologie |
Date : | Soutenance le 03/03/2021 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Santé Publique |
Partenaire(s) de recherche : | Laboratoire : Centre de recherche en épidémiologie et santé des populations (Villejuif, Val-de-Marne ; 2010-....) |
référent : Université Paris-Saclay. Faculté de médecine (Le Kremlin-Bicêtre, Val-de-Marne ; 2020-....) | |
Jury : | Président / Présidente : Emmanuel Chazard |
Examinateurs / Examinatrices : Maria Melchior, Cédric Galéra, Mohamed Sedki | |
Rapporteurs / Rapporteuses : Maria Melchior, Cédric Galéra |
Mots clés
Résumé
L’adolescence est une période de vulnérabilité pour la dépression, sur le plan psychologique et biologique. La littérature sur la dépression à l’adolescence est très fournie sur ses facteurs de risque et de protection ainsi que sur les différentes manifestations externalisées pouvant servir de signe d’appel. Cependant, les modèles de prédiction du risque restent peu performants. La recherche systématique et approfondie des combinaisons entre marqueurs/facteurs de risque pourrait être un moyen d’améliorer ces modèles. Les techniques issues des méthodes de « fouille de données » (data mining, machine Learning DMML) semblent de plus en plus utilisées sur des problématiques similaires. Ce travail de thèse va s’intéresser à l’application des méthodes issues du DMML à la dépression durant l’adolescence. Dans ce contexte, l’objectif sera i) de cartographier l’utilisation réelle de ces méthodes en épidémiologie et santé publique ii) d’analyser les patterns d’interactions entre les facteurs/marqueurs de risque de la dépression à l’adolescence afin de développer de nouvelles pistes utiles dans le repérage de cette population.En premier lieu, une analyse bibliométrique de Medline, sera réalisée afin de quantifier l’essor des méthodes issues du DMML en santé publique et épidémiologie et d’en caractériser les domaines d’application majeurs. Dans un second temps, une comparaison de l’apport de deux méthodes de classification quant à leur capacité à modéliser le risque de dépression : ensemble d’arbres par régression boostée, des forêts aléatoires par rapport à une régression logistique LASSO sans interaction sera réalisée. Pour finir, une méthode de partitionnement supervisée, appelée « Régression sur profil», sera utilisée pour créer des clusters d’adolescents à partir des variables explicatives de la dépression et de la dépression. Les données issues de l’enquête transversale en milieu scolaire «Processus d’adolescence» seront utilisées. Elle inclut, 15235 adolescents, répondant à un auto-questionnaire anonyme contenant la dépression via l’Adolescent Depression Rating Scale et les variables explicatives de la dépression présentes dans l’enquête. Cette thèse a montré les intérêts et les difficultés quant à l’utilisation des méthodes issues du DMML pour la recherche d’associations pertinentes en épidémiologie psychiatrique.