Méthodes de fouille de données en épidémiologie psychiatrique : application à l’analyse des facteurs et marqueurs de risque de la symptomatologie dépressive à l’adolescence.

par Aminata Ali

Thèse de doctorat en Santé publique - épidémiologie

Sous la direction de Bruno Falissard et de Caroline Barry.

Le président du jury était Emmanuel Chazard.

Le jury était composé de Maria Melchior, Cédric Galéra, Mohamed Sedki.

Les rapporteurs étaient Maria Melchior, Cédric Galéra.


  • Résumé

    L’adolescence est une période de vulnérabilité pour la dépression, sur le plan psychologique et biologique. La littérature sur la dépression à l’adolescence est très fournie sur ses facteurs de risque et de protection ainsi que sur les différentes manifestations externalisées pouvant servir de signe d’appel. Cependant, les modèles de prédiction du risque restent peu performants. La recherche systématique et approfondie des combinaisons entre marqueurs/facteurs de risque pourrait être un moyen d’améliorer ces modèles. Les techniques issues des méthodes de « fouille de données » (data mining, machine Learning DMML) semblent de plus en plus utilisées sur des problématiques similaires. Ce travail de thèse va s’intéresser à l’application des méthodes issues du DMML à la dépression durant l’adolescence. Dans ce contexte, l’objectif sera i) de cartographier l’utilisation réelle de ces méthodes en épidémiologie et santé publique ii) d’analyser les patterns d’interactions entre les facteurs/marqueurs de risque de la dépression à l’adolescence afin de développer de nouvelles pistes utiles dans le repérage de cette population.En premier lieu, une analyse bibliométrique de Medline, sera réalisée afin de quantifier l’essor des méthodes issues du DMML en santé publique et épidémiologie et d’en caractériser les domaines d’application majeurs. Dans un second temps, une comparaison de l’apport de deux méthodes de classification quant à leur capacité à modéliser le risque de dépression : ensemble d’arbres par régression boostée, des forêts aléatoires par rapport à une régression logistique LASSO sans interaction sera réalisée. Pour finir, une méthode de partitionnement supervisée, appelée « Régression sur profil», sera utilisée pour créer des clusters d’adolescents à partir des variables explicatives de la dépression et de la dépression. Les données issues de l’enquête transversale en milieu scolaire «Processus d’adolescence» seront utilisées. Elle inclut, 15235 adolescents, répondant à un auto-questionnaire anonyme contenant la dépression via l’Adolescent Depression Rating Scale et les variables explicatives de la dépression présentes dans l’enquête. Cette thèse a montré les intérêts et les difficultés quant à l’utilisation des méthodes issues du DMML pour la recherche d’associations pertinentes en épidémiologie psychiatrique.

  • Titre traduit

    Data Mining Methods in Psychiatric Epidemiology : Application on the Analysis of Risks Factors in Depressive Symptoms at Adolescence


  • Résumé

    Adolescence is a vulnerable period for depression, both psychologically and biologically. The literature on depression in adolescence is very extensive on risk and protective factors and on the various externalized manifestations that can serve as warning sign. However, prediction models remain poorly performing. Systematic and in-depth research into the combinations of risk factors/markers could improving these models. Techniques derived from data mining/Machine Learning methods (DMML) now seem to be more and more used on similar issues. This work will focus on the application of DMML methods to depression during adolescence. In this context, the objective will be i) to map the actual use of these methods in epidemiology and public health ii) to analyze the associations between risk factors/markers of depression in adolescence in order to develop new useful leads in the identification of this population. First, a bibliometric analysis of Medline will be conducted in order to quantify the development of DMML methods in public health and epidemiology and to characterize their major fields of application. Secondly, a comparison of the contribution of two classification methods in terms of their capacity to model the risk of depression: boosted regression trees, random forests compared to a logistic LASSO regression without interaction will be carried out. Finally, a supervised partitioning method, called «Bayesian Profile regression", will be used to create clusters of adolescents from the explanatory variables of depression and depression. Data from the cross-sectional school survey "Processus adolescence" will be used. It includes 15235 adolescents, responding to an anonymous self-administered questionnaire containing depression via the Adolescent Depression Rating Scale and the explanatory variables for depression present in the survey. This work showed the interests and difficulties of DMML to analysis relevant associations in psychiatric epidemiology.



Le texte intégral de cette thèse sera accessible librement à partir du 03-03-2022


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Saclay. DiBISO. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.