Génération d'histoires à partir de données de téléphone intelligentes : une approche de script

par Trung Ky Nguyen

Thèse de doctorat en CIA - Ingénierie de la Cognition, de l'interaction, de l'Apprentissage et de la création

Sous la direction de Catherine Garbay et de François Portet.

Thèses en préparation à Grenoble Alpes , dans le cadre de Ingénierie pour la santé la Cognition et l'Environnement , en partenariat avec Laboratoire d'Informatique de Grenoble (laboratoire) .


  • Résumé

    Le script est une structure qui décrit une séquence stéréotypée d'événements ou d'actions survenant dans notre vie quotidienne. Les histoires utilisent des scripts , avec une ou plusieurs déviations intéressantes, qui nous permettent de mieux saisir les situations quotidiennes rapportées et les faits saillants du récit. Ainsi, la notion de script est très utile dans de nombreuses applications d'intelligence ambiante telles que la surveillance de la santé et les services d'urgence. Ces dernières années, l'avancement des technologies de détection et des systèmes intégrés permettent aux systèmes de santé de collecter en permanence les activités des êtres humains, en intégrant des capteurs dans des dispositifs portables (par exemple smart-phone ou smart-watch). La reconnaissance de l'activité humaine (HAR) a ainsi connue un essor important grâce notamment à des approches d'apprentissage automatique telles que le réseau neuronal ou le réseau bayésien. Ces avancées ouvre des perspectives qui vont au delà de la simple reconnaissance d'activités. Ce manuscrit défend la thèse selon laquelle ces données de capteurs portables peuvent être utilisées pour générer des récits articulés autour de scripts en utilisant l'apprentissage automatique. Il ne s'agit pas d'une tâche triviale en raison du grand écart sémantique entre les informations brutes de capteurs et les abstractions de haut niveau présente dans les récits. A notre connaissance, il n'existe toujours pas d'approche pour générer un une histoire à partir de données de capteurs en utilisant l'apprentissage automatique, même si de nombreuses approches d'apprentissage automatique (réseaux de neurones convolutifs, réseaux de neurones profonds) ont été proposées pour la reconnaissance de l'activité humaine au cours des dernières années. Afin d'atteindre notre objectif, nous proposons premièrement dans cette thèse un nouveau cadre qui traite le problème des données non uniformément distribuées (problème du biais induit par des classes majoritaires par rapport aux classes minoritaires) basé sur un apprentissage actif associé à une technique de suréchantillonnage afin d'améliorer la macro-exactitude de classification des modèles d'apprentissage classiquescommeleperceptionmulti-couche. Deuxièmement, nousprésentonsunnouveausystème permettant de générer automatiquement des scripts à partir de données d'activité humaine à l'aide de l'apprentissage profond. Enfin, nous proposons une approche pour l'apprentissage de scripts à partir de textes en langage naturel capable d'exploiter l'information syntaxique et sémantique sur le contexte textuel des événements. Cette approche permet l'apprentissage de l'ordonnancement d'événements à partir d'histoires décrivant des situations typiques de vie quotidienne. Les performances des méthodes proposées sont systématiquement discutées sur une base expérimentale.

  • Titre traduit

    Story Generation from Smart Phone Data: A Script Approach


  • Résumé

    Script is a structure describes an appropriate sequence of events or actions in our daily life. A story, is invoked a script with one or more interesting deviations, which allows us to deeper understand about what were happened in routine behaviour of our daily life. Therefore, it is essential in many ambient intelligence applications such as healthmonitoring and emergency services. Fortunately, in recent years, with the advancement of sensing technologies and embedded systems, which make health-care system possible to collect activities of human beings continuously, by integrating sensors into wearable devices (e.g., smart-phone, smart-watch, etc.). Hence, human activity recognition (HAR) has become a hot topic interest of research over the past decades. In order to do HAR, most researches used machine learning approaches such as Neural network, Bayesian network, etc. Therefore, the ultimate goal of our thesis is to generate such kind of stories or scripts from activity data of wearable sensors using machine learning approach. However, to best of our knowledge, it is not a trivial task due to very limitation of information of wearable sensors activity data. Hence, there is still no approach to generate script/story using machine learning, even though many machine learning approaches were proposed for HAR in recent years (e.g., convolutional neural network, deep neural network, etc.) to enhance the activity recognition accuracy. In order to achieve our goal, first of all in this thesis we proposed a novel framework, which solved for the problem of imbalanced data, based on active learning combined with oversampling technique so as to enhance the recognition accuracy of conventional machine learning models i.e., Multilayer Perceptron. Secondly, we introduce a novel scheme to automatically generate scripts from wearable sensor human activity data using deep learning models, and evaluate the generated method performance. Finally, we proposed a neural event embedding approach that is able to benefit from semantic and syntactic information about the textual context of events. The approach is able to learn the stereotypical order of events from sets of narrative describing typical situations of everyday life.