Gestion de la qualité de données, basée sur le contexte, dans les systèmes d'information hétérogènes

par Flavia Serra Sosa

Projet de thèse en Informatique

Sous la direction de Patrick Marcel, Adriana Marotta et de Veronika del Carmen Peralta Costabel.

Thèses en préparation à Tours en cotutelle avec l'UNIVERSITÉ DE LA RÉPUBLIQUE (UdelaR) , dans le cadre de Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes - MIPTIS , en partenariat avec Laboratoire d'Informatique Fondamentale et Appliquée de Tours (laboratoire) depuis le 02-12-2019 .


  • Résumé

    L'importance de la qualité des données et mondialement reconnue (les problèmes de qualité des données coutent plus d'un trillion de dollars par an aux entreprise des USA ; 30% des leaders des grandes entreprises n'ont pas confiance en leurs données ; etc.). Si les principaux investissements ont d'abords concerné les applications financières et la gestion de la relation client (CRM), aujourd'hui l'attention est portée sur le passage à l'échelle (big data), sur la découverte et l'intégration de nouvelles sources de données aux formats diverses et sur l'évaluation de la véracité des informations sous-jacentes. La qualité des données ouvertes (open data) est un challenge, surtout dans les applications de gouvernement numérique (e-government). Les initiatives gouvernementales, visant à publier leurs données afin d'assurer la transparence de leurs services, sont de plus en plus nombreuses. Plusieurs pays (ex. Angleterre, Canada, Estonie, Irlande) sont très avancés dans le traitement des données publiques pour le gouvernement électronique et visent une démarche 100% open data. Les données issues des services publiques ont des caractéristiques particulières. Elles sont plutôt statistiques, confidentielles (santé, fiscal, etc.), fortement géo-référencées, et sont souvent dupliquées et contradictoires (car provenant d'une variété d'applications et de services) proviennent d'une variété d'applications et de services qui sont souvent dupliqués et contradictoires. Leur publication comme données ouvertes n'est possible qu'au prix de lourds traitements visant à évaluer et garantir leur qualité. En plus, les utilisateurs de ces systèmes sont très variés, allant des fonctionnaires (avec différents niveaux de formation et responsabilité) jusqu'aux citoyens (utilisateurs des applications). En conséquence, le contexte applicatif, concernant tant les utilisateurs que la tâche à accomplir, est très important et ouvre de nouveaux verrous. Cette thèse a pour objectif la proposition d'un framework de gestion de la qualité qui permette la prise en compte des contextes tout au long du cycle de vie de la donnée. Les propositions seront expérimentées dans le cadre de plusieurs agences d'e-gouvernement.

  • Titre traduit

    Context-based data quality management for heterogeneous Information Systems


  • Résumé

    The importance of data quality is recognized worldwide (data quality issues cost US companies more than 1 trillion dollars per year; 30% of business leaders of big companies do not trust their data; etc.). Whereas the main investments have concerned financial applications and customer relationship management (CRM), today the focus is on scaling up (big data), discovering and integrating new data sources (with varied data formats) and on the assessment of the veracity of the underlying information. Open data quality is a challenge, especially in e-government. Government initiatives to publish their data, to ensure the transparency of their services, are growing in number. Several countries (e.g. England, Canada, Estonia, Ireland) are very advanced in the treatment of public data for e-government and their aim is a 100% open data approach. Data from public services have special characteristics. In particular, they are mostly statistical, confidential (health, fiscal, etc.), highly geo-referenced, and are often duplicated and contradictory because they come from a variety of applications and services. Their publication as open data is only possible at the expense of heavy treatments to evaluate and guarantee their quality. In addition, the users of these systems are very varied, from civil servants (with different levels of training and responsibility) to citizens (users of applications). As a result, the application context, concerning users and the task at hand, is very important and opens new challenges. The purpose of this thesis is to pose a quality management framework that allows to take into account contexts throughout the data lifecycle. The proposals will be tested in the framework of several e-government agencies.