David Sheeren - These - Intégration de Bases de Données Spatiales

Méthodologie d'évaluation de la cohérence inter-représentations pour l'intégration de bases de données spatiales. Une approche combinant l'utilisation de métadonnées et l'apprentissage automatique.

Thèse de doctorat en Informatique de l'Université Paris 6 - Soutenue le 20 mai 2005

(6.5 M)

Résumé

A l'heure actuelle, la plupart des bases de données spatiales sont gérées de manière indépendante. Cette indépendance pose différents problèmes : elle multiplie les efforts de maintenance et de mise à jour, elle rend difficile la mise en œuvre d'analyses multi-niveaux et ne garantit pas une cohérence entre les sources.

Une gestion conjointe de ces sources nécessite leur intégration qui permet de définir des liens explicites entre les bases et d'en fournir une vision unifiée. Notre thèse s'inscrit dans ce cadre. Le sujet que nous traitons porte en particulier sur la mise en correspondance des données et l'évaluation de la cohérence inter-représentations. Nous cherchons à analyser automatiquement chaque différence de représentation entre les données appariées afin d'en déduire si celle-ci résulte des critères de saisie différents des bases ou d'erreurs de saisie. Cette évaluation vise à garantir une intégration cohérente des données.

Pour étudier la conformité des représentations nous proposons d'exploiter les spécifications des bases. Ces documents décrivent les règles de sélection et de modélisation des objets. Ils constituent des métadonnées de référence pour juger si les représentations sont équivalentes ou incohérentes. L'utilisation de ces documents est toutefois insuffisante. Les spécifications décrites en langue naturelle peuvent être imprécises ou incomplètes. Dans ce contexte, les données des bases constituent une seconde source de connaissances intéressante. L'analyse des correspondances à l'aide de techniques d'apprentissage automatique permet d'induire des règles rendant possible la justification de la conformité des représentations.

La méthodologie que nous proposons repose sur ces éléments. Elle se compose de deux méthodes : MECO et MACO. La première est la Méthode d'Evaluation de la COhérence. Elle comprend plusieurs étapes : l'enrichissement des données, le contrôle intra-base, l'appariement, le contrôle inter-bases et l'évaluation finale. Chacune de ces étapes exploite des connaissances déduites des spécifications ou induites des données par apprentissage automatique, en appliquant MACO (Méthode d'Acquisition de connaissances pour l'évaluation de la COhérence). L'intérêt d'utiliser l'apprentissage est double. Outre le fait qu'il permet d'acquérir des règles pour l'évaluation, il met en évidence l'écart toléré sur les données par rapport aux spécifications papiers.

Notre approche a été mise en œuvre sur des bases de données de l'IGN présentant différents niveaux de détail.

Mots-clés : repésentation multiple, intégration, cohérence, appariement, métadonnées, apprentissage automatique, système-expert.

Abstract

Nowadays most databases are run independently. An independence that leads to a series of problems: repeated efforts of maintenance and updating, difficulty in proceeding with an analysis at various levels and no guarantee of coherence between sources.

Joint management of these sources requires them to be integrated in order to define the explicit links between the various bases and to provide a unified vision. Our thesis deals with this issue. It concentrates in particular on the means of relating data and of assessing coherence between multiple representations. We have sought to systematically analyse each difference in representation between matching data so as to determine whether it results from different criteria used for data capture or from errors in the capture itself, the aim being to ensure coherent data integration.

In order to study the conformity of representations, we suggest exploiting existing database specifications. These documents describe specific selection and modelling rules for objects. They are reference metadata used to determine whether representations are equivalent or incoherent. But their use is insufficient since specifications described in a natural language can be imprecise or incomplete. So the data contained in the bases is a second interesting source of knowledge. If one uses machine learning techniques to analyse how they tally, it becomes possible to establish evaluation rules that enable a justification of the conformity of representations.

The methodology we put forward is based upon these elements. It consists in a coherence evaluation process and a knowledge acquisition proceeding. The process comprises several steps: data enrichment, intra-base control, matching, inter-bases control, and the final assessment. Each of these steps exploits knowledge inferred from the specifications or induced from the data through learning. The benefit of using machine learning techniques is twofold: not only does it enable to acquire evaluation rules, it also reveals the discrepancy tolerated in the data when compared to the written specifications.

This approach has been carried out on IGN databases that showed different levels of detail.

Keywords : multiple representations, Spatial DB integration, consistency, spatial data matching, metadata, machine learning, expert-system.

David Sheeren's Homepage

Thèse de Doctorat

Résumé

Abstract