système d'information pour la production de connaissances ......le projet « german handbuch...

16
Système d’Information pour la production de connaissances : l’approche wiki sémantique Éric Leclercq Marinette Savonnet Laboratoire LE2I - UMR CNRS 5158 Université de Bourgogne 9, Avenue Alain Savary 21078 Dijon, France [email protected] RÉSUMÉ. Dans cet article, nous montrons comment les wikis peuvent être des solutions perti- nentes pour construire un corpus numérique dans des domaines caractérisés par une évolution rapide de la connaissance. Nous mettons en exergue les capacités d’extension sémantique du wiki offrant une meilleure qualité du contenu, améliorant la recherche par la possibilité d’écrire des requêtes complexes et supportant différents types d’utilisateurs. Nous commençons par une comparaison de la représentation de la connaissance et de son exploitation dans les appli- cations. L’architecture de WikiBridge, un wiki sémantique qui permet des annotations simples, n-aire et récursives ainsi que la vérification de consistance est présentée. Une section est consa- crée à la validation de WikiBridge avec une application archéologique (le projet CARE) ainsi que la conception de l’ontologie qui représente la connaissance fondamentale nécessaire. ABSTRACT. In this paper, we highlight how wikis can be relevant solutions for building appli- cations in domains characterized by a rapid evolution of knowledge. We will point out the capabilities of semantic extension to provide better quality of content, to improve searching, to support complex queries and finally to carry out on different type of users. We detail the architecture of WikiBridge, a semantic wiki which allows simple, n-ary and recursive annota- tions as well as consistency checking. A specific section is dedicated to the description of the CARE project and ontology design which is the compulsory foundational knowledge for the application. MOTS-CLÉS : wiki sémantique, ingénierie ontologique, connaissance évolutive KEYWORDS: semantic wiki, ontological engineering, evolutive knowledge

Upload: others

Post on 04-Sep-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

Système d’Information pour la productionde connaissances : l’approche wikisémantique

Éric Leclercq — Marinette Savonnet

Laboratoire LE2I - UMR CNRS 5158Université de Bourgogne9, Avenue Alain Savary21078 Dijon, [email protected]

RÉSUMÉ. Dans cet article, nous montrons comment les wikis peuvent être des solutions perti-nentes pour construire un corpus numérique dans des domaines caractérisés par une évolutionrapide de la connaissance. Nous mettons en exergue les capacités d’extension sémantique duwiki offrant une meilleure qualité du contenu, améliorant la recherche par la possibilité d’écriredes requêtes complexes et supportant différents types d’utilisateurs. Nous commençons par unecomparaison de la représentation de la connaissance et de son exploitation dans les appli-cations. L’architecture de WikiBridge, un wiki sémantique qui permet des annotations simples,n-aire et récursives ainsi que la vérification de consistance est présentée. Une section est consa-crée à la validation de WikiBridge avec une application archéologique (le projet CARE) ainsique la conception de l’ontologie qui représente la connaissance fondamentale nécessaire.

ABSTRACT. In this paper, we highlight how wikis can be relevant solutions for building appli-cations in domains characterized by a rapid evolution of knowledge. We will point out thecapabilities of semantic extension to provide better quality of content, to improve searching,to support complex queries and finally to carry out on different type of users. We detail thearchitecture of WikiBridge, a semantic wiki which allows simple, n-ary and recursive annota-tions as well as consistency checking. A specific section is dedicated to the description of theCARE project and ontology design which is the compulsory foundational knowledge for theapplication.

MOTS-CLÉS : wiki sémantique, ingénierie ontologique, connaissance évolutive

KEYWORDS: semantic wiki, ontological engineering, evolutive knowledge

Page 2: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

1. Introduction

Les plates-formes collaboratives sont des outils essentiels pour les scientifiques.En effet, elles permettent une aide au développement de théories, à la formalisationde connaissances, à la publication de résultats ou de jeux de données. Les élémentsprésentés au travers de la plate-forme doivent pouvoir être adaptés à différentes caté-gories d’utilisateurs (experts, visiteurs amateurs, novices, etc.). De plus, elles doiventpouvoir interagir avec des modules externes permettant par exemple la visualisationde données complexes, l’analyse spatiale ou statistique. De même, elles doivent êtrecapables de gérer à la fois une connaissance formelle et une connaissance informelle,et permettre un "cycle de découverte scientifique". Pour atteindre de tels résultats, ilest important de respecter des standards partagés par la communauté scientifique. Desstandards bien établis existent dans de nombreux domaines comme CIDOC-CRM1

pour le patrimoine culturel, OBO2 pour les domaines biologique et biomédical. Linsterdans (Linster, 1992) montre que l’interaction entre les experts du domaine, les spécia-listes en ingénierie de représentation des connaissances et les outils créent la connais-sance. Il a montré que le processus pour élaborer un système à base de connaissancesest un processus itératif de construction de modèles qui comprend : 1) un processusde discussion entre les spécialistes en ingénierie de représentation des connaissanceset les experts du domaine et 2) la construction d’un modèle conceptuel c’est-à-dired’un cadre général et abstrait. Ainsi, à l’issue de ce processus, différents types de mo-dèles sont construits : des modèles conceptuels descriptifs construits dans l’objectifde représenter la connaissance du domaine et des modèles exécutables construits dansl’objectif d’implémenter l’application.

La suite de l’article est organisée selon 5 sections. La section 2 présente une dis-cussion sur la représentation de la connaissance entre les notions de modèles concep-tuels, ontologies et modèles exécutables. La section 3 propose un panorama des wikissémantiques et de leur utilisation dans le patrimoine culturel. La section 4 décrit l’ar-chitecture de WikiBridge, la section 5 décrit l’application archéologique qui nous apermis de valider les concepts mis en œuvre dans WikiBridge. Finalement la section6 conclut cet article.

2. Représentation de la connaissance

Dans cette section, nous proposons, dans un premier temps, d’aborder la repré-sentation de la connaissance selon l’angle modèle puis selon l’angle ontologie. Nouscomparons ensuite la conception d’une application collaborative avec une base dedonnées et avec un wiki.

1. http://www.cidoc-crm.org/2. http://www.obofoundry.org/

Page 3: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

2.1. Modèles versus ontologies

La modélisation peut se faire dans différents espaces technologiques (Kurtev et al.,2002), en utilisant par exemple une modélisation basée sur UML ou une modélisationbasée sur les ontologies. Les ontologies et les modèles UML sont similaires pourla représentation des connaissances d’un domaine dans la mesure où ils proposenttous les deux des modes de description à base de concepts et de relations entre cesconcepts. Selon Spear (Spear, 2006), la description d’un domaine suppose un choixprécis dans les limites des descriptions. Ces limites peuvent être appréhendées selondeux dimensions :

– la dimension horizontale ou pertinence a pour objectif de déterminer l’étenduede l’information qui sera incluse dans la description. Par exemple, si l’on représente ledomaine de l’archéologie, la pertinence recouvre le choix d’inclure ou non les sourcesdocumentaires, la géologie, les techniques de construction ;

– la dimension verticale ou granularité a pour objectif de déterminer le niveaude détail de la représentation des connaissances. Par exemple, si l’on représente ledomaine de l’archéologie, la granularité recouvre le choix de représenter un édifice dela structure des murs jusqu’aux éléments du décor, aux sols.

Dans un même modèle UML, il est difficile d’inclure une description générale decertains éléments et des détails sur d’autres (dimension verticale), sauf à prendre lerisque de construire un modèle difficile à comprendre et à maintenir. En revanche,un modèle UML peut utiliser différentes sources pour représenter la connaissance, etainsi ajuster l’étendue (dimension horizontale) de la connaissance qu’il recouvre. Aucontraire, les ontologies offrent un grand degré de liberté pour gérer la granularité dela connaissance (dimension verticale). Ces deux approches de modélisation sont donccomplémentaires :

- dans la modélisation : les différents niveaux de granularité sont apportés par lesontologies et l’étendue du domaine est apportée par les modèles UML ;

- au niveau des capacités de raisonnement sous-jacentes : la classification desconcepts et leurs propriétés peuvent être inférées dans les ontologies et vérifiées dansles modèles (contraintes OCL) ;

- au niveau de la logique formelle : l’hypothèse du monde ouvert des logiques dedescription utilisées dans le cadre du Web Sémantique en association avec les ontolo-gies et l’hypothèse du monde clos associée aux modèles des bases de données. Motiket al. (Motik et al., 2007) étudient les approches pour réconcilier ces deux hypothèses.

2.2. Modèles exécutables pour représenter l’application

Un modèle exécutable est la plus haute couche d’abstraction basée sur les lan-gages d’implémentation (Jiang et al., 2008). Par exemple, executable UML restreintle diagramme de classes en supprimant les associations de composition et d’agréga-

Page 4: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

tion, mais aussi les attributs multivalués, permettant ainsi une traduction automatiquevers le modèle relationnel par exemple. De façon similaire, nous pouvons voir uneontologie dans l’outil Protégé comme un modèle exécutable.

Cependant, la conception d’une application s’appuyant sur une base de données(modèle exécutable) présente les inconvénients suivants : 1) des modèles conçus pardeux équipes différentes pour deux bases de données différentes avec des champsd’application voisins, seront sans doute difficiles à intégrer a posteriori car chaqueconcepteur possède son propre style de modélisation ; 2) le schéma, résultant de lanormalisation et de l’adaptation au SGBD cible, est en général éloigné du modèleconceptuel ; 3) dans des domaines où la connaissance évolue comme la biologie (avecles technologies de production de données à haut débit) ou l’archéologie (avec lestechniques de datation de plus en plus précises), le schéma est établi très tôt lors desphases d’analyse en s’appuyant sur une connaissance du domaine à un instant donné.

Les wikis sont des plates-formes qui fournissent des fonctionnalités collaboratives.Ils sont simples à mettre en œuvre, supportent l’édition en ligne de documents. Lesutilisateurs peuvent saisir et mettre en forme des articles, importer des ressources mul-timédia et connecter les articles et les ressources au moyen de liens hypertexte. Leswikis proposent généralement un système de gestion de versions ainsi qu’un moteurde recherche textuelle. Ces caractéristiques contribuent largement à leur succès. Ce-pendant, même si les wikis sont largement utilisés, le système de gestion d’articles etles liens ne sont pas suffisants pour modéliser finement la connaissance et garantir unecohérence sémantique des informations. Les wikis sémantiques proposent des solu-tions afin de pouvoir décrire la sémantique. Dans la section suivante, nous présentonsun bref aperçu des wikis sémantiques et nous détaillons l’utilisation de ces derniersdans le domaine du patrimoine culturel.

3. État de l’art

On distingue généralement deux approches dans la conception de wikis séman-tiques. La première approche dite wikis for ontologies concerne le plus grand nombrede wikis. Cette approche considère les pages du wiki comme des concepts et les lienstypés comme des propriétés. L’autre approche dite ontologies for wikis utilise une on-tologie pré-existante importée dans le wiki pour la mise en place des annotations. Cetteapproche fournit généralement des formulaires de choix multiple ou utilise l’auto-complétion pour baser les annotations sur l’ontologie. Ces moteurs de wiki sont leplus souvent destinés à des domaines spécifiques. Meilender et al. (Meilender et al.,2011) présente un état de l’art des différents moteurs de wikis sémantiques. Dans lasuite de cette section, nous présentons des wikis sémantiques dans le domaine du pa-trimoine culturel.

Le projet 3C2MA (« Climat, Catastrophes naturelles et Crises sanitaires desMondes péri-méditerranéens dans l’Antiquité et au Moyen-Âge ») a pour objet lacollecte d’information historique concernant le climat, les événements tectoniques et

Page 5: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

les crises sanitaires ayant touché les pays riverains de la Méditerranée dans l’Anti-quité et le Moyen Âge (http://www.3c2ma.com). Analysées et interprétées par deshistoriens associés à des archéologues, géographes, médecins et vétérinaires épidé-miologistes, les informations recueillies au sein de textes d’origines multilingues etpolygraphes (arabe, hébreux, latin et grec) alimentent une base de ressources termino-ontologiques. Cette base est développée à partir du wiki sémantique SweetWiki (Buffaet al., 2008).

Le projet « German Handbuch der Architektur » a pour objectif de construire unwiki au moyen de la numérisation d’un volume (506 pages) du même nom (Witteet al., 2010). Les auteurs cherchent à représenter deux sous-domaines par des on-tologies : le domaine de la gestion des documents (phrase, nom, numéro de page,etc.) et le domaine de l’architecture (murs, matériaux de construction etc.). Le trai-tement automatique des langages permet de connecter des concepts architecturauxavec un document spécifique, par exemple, les phrases qui mentionnent des élémentsde construction utilisant un matériau donné. Une version publique est disponible àhttp://durm.semanticsoftware.info/wiki. Dans la même perspective, Plantecet al. (Plantec et al., 2009) utilisent le traitement automatique des langages pour trans-former les pages d’un wiki en pages d’un wiki sémantique dans le domaine des collec-tions scientifiques d’un musée. Les auteurs utilisent Semantic MediaWiki (Krötzschet al., 2006) et CIDOC-CRM.

Le projet HermesWiki (Reutelshoefer et al., 2010) est un plugin du wiki sé-mantique KnowWE (Reutelshoefer et al., 2008). L’objectif est de fournir un aperçuconcis et fiable de l’histoire grecque ancienne à des étudiants. Une ontologie pourle domaine historique a été élaborée. Une version publique est disponible à http://hermeswiki.informatik.uni-wuerzburg.de.

En conclusion, les wikis sémantiques peuvent combiner le meilleur des deuxmondes : la structure issue des bases de données et la flexibilité apportée par les wikis.En effet, par rapport à une application s’appuyant sur une base de données, les wikissémantiques ont les avantages suivants :1) extension de la structure des documents viales formulaires et les annotations ; 2) utilisation de connaissances établies via les onto-logies ; 3) support de la collaboration ; 4) émergence du modèle de document et de lasémantique à partir des usages. Cependant, la représentation de la connaissance et lavérification de la sémantique des annotations est un des enjeux majeurs des solutionsbasées sur les wikis sémantiques. Les projets présentés utilisent un modèle d’annota-tion très simple et n’abordent pas la vérification de la sémantique des annotations.

4. Architecture de WikiBridge

Dans leur état de l’art sur les annotations sémantiques, Uren et al. (Uren et al.,2006) ont identifié plusieurs exigences et passé en revue différents systèmes d’anno-tation. Dans la conception de WikiBridge, sept de leurs exigences ont été retenues :

Page 6: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

interface d’utilisation facile, conception collaborative du contenu, support de diffé-rentes catégories d’utilisateurs, support de données de format hétérogènes, respect desstandards du Web Sémantique, stockage des annotations, moteur de raisonnement.

Les composants sémantiques que nous développons dans WikiBridge sont vali-dés avec une application dans le domaine de l’archéologie au travers du projet CARE(Corpus Architecturae Religiosae Europeae - IV-X saec. - ANR-07-CORP-011) (Che-valier et al., 2008). Certaines caractéristiques de ce domaine viennent amplifier le pro-blème : 1) la complexité des données (hétérogènes, incomplètes, incertaines, inconsis-tantes, spatio-temporelles) ; 2) la barrière de la connaissance du domaine nécessairepour utiliser l’outil ; 3) l’évolution de la connaissance et 4) les compétences des utilisa-teurs. Ces caractéristiques et le fait que le projet soit international avec des spécificitésnationales nous ont amené à travailler avec un contenu non formalisé c’est-à-dire desarticles écrits en langage naturel, complété par des structures formelles (annotations,ontologie, cohérence).

WikiBridge est un wiki sémantique de type ontologies for wikis. La sémantique yest décrite selon deux niveaux. Le niveau minimum proposé est une structure définievia des modèles de formulaires qui par analogie avec les schémas de bases de donnéespermettent de décrire les grandes classes d’objets manipulés sans décrire précisémentleurs propriétés. L’autre niveau est le mécanisme d’annotation qui travaille à un niveaude granularité plus fin en permettant d’annoter des portions de texte ou des ressourcesinternes ou externes. Afin de fournir une sémantique précise, les annotations sont dé-finies en utilisant les termes d’une ontologie (voir figure 1).

La figure 2 présente les modules de WikiBridge et leur interactions. Le système degestion des articles incluant la saisie ainsi que la mise en forme est implanté en utili-sant MediaWiki que nous avons étendu avec plusieurs composants sémantiques : uneinterface d’acquisition de données basée sur des formulaires sémantiques permettantune annotation automatique, un moteur de requêtes sémantiques, un assistant pour laconstruction des annotations, un mécanisme de contrôle des annotations incluant laprise en compte du contexte et des contraintes sémantiques.

4.1. Couche d’interaction avec les utilisateurs

La couche d’interaction avec les utilisateurs est majoritairement couverte par Me-diaWiki. L’ajout de données structurées, via des formulaires (pour des utilisateurs nonexpérimentés), est pris en charge par l’extension Semantic Forms3 développée pourMediaWiki. Les formulaires sont décrits en utilisant un langage spécifique qui permetentre autres de remplir des champs en sélectionnant des valeurs dans des listes. Nousavons modifié ce mécanisme afin de construire, au moyen de requêtes SPARQL, leslistes de valeurs à partir des individus des concepts de l’ontologie. Les modules cor-respondant à la couche d’interaction utilisateur sont représentés en haut de la figure 2,un aperçu de l’interface de cette couche est donné en figure 3.

3. http://www.mediawiki.org/wiki/Extension:Semantic_Forms

Page 7: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

Abstraction &

Conceptualisation

{Document}

Ontologie OWL

Interprété comme /Représenté par

{Annotation faite par les experts ou automatique}

Modèle de formulaire

du wiki

Interprété comme / Représenté par

Modèles conceptuels

Déduction & Analyse

Modèles exécutables

Page du wiki

Figure 1. Interaction modèles conceptuels / modèles exécutables dans le cadre d’unwiki sémantique

4.2. Couche sémantique

Afin d’améliorer la qualité de données, durant le processus de saisie, nous propo-sons un ensemble de modules (boîtes blanches dans la figure 2) développés en utilisantdes composants tiers (RAP - RDF API for PHP, Pellet et Jena).

Le support des annotations inclus dans WikiBridge permet d’annoter n’importequel élément avec les concepts d’une ontologie. L’éditeur Protégé4 a été utilisé pourproduire une ontologie OWL qui est ensuite importée dans WikiBridge et stockée dansune base de données. L’assistant d’annotation permet aux utilisateurs de construiredes annotations en sélectionnant les termes de l’ontologie dans des listes et en leurassociant des propriétés et des valeurs. Le processus d’annotation étant sensible aucontexte, les termes sont sélectionnés dans l’ontologie par rapport aux champs actifsdu formulaire. Trois types d’annotation ont été identifiés :

1) une annotation simple permet d’annoter un sujet en lui associant un couple(propriété, valeur), la valeur étant un littéral ;

2) une annotation complexe permet de mettre en relation un sujet avec deux ouplusieurs couples (propriété, valeur), la valeur pouvant être un littéral ou une référenceà un autre sujet ;

4. Protégé : http://protege.stanford.edu/

Page 8: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

Base MediaWiki

contraintes

Moteur de requetes

Importation d’ontologies

Vérificateur

de la cohérence

des annotations

Modules tiers

Triple Store

RAP

Pellet

Jena

WikiBridge Core

Semantic Forms

(SPARQL)

Web Service

Interaction

Ontologie Contraintes et règles

Couche

Persistance

Couche

Sémantique

Couche

Utilisateurs

Web servicesWikiBridge extension

Vérificateur

Media Wiki

Outil d’importation d’ontologie

Figure 2. Architecture de WikiBridge

3) une annotation récursive permet d’expliquer ou de préciser une propriété ou unobjet par une sous-annotation qui peut elle-même être simple ou complexe.

Les annotations réalisées sont vérifiées par rapport à l’ontologie lors de l’enregis-trement ou de la modification des articles. Le processus de vérification de la cohérencedes annotations comporte plusieurs composants spécifiques interagissant avec RAP5,Jena6 et Pellet7. Les contraintes sémantiques exprimées en logique du premier ordresont vérifiées en utilisant Pellet et un service web interconnectant RAP et Jena.

Afin de permettre l’analyse spatio-temporelle des annotations relatives aux édi-fices, un ensemble de services web a été développé. Un service web spécifique permetd’établir la liste des coordonnées des édifices relatifs à une conjonction de propriétés.Un service web générique permet d’établir les édifices et leur propriétés relativementà une requête SPARQL.

4.3. Couche de persistance

La couche de persistance inclut quatre types de stockage : le contenu des articles,l’ontologie, les annotations sémantiques, les contraintes et les règles. Le stockage desarticles est assuré par la base de données spécifique à MediaWiki. Chaque article est

5. http://www4.wiwiss.fu-berlin.de/bizer/rdfapi/6. http://jena.sourceforge.net/7. http://pellet.owldl.com/

Page 9: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

Interface d’annotation

Formatage du texte

Structuration des formulaires du wiki

Liste obtenue par une requête SPARQL

……

Figure 3. Quelques fonctionnalités de la couche d’interaction

identifié par une URL et les annotations utilisent cette URL comme préfixe pour iden-tifier les parties des articles ciblées (paragraphe, phrase, mot, etc.).

Les annotations sont stockées dans le triple store de RAP. Elles peuvent être in-terrogées au moyen de requêtes SPARQL incluses dans des articles. Des codes decouleur peuvent être associés aux mots clés annotés, nous utilisons, par exemple, dansle projet CARE, des couleurs afin de distinguer les siècles.

L’ontologie importée à partir d’un fichier OWL est stockée dans un schéma spé-cifique géré par RAP. L’ontologie peut également être interrogée en SPARQL et lesrésultats inclus dans des pages du wiki. Cette technique est utilisée pour construire leslistes de termes, de propriétés et de valeurs proposées par l’assistant d’annotation.

Les contraintes utilisées par Pellet et Jena sont stockées dans le format natif des ou-tils, c’est-à-dire sous forme textuelle. Un tag permet de dissocier les règles appliquéesà l’ontologie des contraintes utilisées pour vérifier la cohérence des annotations.

5. Terrain d’expérimentation : le projet CARE

L’objectif du projet international CARE (Corpus Architecturae Religiosae Euro-peae - IV-X saec.) est la constitution d’un corpus des monuments chrétiens antérieursà l’an Mil (http://care.u-bourgogne.fr). Il s’agit de recenser tous les édificesreligieux et de décrire leurs évolutions entre le IVe et le début du XIe siècle dans plu-sieurs pays (Italie, Espagne, Croatie, etc.). Le projet a commencé en France en 2008,après avoir été accepté par l’ANR, pour une durée de quatre ans. Le corpus français,d’environ 2 700 édifices, met l’accent sur les VIIe-VIIIe siècles plus difficiles à appré-hender et sur les décennies précédant ou suivant l’an Mil très riches en monuments. Letravail sur le corpus d’informations textuelles et graphiques concernant chaque édificese décompose en deux tâches principales : la collecte des données grâce à la rédaction

Page 10: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

des fiches de dépouillement puis leur analyse et interprétation. Les données de ter-rain recueillies par les archéologues, complétées aussi bien par des sources littéraires,d’archives et épigraphiques font l’objet d’un dépouillement systématique. Après dé-pouillement, chaque édifice ou groupe d’édifices, a une fiche comportant les rubriquessuivantes : les informations générales sur l’édifice (comme la topographie, les sources,la titulature, le diocèse, la fonction, le contexte d’implantation), les éléments architec-turaux (description par états), les installations liturgiques (description par états), lessépultures (description par états), les objets dispersés non rattachables à l’architecturede l’édifice, les inscriptions, les considérations critiques sur les états et la chronologiepuis le nom du rédacteur et la date de rédaction de la fiche. D’un point de vue orga-nisationnel, le projet CARE prend la forme d’un réseau d’experts — archéologues,historiens, historiens de l’art, dessinateurs topographes — assurant l’alimentation ducorpus et collaborant à son exploitation au moyen de travaux de recherche.

Nous avons appliqué les directives de Linster au projet CARE de façon à initier uneconnaissance fondamentale à partir des documents. La première étape est l’identifica-tion des concepts saillants. Ensuite, pour chacun des concepts nous associons un vo-cabulaire approprié. Dans la suite, l’ontologie d’application que nous avons construitest présentée. Puis nous présentons une analogie entre la sémantique des annotationset la sémantique des langages de programmation.

5.1. Vocabulaire associé à ces concepts

Il existe un grand nombre de vocabulaires contrôlés pour décrire et indexer des ob-jets du patrimoine culturel8. Le CIDOC (Comité International pour la Documentation)soutenu par l’ICOM (International Council of Museums) a pour objectif d’améliorer lagestion des collections, les archives et les produits scientifiques ou administratifs liésau patrimoine artistique et culturel. L’idée de base est de mettre en place une ontologiede domaine pour décrire des œuvres d’art, des vestiges archéologiques mais aussi desmonuments. L’ontologie CIDOC-CRM (Conceptual Reference Model) a été élaboréedepuis 1994 et publiée en 2006 par l’ISO (http://www.cidoc-crm.org). Parce queCIDOC-CRM est une référence dans le domaine, et notamment parce qu’elle pro-pose la notion d’événement qui décrit à la fois l’environnement de l’objet au coursdu temps et l’énoncé de tout ce qui a pu lui arriver, nous l’avons utilisé pour servirde base à l’ontologie CARE. Notre spécialisation, développée avec Protégé, comporte124 classes et 715 individus.

5.1.1. Les concepts religieux dans le projet CARE

Les concepts religieux dans CARE sont les édifices, représentés par le conceptBatiment, avec leur décomposition logique en différents espaces (nef, transept, ab-side, chevet, portique, etc.) représentés par le concept ElementConstitutif. Les

8. http://www.pro.rcip-chin.gc.ca/normes-standards/vocabulaire_vocabulaires-vocabulary_vocabulary-fra.jsp

Page 11: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

installations liturgiques (autel, ambon, armoire liturgique, ciborium, bénitier, etc.) sontreprésentées par le concept InstallationLiturgique et les sépultures sont repré-sentées par le concept Sepulture. Afin de détailler les éléments d’un édifice, nousavons introduit le concept de ElementArchitecturaux pour décrire les élémentsmaçonnés, les charpentes, les sols, etc. (figure 4). Le concept de Batiment a été placésous le concept Objet fabriqué E22 de CIDOC-CRM. En effet, CIDOC-CRM défi-nit un objet fabriqué comme « un objet bien délimité, réel, d’ordre matériel et résultatd’actions d’ordre technique ». Les autres concepts sont des spécialisations de QuelqueChose de Matériel et de Fabriqué E24 qui est un concept générique qui regroupe « desobjets et des caractéristiques fabriqués par l’homme ».

Pour décrire les propriétés des concepts religieux, l’archéologue s’intéresse prin-cipalement à quatre caractéristiques : orientation, délimitation, distance et positionne-ment. Vieu (Vieu, 1997) distingue trois types d’orientation : 1) l’orientation absoluequi fait référence à un système de coordonnées externes comme les directions cardi-nales ; 2) l’orientation intrinsèque pour laquelle le repère est lié à l’objet de référence ;3) l’orientation contextuelle pour laquelle le repère est lié à une entité différente del’objet de référence. Pour le projet CARE, l’orientation contextuelle est donnée parl’orientation de l’édifice. En effet, depuis les origines et jusqu’au XVe siècle, danstous les pays chrétiens, une église est orientée vers l’est. La délimitation permet dedéfinir les frontières des concepts religieux avec les notions d’intérieur et d’extérieur.La distance représente la notion de proximité/éloignement entre deux éléments. Le po-sitionnement relatif permet de préciser la position d’un élément ou d’un attribut d’unélément, l’axe par exemple, relativement à un autre élément ou à un de ses attributs. Ledeuxième élément devient alors le référentiel architectural qui permet de préciser laposition du premier par le biais de préposition de localisation. Cette localisation se faitprincipalement d’une manière qualitative par le biais de relations topologiques. Nousutilisons les travaux de Egenhofer et Herring (Hegenhofer et al., 1991) définissant unensemble minimal de huit relations décrivant les relations entre deux régions.

5.1.2. Le temps archéologique

En archéologie, le temps est construit à partir d’indices spatiaux, stylistiques ounaturels, les indices sont ensuite croisés. Leur validité est perpétuellement remise enquestion par l’émergence de nouvelles techniques. Doerr et al. (Doerr et al., 2004)ont classé les éléments de preuve et les connaissances de base par leurs conséquenceschronologiques :

– la chronologie absolue qui a pour source les documents historiques, la dendro-chronologie, la datation par le carbone 14, la datation par thermoluminescence, le suivides mutations de l’ADN mitochondrial, etc. ;

– la chronologie relative par ordonnancement d’événements comme la stratigra-phie ;

– la chronologie relative par distance temporelle comme une estimation du tempsde déplacement des personnes.

Page 12: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

Ontologie CAREExpression des règles de l'ontologie Chose

EntiteCRME1

ElementArchitectural

InstallationLiturgique

QuelqueChoseDeMaterielE18

QuelqueChoseDeMaterielEtFabriqueE24

CharpentePlafond

ElementMaconneOuverture

Sol

Support

ArbaletrierEntraitFermeSolive

ArcArc triomphalBaieFenetrePorte

DallageLitDeMortierMosaiqueOpusSectileOpusSigninumPavementPlancherRocheTerrazzoTerreBattue

BaseChapiteauColonneColonnetteFutImpostePiedestalPilastrePilierSocleStylobateTailloir

AmbonArmoireLiturgiqueBaldaquinBénitierChancelChoeurLiturgiqueChoeurMonastiqueCiboriumCuveBaptismaleLavaboPupitreSanctuaireTableSecondaire

Arcosolium Caveau

Formae

TombeTemp

TombeVoutee

CercueilCercueilMonoxyleCoffrageDeBoisCoffrageDePierreCoffrageMixteCoffreSarcophageTombeEnAmphoreTombeEnPleinePierreTombeRupestreTombeSousTuiles

BoulinColonnadeCornicheDegreEmmarchementEscalierMarcheNichePlateFormePodiumPoteauSabliere

Toit ToitureCouverture Couvrement

Voute

ContrefortFondationsGouttereauLeseneMurParementPignon

EncastrementNegatifRainureTrancheeTrouUsure

Autel

SiegeTraces

AutelAutelSecondaireLoculusReliquaire

BanquetteBanquetteLateraleBanquettePresbyteraleCathedreSynthronon

BerceauAretesCulDeFourCoupole

AbsideAbside occidentaleAnnexeAtriumBaptistèreBasCoteChevetClocher-porcheCollateralContre-absideCourCrypteDeambulatoireGalerieNefPorchePortiqueSalleTourTour-porcheTranseptTribuneVaisseauCentralVestibuleWestbau CorpsOccidental

QuelqueChoseE70

QuelqueChoseDeFabriqueE71

ElementDurableE77

Sepulture Tombe

ElementCconstitutifStructure

Batiment ObjetFabriqueE22

GroupeEdifice

ObjetJuridiqueE72

Figure 4. Partie d’ontologie sur les concepts religieux dans le projet CARE - En bleules concepts issus de CIDOC-CRM, en vert les concepts propres à CARE, en rose lesindividus

Page 13: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

CIDOC-CRM offre une branche spécifique pour les concepts liés au temps. Leconcept Entité temporelle E2 regroupe des notions telles que celles de tranche tem-porelle, période, événement etc. Comme nous étudions des édifices allant du IVe auXe siècle, nous travaillons donc sur des intervalles (siècle, début, fin et tiers de siècle).Le concept Tranche chronologique E52, qui est une plage temporelle ayant un début,une fin et une durée sans autre connotation sémantique, a été spécialisé pour gérerces intervalles. Pour suivre les évolutions, nous avons introduit les concepts d’édifica-tion, de destruction (avec pour individus démolition, incendie, tremblement de terre,inondation), transformation spécialisé en ajout et retrait de partie.

5.2. La sémantique des annotations : une analogie avec la sémantique deslangages de programmation

Bien que l’assistant d’annotation offre une forme de contrôle des annotations, ilest toujours possible d’écrire une annotation dans un document en utilisant la syn-taxe du wiki. Afin de contrôler la cohérence des annotations c’est-à-dire à la fois leurstructure (annotation complexe et récursive) mais aussi leur consistance dans un do-cument (deux annotations ne peuvent pas être contradictoires) nous développons unensemble de mécanismes basés sur les travaux dans la sémantique des langages deprogrammation. Ainsi, dans notre approche de wiki sémantique, l’ontologie joue lerôle de DSL (Domain Specific Language) puisqu’elle permet d’exprimer quelles sontles annotations syntaxiquement correctes. De plus l’ontologie permet un contrôle dela cohérence structurelle d’une annotation à deux niveaux :

– au niveau de la structure elle-même : il est impossible de créer une annotationcomplexe sur un type d’édifice en utilisant des propriétés qui ne sont pas applicablesà ce type. Par exemple une cathédrale ne peut pas avoir d’atrium ;

– au niveau des domaines de valeurs acceptées pour les propriétés : il doit êtreimpossible d’annoter un autel puis de lui associer une technique de construction quiconsiste à spécifier qu’il est maçonné avec un matériau qui est le bois. Les domainesde valeurs sont contrôlés par les co-domaines des associations et les individus.

Cependant au delà de la cohérence structurelle des annotations, il existe des règlesde cohérence plus globales par exemple pour traduire les faits suivants : il n’existepas en France, pour les siècles concernés par le projet CARE, d’église avec des mursen terre, ou encore il ne doit pas exister d’annotations qui identifient un saint commetitulature d’un édifice alors que l’édifice a été construit à une période antérieure àl’apparition du saint.

Afin de contrôler finement la sémantique des annotations nous proposons d’établirune analogie avec la sémantique des langages de programmation.

5.2.1. Sémantique axiomatique

Cette sémantique considère le processus d’annotation comme une transformationdes propriétés attachées à un document. La cohérence du processus est donnée par la

Page 14: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

vérification de l’ensemble des propriétés par l’ensemble des annotations ajoutées surle document à condition que l’ensemble des propriétés définies avant l’ajout d’anno-tations soit lui aussi valide.

La sémantique axiomatique du processus d’annotation se traduit par la vérificationde contraintes ou de propriétés globales après annotation. La contrainte sur l’existencedu saint pour la titulature est dans ce cadre et peut s’exprimer en logique par :

isConsecrated(?b,?p) ← hasConstructionDate(?b,?d1) ∧hasDateDead(?p,?d2) ∧ d1 ≥ d2

5.2.2. Sémantique dénotationnelle

La sémantique dénotationnelle du processus d’annotation exprime la correspon-dance entre la structure de l’annotation et la sémantique du domaine au moyen defonctions de l’ensemble des termes utilisés dans les documents vers les concepts del’ontologie. Les règles de construction des annotations comme celles applicables surles valeurs de propriétés (exemples donnés en début de section) relèvent de la séman-tique dénotationnelle.

5.2.3. Sémantique opérationnelle

La sémantique opérationnelle des annotations assimile le processus à un change-ment d’état vu non pas sous l’angle des propriétés comme dans la sémantique axio-matique mais sous la forme des états accessibles à partir d’un état donné.

Par exemple, si nous utilisons trois concepts essentiels pour modéliser l’évolutiondes édifices : l’usage religieux, les entités spatiales, le temps. L’édifice est représentépar un ensemble d’annotations qui le situe dans un espace à trois dimensions. Soit Ul’ensemble des usages, E l’ensemble des entités spatiales et T l’ensemble des entitéstemporelles. Un édifice a est sous-ensemble du produit cartésien des trois ensemblesU × E × T , soit a = {(u, e, t), u ∈ U , e ∈ E , t ∈ T }. Les évolutions valides sontdéterminées par les changements de valeur dans une des composantes de l’un destriplets.

Cette sémantique permet : 1) de restituer tous les états possibles ; 2) d’analyser etobserver tous les changements d’état possibles c’est-à-dire de procéder à une diffé-rence entre deux états ; 3) de caractériser les évolutions c’est-à-dire le processus dechangement d’état. Le principe d’indépendance entre l’usage religieux, l’espace et letemps permet, pour d’observer les facteurs influant sur le changement, de restreindrel’étude à des produits deux à deux des trois ensembles et d’estimer ainsi le rôle ou laprépondérance de l’un par rapport à l’autre.

5.2.4. Principes de raisonnement sur les annotations

Parmi les différentes sémantiques associées au processus d’annotation, nous pou-vons déduire les modes de raisonnement à mettre en œuvre pour valider les annota-tions. Dans le cadre des annotations globales relatives à la sémantique axiomatique un

Page 15: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

mode de raisonnement avec l’hypothèse du monde clos est nécessaire. Pour la validitéstructurelle des annotations relatives à la sémantique dénotationnelle c’est l’hypothèsedu monde ouvert qui sera activée. Pour les transitions d’état des édifices il est probableque l’hypothèse du monde clos soit nécessaire.

6. Conclusion

Dans cet article, nous avons présenté WikiBridge, un wiki sémantique pour les ap-plications collaboratives dans les domaines de la connaissance scientifique. Ce typed’application repose sur des ontologies de domaine. Cependant l’intervention de mul-tiples utilisateurs autour de la plate-forme nécessite de contrôler la cohérence des an-notations définies à partir des ontologies. Des vérifications sont mises en place pourtrouver les annotations inconsistantes. Ce processus permet d’établir itérativement uneconnaissance très précise du domaine. De plus, grâce à des requêtes et à l’analyse desdonnées, de nouveaux concepts peuvent apparaître et de nouvelles contraintes peuventêtre exprimées. En résultat, les ontologies peuvent être modifiées. Cet axe constitueune perspective de développement de notre wiki sémantique.

Notre expérience d’utilisation de WikiBridge dans le cadre de l’ANR CAREmontre des possibilités intéressantes pour la communauté scientifique et ouvre desperspectives de recherche sur les aspects communautaires : 1) la possibilité donnéeaux scientifiques de partager et construire de façon collaborative la connaissance ; 2) lapossibilité de mettre en place un système de recommandation de termes de l’ontologieen fonction du contexte de l’annotation. Nous envisageons d’étendre ce mécanisme auprofil de l’utilisateur (archéologue, médiéviste, historien d’art, etc.) pour lui proposerles termes utilisés par sa communauté. De plus, la composante recherche collaborativepeut être mise en place au moyen des requêtes in-line qui constituent elles-même desressources qui peuvent être annotées.

7. Bibliographie

Buffa M., Gandon F. L., Erétéo G., Sander P., Faron C., « SweetWiki : A semantic wiki »,Journal of Web Semantics, vol. 6, n˚ 1, p. 84-97, 2008.

Chevalier P., Sapin C., ANR Corpus architecturae religiosae europeae [CARE], saec. IV-X,Technical report, Centre d’études médiévales d’Auxerre, 2008.

Doerr M., Plexousakis D., Kopaka K., Bekiari C., « Supporting Chronological Reasoning inArchaeology », Proceedings of Computer Applications and quantitative methods in Ar-chaeology (CAA), 2004.

Hegenhofer M., Herring J., Categorizing Binary Topological Relations Between Regions, Linesand Points in Geographic Databases, Technical report, National Center for Geographic In-formation and Analysis, CA, 1991.

Jiang K., Zhang L., Miyake S., « Using OCL in Executable UML », ECEASST, 2008.

Krötzsch M., Vrandecic D., Völkel M., « Semantic MediaWiki », International Semantic WebConference, p. 935-942, 2006.

Page 16: Système d'Information pour la production de connaissances ......Le projet « German Handbuch der Architektur » a pour objectif de construire un wiki au moyen de la numérisation

Kurtev I., Bézivin J., Aksit M., « Technological Spaces : an Initial Appraisal », InternationalSymposium on Distributed Objects and Applications (DOA), 2002.

Linster M., « Viewing Knowledge Engineering as a Symbiosis of Modeling to Make Sense andModeling to Implement Systems », GWAI, p. 87-99, 1992.

Meilender T., Jay N., Lieber J., Palomares F., « Les moteurs de wikis sémantiques : un état del’art », EGC, p. 575-580, 2011.

Motik B., Horrocks I., Sattler U., « Bridging the gap between OWL and relational databases »,WWW, p. 807-816, 2007.

Plantec A., Ribaud V., Varma V., « Building a Semantic Virtual Museum : from Wiki to Seman-tic Wiki using Named Entity Recognition », OOPSLA Companion, p. 769-770, 2009.

Reutelshoefer J., Baumeister J., Puppe F., « Ad-Hoc Knowledge Engineering with SemanticKnowledge Wikis », SemWiki, 2008.

Reutelshoefer J., Lemmerich F., Baumeister J., Wintjes J., Haas L., « Taking OWL to Athens :Semantic Web technology takes Ancient Greek history to students. », Proceedings of the7th Extended Semantic Web Conference (ESWC), p. 333-347, 2010.

Spear A. D., Ontology for the Twenty First Century : An Introduction with Recommendations,Technical report, INFOMIS, Sarrbrück, Germany, 2006.

Uren V., Cimiano P., Iria J., Handschuh S., Vargas-Vera M., Motta E., Ciravegna F., « SemanticAnnotation for Knowledge Management : Requirements and a Survey of the State of theArt », Web Semantics : Science, Services and Agents on the World Wide Web, vol. 4, n˚ 1,p. 14-28, 2006.

Vieu L., « Spatial Representation and Reasoning in Artificial Intelligence », Spatial and Tem-poral Reasoning, p. 5-41, 1997.

Witte R., Krestel R., Kappler T., Lockemann P. C., « Converting a Historical Architecture En-cyclopedia into a Semantic Knowledge Base », IEEE Intelligent Systems, vol. 25, n˚ 1,p. 58-67, 2010.