comparaison de la nature d’objets géographiquescr/oghs/slides/abadie.pdf · 2007-07-17 · 1...
Post on 12-Jul-2020
0 Views
Preview:
TRANSCRIPT
1
Comparaison de la nature d’objets géographiques
IGN / laboratoire COGIT
Journée thématique: Ontologies et Gestion de l’Hétérogénéité Sémantique
Nathalie ABADIE, Ana-Maria OLTEANU et Sébastien MUSTIERE
Grenoble, 3 juillet 2007
2
I. Contexte et objectifsII. Comparaison de trois méthodes de mesure
de similarité sémantiqueIII. Intérêts comparés des trois méthodes de
mesure de similarité sémantiqueIV. Conclusions et perspectives
Plan
3I. Contexte et Objectifs
Mise en correspondance des BD géographiques:Appariement des schémasAppariement des données (réconciliation de références)
BDTOPO ® BDCARTO ®
4
Critères d’appariement des données géographiques:GéométrieToponymesNature
I. Contexte et Objectifs
CapCarrièreCirqueColCrêteDépressionDuneEscarpementGorgeGrotteIleIsthmeMontagnePicPlagePlaine ou plateauRécifsRochersSommetValléeVersantVolcan
Cap, pointeCirque
Col, passageVolcan, cratère
Sommet, crête, collineCoteau, Falaise
Cuvette, dépressionVallée
IleDune, plage
PicPlaine, plateau
RécifsRocher
Espace marinBanc, haut fond
BDTOPO ® BDCARTO ®
5I. Contexte et Objectifs
« Points Remarquables du Relief » BD Carto ®
« Oronymes » BD Topo ®
6I. Contexte et Objectifs
Nature = « Col, passage » Nature = « Col »
[Mark D.M. & Gaurav S., 2006]
7I. Contexte et Objectifs
BD Carto ®
Nature = « Pic »
BD Topo ®
Nature = « Sommet »
8I. Contexte et Objectifs
Dans les spécifications de contenu de la BD Topo ®:
« Sommet »: Point haut du relief non caractérisé par un profil abrupt (voir la valeur « pic »)
« Pic »: Sommet pointu d’une montagne
L’estimation du caractère plus ou moins pointu du point culminant en question
est laissée à l’appréciation des opérateurs de saisie
9I. Contexte et Objectifs
BD Carto ®
Nature = « Pic »
BD Topo ®
Nature = « Sommet »
10I. Contexte et Objectifs
Une comparaison systématique des valeurs de l’attribut « Nature » est insuffisante:
Besoin d’une mesure de similarité sémantique afin de traiter les cas ambigus
Comment évaluer la similaritésémantique des valeurs de
l’attribut « Nature »?
11II. Comparaison de trois méthodes de
mesure de similarité sémantiqueCalcul de valeurs de similarité sémantique pour l’exemple précédent:
CapCarrièreCirqueColCrêteDépressionDuneEscarpementGorgeGrotteIleIsthmeMontagnePicPlagePlaine ou plateauRécifsRochersSommetValléeVersantVolcan
Cap, pointeCirque
Col, passageVolcan, cratère
Sommet, crête, collineCoteau, Falaise
Cuvette, dépressionVallée
IleDune, plage
PicPlaine, plateau
RécifsRocher
Espace marinBanc, haut fond
BDTOPO ® BDCARTO ®
12II.1. Mesure de similarité sémantique:
estimations des experts
13II. 2. Mesure de similarité sémantique: calcul sur une ontologie du domaine
Mesure de Wu-Palmer
Visualisation: Jambalaya[Laurens, 2006]
[Wu Z. & Palmer M., 1994]
14II. 2. Mesure de similarité sémantique: calcul sur une ontologie du domaine
15II. 3. Mesure de similarité sémantique:
résultats d’appariement
16III. Intérêts comparés des trois méthodes de
mesure de similarité sémantiqueMesure par estimations des experts
Difficultés:
Notation libre conduisant à des résultats très hétérogènesNon respect de la propriété de symétrieOrdres de grandeur différents des résultats des autres méthodes de
mesureConfusion entre « rocher » et « récif »: s(rocher, récif)=0.17Intègrent des connaissances subjectives: « cirque » proche de
« montagne » ou « dépression »? s(cirque, montagne)=0.14 et s(cirque, dépression)=0.24
Avantages:
Intègrent des connaissances de sens commun (forme des entités topographiques). Ex: s(dune, colline)=0.09
Intègrent des connaissances subjectives: révèlent les ambiguïtés existant entre certains concepts: s(pic, sommet)=0.43
17III. Intérêts comparés des trois méthodes de
mesure de similarité sémantiqueMesure par calcul sur une ontologie du domaine
Difficultés:
Quelle mesure de similarité choisir?On ne dispose que d’une taxonomie de concepts géographiques:
On ne peut effectuer des calculs prenant en compte des propriétés de ces concepts et en particulier leur forme: s(plaine, montagne)=0.4 et s(volcan, montagne)=0.4
On ne peut pas pondérer les calculsCalcul des valeurs de mesure de similarité groupes de concepts et
non entre concepts: s(« dune-isthme », « dune-plage »)=1
Avantages:
Méthode de mesure simple à implémenterRapproche les types d’entités géographiques à comparerRésultats cohérents avec les deux autres méthodes de mesure de
similarité sémantique
18III. Intérêts comparés des trois méthodes de
mesure de similarité sémantiqueMesure basée sur des résultats d’appariement
Difficultés:
Pas une mesure de similarité sémantiqueProblème de normalisation des résultatsProblèmes de gestion des erreurs d’appariement et de représentativité
des données: échantillons très larges
Avantages:
Traduit une culture géographique commune: s(plaine, montagne)=0Révèle les ambiguïtés très fortes sur la sémantique de certains
concepts géographiques: s(pic, sommet)=0.42, s(gorges, vallée)=0.57
19
Choix d’une mesure de similarité pour guider l’appariement de données géographiques: Valeurs cohérentes avec les deux autres mesuresSimple à mettre en oeuvre
IV. Conclusion
Mesure basée une ontologie du domaine
20
Comparaison de résultats d’appariement avec et sans critère de similarité sémantique:
IV. Conclusion
24
341
21
342
22
343
Véritéterrain
6 erreurs
7 erreurs
Deux critères Trois critères
2 erreursObjets non-appariés
1 erreurObjets appariés
99.1%
97.6%
99.7%
97.9%
91.7%
71.4%
PrécisionAppariés Non-appariés
Rappel Appariés Non-appariés
100%Troiscritères
68.2%Deux critères
21
Perspectives: Enrichir l’ontologie avec des propriétés nous permettant:
d’accéder aux connaissances de sens commun fournies par les autres méthodesd’intégrer la subjectivité des expertsd’intégrer les ambiguïtésd’intégrer les conditions de localisation d’une entitétopographique (quelles frontières?)
Méthode de calcul de similarité sémantique
IV. Conclusion
22Merci pour votre attention…
top related