comparaison de la nature d’objets géographiquescr/oghs/slides/abadie.pdf · 2007-07-17 · 1...

Post on 12-Jul-2020

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Comparaison de la nature d’objets géographiques

IGN / laboratoire COGIT

Journée thématique: Ontologies et Gestion de l’Hétérogénéité Sémantique

Nathalie ABADIE, Ana-Maria OLTEANU et Sébastien MUSTIERE

Grenoble, 3 juillet 2007

2

I. Contexte et objectifsII. Comparaison de trois méthodes de mesure

de similarité sémantiqueIII. Intérêts comparés des trois méthodes de

mesure de similarité sémantiqueIV. Conclusions et perspectives

Plan

3I. Contexte et Objectifs

Mise en correspondance des BD géographiques:Appariement des schémasAppariement des données (réconciliation de références)

BDTOPO ® BDCARTO ®

4

Critères d’appariement des données géographiques:GéométrieToponymesNature

I. Contexte et Objectifs

CapCarrièreCirqueColCrêteDépressionDuneEscarpementGorgeGrotteIleIsthmeMontagnePicPlagePlaine ou plateauRécifsRochersSommetValléeVersantVolcan

Cap, pointeCirque

Col, passageVolcan, cratère

Sommet, crête, collineCoteau, Falaise

Cuvette, dépressionVallée

IleDune, plage

PicPlaine, plateau

RécifsRocher

Espace marinBanc, haut fond

BDTOPO ® BDCARTO ®

5I. Contexte et Objectifs

« Points Remarquables du Relief » BD Carto ®

« Oronymes » BD Topo ®

6I. Contexte et Objectifs

Nature = « Col, passage » Nature = « Col »

[Mark D.M. & Gaurav S., 2006]

7I. Contexte et Objectifs

BD Carto ®

Nature = « Pic »

BD Topo ®

Nature = « Sommet »

8I. Contexte et Objectifs

Dans les spécifications de contenu de la BD Topo ®:

« Sommet »: Point haut du relief non caractérisé par un profil abrupt (voir la valeur « pic »)

« Pic »: Sommet pointu d’une montagne

L’estimation du caractère plus ou moins pointu du point culminant en question

est laissée à l’appréciation des opérateurs de saisie

9I. Contexte et Objectifs

BD Carto ®

Nature = « Pic »

BD Topo ®

Nature = « Sommet »

10I. Contexte et Objectifs

Une comparaison systématique des valeurs de l’attribut « Nature » est insuffisante:

Besoin d’une mesure de similarité sémantique afin de traiter les cas ambigus

Comment évaluer la similaritésémantique des valeurs de

l’attribut « Nature »?

11II. Comparaison de trois méthodes de

mesure de similarité sémantiqueCalcul de valeurs de similarité sémantique pour l’exemple précédent:

CapCarrièreCirqueColCrêteDépressionDuneEscarpementGorgeGrotteIleIsthmeMontagnePicPlagePlaine ou plateauRécifsRochersSommetValléeVersantVolcan

Cap, pointeCirque

Col, passageVolcan, cratère

Sommet, crête, collineCoteau, Falaise

Cuvette, dépressionVallée

IleDune, plage

PicPlaine, plateau

RécifsRocher

Espace marinBanc, haut fond

BDTOPO ® BDCARTO ®

12II.1. Mesure de similarité sémantique:

estimations des experts

13II. 2. Mesure de similarité sémantique: calcul sur une ontologie du domaine

Mesure de Wu-Palmer

Visualisation: Jambalaya[Laurens, 2006]

[Wu Z. & Palmer M., 1994]

14II. 2. Mesure de similarité sémantique: calcul sur une ontologie du domaine

15II. 3. Mesure de similarité sémantique:

résultats d’appariement

16III. Intérêts comparés des trois méthodes de

mesure de similarité sémantiqueMesure par estimations des experts

Difficultés:

Notation libre conduisant à des résultats très hétérogènesNon respect de la propriété de symétrieOrdres de grandeur différents des résultats des autres méthodes de

mesureConfusion entre « rocher » et « récif »: s(rocher, récif)=0.17Intègrent des connaissances subjectives: « cirque » proche de

« montagne » ou « dépression »? s(cirque, montagne)=0.14 et s(cirque, dépression)=0.24

Avantages:

Intègrent des connaissances de sens commun (forme des entités topographiques). Ex: s(dune, colline)=0.09

Intègrent des connaissances subjectives: révèlent les ambiguïtés existant entre certains concepts: s(pic, sommet)=0.43

17III. Intérêts comparés des trois méthodes de

mesure de similarité sémantiqueMesure par calcul sur une ontologie du domaine

Difficultés:

Quelle mesure de similarité choisir?On ne dispose que d’une taxonomie de concepts géographiques:

On ne peut effectuer des calculs prenant en compte des propriétés de ces concepts et en particulier leur forme: s(plaine, montagne)=0.4 et s(volcan, montagne)=0.4

On ne peut pas pondérer les calculsCalcul des valeurs de mesure de similarité groupes de concepts et

non entre concepts: s(« dune-isthme », « dune-plage »)=1

Avantages:

Méthode de mesure simple à implémenterRapproche les types d’entités géographiques à comparerRésultats cohérents avec les deux autres méthodes de mesure de

similarité sémantique

18III. Intérêts comparés des trois méthodes de

mesure de similarité sémantiqueMesure basée sur des résultats d’appariement

Difficultés:

Pas une mesure de similarité sémantiqueProblème de normalisation des résultatsProblèmes de gestion des erreurs d’appariement et de représentativité

des données: échantillons très larges

Avantages:

Traduit une culture géographique commune: s(plaine, montagne)=0Révèle les ambiguïtés très fortes sur la sémantique de certains

concepts géographiques: s(pic, sommet)=0.42, s(gorges, vallée)=0.57

19

Choix d’une mesure de similarité pour guider l’appariement de données géographiques: Valeurs cohérentes avec les deux autres mesuresSimple à mettre en oeuvre

IV. Conclusion

Mesure basée une ontologie du domaine

20

Comparaison de résultats d’appariement avec et sans critère de similarité sémantique:

IV. Conclusion

24

341

21

342

22

343

Véritéterrain

6 erreurs

7 erreurs

Deux critères Trois critères

2 erreursObjets non-appariés

1 erreurObjets appariés

99.1%

97.6%

99.7%

97.9%

91.7%

71.4%

PrécisionAppariés Non-appariés

Rappel Appariés Non-appariés

100%Troiscritères

68.2%Deux critères

21

Perspectives: Enrichir l’ontologie avec des propriétés nous permettant:

d’accéder aux connaissances de sens commun fournies par les autres méthodesd’intégrer la subjectivité des expertsd’intégrer les ambiguïtésd’intégrer les conditions de localisation d’une entitétopographique (quelles frontières?)

Méthode de calcul de similarité sémantique

IV. Conclusion

22Merci pour votre attention…

top related