découverte automatique de mappings fondée sur les requêtes dans un environnement p2p

13
Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P Présenté Par: Lyes LIMAM Encadré Par: Mohand-Said Hacid

Upload: boyd

Post on 14-Jan-2016

28 views

Category:

Documents


1 download

DESCRIPTION

Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P. Présenté Par: Lyes LIMAM Encadré Par: Mohand-Said Hacid. Contexte et problématique. Les applications modernes sont caractérisées par : - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Présenté Par: Lyes LIMAMEncadré Par:

Mohand-Said Hacid

Page 2: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Contexte et problématique

Les applications modernes sont caractérisées par :

Une gestion de données dans des environnements distribués et à large échelle !!

Les BDDs sont conçues indépendamment i.e. hétérogènes sur l’ensemble des sites du réseau !!

Page 3: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Contexte et problématique

Dans notre cas, la structure du réseau suit une logique P2P Il faut rajouter toutes les contraintes liées à celle là

La problématique traitée dans notre cas est liée essentiellement à l’hétérogénéité des schémas

Schéma de données

Sj

Schéma de données

Si

??

P1

P2

P3P5

Pair i Pair j

Quelle méthode pour découvrir les mapping ? (les correspondances inter-éléments des schémas)

Schéma de données

Sj

Schéma de données

Si

??

P1

P2

P3P5

Pair i Pair j

Quelle méthode pour découvrir les mapping ? (les correspondances inter-éléments des schémas)

Page 4: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Contexte et problématique

On doit réconcilier les différentes sources de données : Trouver toutes les correspondances entre les différents

schémas de données Transférer les données d’un Pair à un autre

Exemple de Mapping entre deux schémas

Page 5: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Contexte et problématique

Les outils développés pour la découverte et la génération des Mappings sont :

Semi-automatiques (intervention de l’expert du domaine) Moins performants (temps de calcule) D’une qualité critiquable (précision, et rappel )

Page 6: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Quelques approches sur la découverte des mappings

Le Mapping d’ontologies [OMWG] (alignement d’ontologies) Découverte syntaxique (String Matching) Découverte sémantique (Dictionnaires et thesaurus)

La théorie des graphes [Yuan An, Sergey Melnik, R. Miller et autres] Matching de graphes (Expressions de mappings)

L’inférence sur les tables de mappings (Data Mapping) [Anastasios Kementsietsidis, R. Miller et autres ] Découvrir des nouveaux mappings indirectes

Et autre …

Page 7: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Proposition …

Notre approche comporte deux étapes :

Premièrement, on génère un modèle statistique (matrice de co-occurence) pour chacun des schémas qui seront ajustés grâce à LSA

Puis, on minimise la distance Euclidienne entre les

deux modèles pour avoir les mappings recherchés

Page 8: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Proposition …

Entrés Des requêtes Stockées sous forme (SELECTE, FROM, WHERE)

Sorties L’ensemble des correspondances entre les attributs des deux

schémas

SELECT FROM WHERE

{a1, a2,. } {R1, R2 ...} {a1,…}

{a4,a5, ..} {R1, R3 ...} {a1,…}

S1 S2

??

??

Q1

Q2

Q1

Q2

Application de l’approche

SELECT FROM WHERE

{b1, b2,. } {S1, S4 ...} {b2,…}

{b3,b5, ..} {S1, S3 ...} {b5,…}

Page 9: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Etape 1: Génération des modèles statistiques (Matrices)

LSA ? « Latent semantic Analysis » une approche statistique:

Fondée sur la notion de co-occurrence d’éléments dans un contexte

Utilise la SVD (Singular Value Decomposition) Découvre des relations profondes (cachées) entre les

éléments d’un même schéma Une méthode largement utilisée dans les moteurs de

recherche (Google)

Page 10: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Exemple d’application de la LSA

Page 11: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Exemple d’application de la LSA

Décomposition de la matrice de correspondances (X) par la SVD

Page 12: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Etape 2: Comparaison des modèles

Construire les matrices de co-occurrence des éléments de chaque schéma C1= X1*XT

1 et C2= X2*XT2

Minimiser la distance Euclidienne entre les deux modèles Représenter les deux matrices sous forme de graphes

d’adjacence Trouver le matching entre les deux graphes qui minimise la

distance euclidienne (Hill Climbing)

Page 13: Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P

Comparaison des modèles

Minimisation de la distance euclidienne

A1

A2

A3

A4

A5

A6

B1

B2

B3

B4

B5

B6

Distance Euclidienne (Dé-similarité)

A1

A2

A6

A1 A2 .… A6C1 X1 X2 …. X6 B1

B2

B6

B1 B2 .… B6C2 Y1 Y2 …. Y6

222222 )66()55()44()33()22()11()11( YXYXYXYXYXYXBADe