techniques de fouille de donnØes pour la rØØcriture en...

33
Techniques de fouille de données pour la réécriture en présence de contraintes de valeurs Hélène Jaudoin LIMOS-Cemagref [email protected]

Upload: others

Post on 11-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

Techniques de fouille de données pour laréécriture en présence de contraintes de

valeurs

Hélène [email protected]

Page 2: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Collaborations

Laboratoires

Cemagref

LIMOS

LIRIS

Membres

F. Flouvat, M. Schneider, F.Toumani (LIMOS)

J-M. Petit (LIRIS)

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 1/32

Page 3: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Application dans le domaine du développement durable

Documents

Documents ... Sphère Agricole

Charge:

Transparence des pratiques/qualité des produits => traçabilité

Conformité aux règlementations ministérielles

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 2/32

Page 4: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Caractéristiques du domaine

Système d’intégration de systèmes agricoles capable :

accepter de nouvelles sources de données aisément

domaine versatile : processus d’informatisation du secteuragricole

passer à l’échelle : ⇒ traiter un grand nombre de sources dedonnées

par exemple : 367000 exploitations agricoles professionnelles.

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 3/32

Page 5: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Système de médiation

Documents

...

Vues

wrapper1 wrapper2 wrapperN

Liens sémantiques

Médiateur

Sources

Interface Q

Schéma global

R

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 4/32

Page 6: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vues

Approche LAV et OWA

Problème de réécriture en termes de vues

En présence de contraintes de valeurs

Type de donnée énuméré : Oracle, DB2, MySQLLes voyages dont la destination est soit l’Europe, soit

l’Australie.

Type défini dans OWL : langage d’ontologie du Web du W3C

Motivations :

distinguer des sources de données menant à des descriptionssimilairesexpression de requêtes typiquesoptimisation du processus de réécriture

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 5/32

Page 7: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Plan

Contexte

Formalisation du problème

Définition et résolution du problèmeRéécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Implémentation et expérimentations

Conclusion

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 6/32

Page 8: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Plan

Contexte

Formalisation du problème

Définition et résolution du problèmeRéécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Implémentation et expérimentations

Conclusion

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 7/32

Page 9: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Logiques de description

Formalisme de représentation des connaissances

Famille de logiquePourvu d’une sémantique formelle ⇒ raisonnementsA la base du langage OWL (W3C)

Motivations pour l’utilisation des LD

Modélisation des contraintes de valeurs : constructeur ORaisonnement en présence des contraintes

Formalisation et étude de la décidabilité du problème deréécriture

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 8/32

Page 10: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

La logique ALN (Ov)

Sous-langage de Classic (Borgida & Patel-Schneider 94) :host individuals

Constructeurs ALN : P,¬A,u,∀R.C ,≤ n R,≥ n R

Contraintes de valeurs Ov : ∀R.{o1, ..., on}

Exemple de concept :ParcelleCulturale u ∀arecu.categorie.{C1, C4, C8} u ∀arecu. ≥1 Categorie

Forme normale : uni=1∀wi .Pi

Caractérisation de la subsomption structurelle adaptée auproblème de réécriture :

→ calculer les réécritures

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 9/32

Page 11: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Modélisation du système de médiation

Exemple de requête :Q ≡ ParcelleCulturale u ∀sous.contratAR u∀arecu.categorie.{C1, C4, C8} u ∀arecu. ≥ 1 Categorie

Exemple de vues (OWA), V1, V2 ∈ V

V1 v ParcelleCulturale u ∀sous.contratAR

V2 v ParcelleCulturale u ∀arecu.categorie.{C1, C4, C8} u∀arecu. ≥ 1 Categorie

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 10/32

Page 12: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Plan

Contexte

Formalisation du problème

Définition et résolution du problèmeRéécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Implémentation et expérimentations

Conclusion

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 11/32

Page 13: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Définition du problème

Problème de réécriture de requêtes dans ALN (Ov )

Reformuler Q en une réécriture Q ′ telle que

Q′ est une expression en termes de VQ′ est une disjonction de conjonctions de vues (langage :{u,t})Q′ v Q,

Une réécriture conjonctive est une réécriture dans {u}

Réécriture maximale

Q′ est une réécriture

Q′ est maximalementcontenue dans Q

Q

Q' Q''

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 12/32

Page 14: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Problème de réécriture

Problème : Calculer les réécritures conjonctives maximales deQ

⇒ i.e. calculer ”les plus petites” conjonctions de vues subsuméespar Q.

Espace de recherche : 2|V|

i.e. toutes les conjonctions de vues de taille 1 à |V|

⇒ Approche de l’algorithme des paniers (Levy-Rajaraman-OrdilleVLDB’96)

Principe : réduire l’espace de recherche

identification des vues pertinentes à la résolution de Q

à l’aide de critères syntaxiques

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 13/32

Page 15: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Approche suivie : ”Bucket Algorithm”

Approche en deux étapes :

1) construction des paniersQ ≡ ParcelleCulturale u ∀numCommune.{63455, 63566, 63700} u

∀aRecu. ≤ 4TypeProduit

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 14/32

Page 16: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Approche suivie : ”Bucket Algorithm”

approche du ”bucket algorithm”

1) construction des paniersQ ≡ ParcelleCulturale u∀numCommune.{63455, 63566, 63700}u∀arecu. ≤

4TypeProduit

V7 V8 V12

V10

V5 V7 V9 V11

V15 V17 V16

V1 V3 V7

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 15/32

Page 17: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Approche suivie

approche du ”bucket algorithm”

1) construction des paniersQ ≡ ParcelleCulturale u∀numCommune.{63455, 63566, 63700}u∀arecu. ≤

4TypeProduit

V7 V8 V12

V10

V5 V7 V9 V11

V15 V17 V16

V1 V3 V7

2) produit cartésien : ⇒ surensemble des réécrituresmaximalement contenues

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 16/32

Page 18: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Les ”formes” des réécritures d’un panier B(w , P)

Soit Q′ ≡ Vi1 u . . . u Vik v Q (réécriture conjonctive maximale).Alors

Q′ est un cas classique de réécriture de ALNformée d’une seule vueformée d’au plus p vues : inconsistance implicite ∀v .⊥

Q′ est un cas de réécriture engendré par les contraintes devaleurs, formée d’au plus l + 1 vues :

P = E et ∀w .Ej ∈ Vj pour tout Vi , j ∈ [i1, ik ], et ∩ikj=i1

Ej ⊆ E .P = (≤ n Rv ), avec Rv ∈ Rv , ∀wRv .Ej ∈ Vj , pour tout Vj ,

j ∈ [i1, ik ], et | ∩ikj=i1

Ej | ≤ n.nouvelle inconsistance implicite formée d’au plus l + p vues.

Avec l cardinalité max. des contraintes de valeurs, p le nombre max de rôles des

atomes.

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 17/32

Page 19: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Illustration (1) : les réécritures R1

Entrée :

Q ≡ ∀numDept.E u∀aRecu. ≤ 3typeProduit, E = {03, 43, 63}Vi , i ∈ {1, ..., 3} t.q. Vi v ∀numDept.Ei ,E1 = {03, 63} VnumDept = {V1, V2, V3}E2 = {01, 43, 63, 69}E3 = {43, 55, 63} FnumDept = {E1, E2, E3}

Sortie : Réécritures R1 de B(numDept, E )V1 , E1 ⊆ E

V2 u V3 , E2 ∩ E3 ⊆ E

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 18/32

Page 20: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Illustration (2) : les réécritures R2

Entrée :

Q ≡ ∀numDept.E u ∀aRecu. ≤ 3typeProduit

Vi , i ∈ {5, 6, 7} t.q. Vi v ∀aRecu.typeProduit.Ei ,E5 = {P1, P10, P15, P20, P27} VaRecu.typeProduit = {V5, V6, V7}E6 = {P1, P10, P15, P20, P26}E7 = {P1, P10, P15, P26, P27} FaRecu.typeProduit = {E5, E6, E7}

Sortie : Réécritures R2 de B(aRecu, (≤ 3typeProduit))B(aRecu, (≤ 3typeProduit)) = {V5 u V6 u V7}car E5 ∩ E6 ∩ E7 = {P1, P10, P15} et|E5 ∩ E6 ∩ E7| ≤ 3)

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 19/32

Page 21: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Reformulation du calcul de R1 et R2

Pour un mot donné v , on définit

Vv l’ensemble des vues subsumées par ∀v .Eij (ex : {Vi1 , Vi2})Fv l’ensemble des Eij associés à Vv (ex : {Ei1 , Ei2})

⇒ Formulation ensembliste du calcul de R1 et R2

Trouver les sous-ensembles minimaux de Fv ({Ei1 ...Eik} ⊆ Fv

) t.q. :

∩j=k

j=1Eij ⊆ E ⇒ S1(E , v) ⇒ R1

| ∩j=k

j=1 Eij | ≤ n ⇒ S2(n, v) ⇒ R2

Problème posé : calculer S1(E , v) et S2(n, v)

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 20/32

Page 22: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Vers une formulation des problèmes dans un cadre KDD

Rappel des caractéristiques du domaine applicatif

Beaucoup de sources de données et de vues

⇒ Problème du passage à l’échelle dans le calcul des réécrituresS1(E , v) et S2(n, v)

⇒ Idée : tirer profit des algorithmes de KDD pour la réécriturede requêtes

Intérêt : existence d’algorithmes efficaces (site web : FIMI)

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 21/32

Page 23: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Un cadre de découverte des connaissances

Mannila & Toivonen, DMKD’97

une BD r , un langage L, un prédicat P

Objectif : T h(r ,L, P)={ ϕ ∈ L|P(r , ϕ) est vrai}

Un ordre partiel � sur L

P(r , X) doit être anti-monotone selon �

On peut définir Bd+(T h(r ,L, P)),Bd−(T h(r ,L, P))

Exemple d’algorithme : Apriori

A B C D

Ø

AB AC AD BC BD CD

ABC ABD ACD BCD

ABCD

BD -

BD +

Spe

cial

isat

ion

Gen

eral

isat

ion

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 22/32

Page 24: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Passage vers le cadre de Mannila & Toivonen

Espace de recherche :sous-ensembles de Fv , i.e.P(Fv )

Ordre partiel : ⊆{E1} ⊆ {E1, E2}{E1} généralise {E1, E2}

Intuition :

Calcul de S1(E , v) et S2(n, v)?↔ Calcul de Bd−

E1 E2 E3

Ø

E1E2 E1E3 E2E3

E1E2E3

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 23/32

Page 25: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Exprimer S1(E , v) dans le cadre KDD

BD : ∅ ; Lv =P(Fv ) ; ordre partiel : ⊆

Prédicat P1 :X ∈ Lv , X = {Ei1 , ..., Eik}, P1(E , X ) est vrai ssi ∩k

j=1Eij 6⊆ E .

P1 est antimonotone selon ⊆

S1(E , v)=Bd−(T h(∅,Lv , P1)) E1 E2 E3

Ø

E1E2 E1E3 E2E3

E1E2E3

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 24/32

Page 26: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Réécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Exprimer S2(n, v) dans le cadre KDD

BD : ∅ ; Lv =P(Fv ) ; ordre partiel : ⊆

Prédicat P2 : X ∈ Lv , X = {Ei1 , ..., Eik}, P2(n, X ) est vrai ssi| ∩k

j=1 Eij | > n

P2 est antimonotone selon ⊆

⇒ S2(n, v)=Bd−(T h(∅,Lv , P2))

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 25/32

Page 27: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Plan

Contexte

Formalisation du problème

Définition et résolution du problèmeRéécriture de requêtes en termes de vuesTechniques de fouilles de données pour la réécriture

Implémentation et expérimentations

Conclusion

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 26/32

Page 28: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Perspectives d’implémentation

A partir de cette formalisation dans le cadre de Mannila &Toivonen

Possiblité d’utiliser plusieurs types d’algorithmes

par niveau : APrioripar sauts : Dualize and Advanceapproche hybride : ABS

Difficulté : adaptation des algorithmes à notre cadre

données : ensemble de valeurspropriétés du Trietest du prédicat

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 27/32

Page 29: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Calcul des réécritures R1

Adaptation d’APriori

Approche faiblement couplée : ComputeEConj_1

Procédures PLSQLTrie relationnel : inspiré du système ATLaS (Wang, ZanioloSDM 2003) Trie(Item, Pere, Niveau, values)

Approche externe (F. Flouvat) : ComputeEConj_2

adaptation de l’implémentation de Borgelt (ICDM’03)vers une implémentation générique (∀ prédicat)

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 28/32

Page 30: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Comparaison des deux approches

ComputeEConj_1 ComputeEConj_2

60 vues, 10 valeurs parmi 100 21′09s 0s

60 vues, 10 valeurs parmi 500 1′13s 0s

60 vues, 20 valeurs parmi 500 17′33s 0s

60 vues, 30 valeurs parmi 500 56′58s 0s

80 vues, 10 valeurs parmi 500 8′29s 0s

Résultat prévisible (Sarawagi, Thomas, Agrawal SIGMOD’98)

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 29/32

Page 31: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Expérimentations de ComputeEConj_2

0

5

10

15

20

25

30

35

40

3000 5000 10000 15000

Nombre de vues

Tem

ps d

'ex

écut

ion

en s

econ

des

10

20

30

40

0 5

10 15 20 25 30 35 40 45 50

3000 5000 10000 15000

Nombre de vues

Tem

ps d

'ex

écut

ion

en

seco

ndes

10

20

30

40

Temps d’exécution d’Apriori pour des contraintes de taille fixe puisvariable

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 30/32

Page 32: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Quelques remarques par rapport aux résultats

Vers un algorithme de réécriture qui passe à l’échelle (15 000vues pour traiter un atome)

Pas de tests sur des jeux de données réels

taille des contraintes ?taille des éléments dans la bordure (Configuration des vues)

Tester d’autres algorithmes.

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 31/32

Page 33: Techniques de fouille de donnØes pour la rØØcriture en ...poncelet/GDRI3FD/Reunion211105/ResumeGDRI… · Techniques de fouille de donnØes pour la rØØcriture en prØsence de

ContexteFormalisation du problème

Définition et résolution du problèmeImplémentation et expérimentations

Conclusion

Conclusion

Problème de la réécriture de requêtes en termes de vues enprésence de contraintes de valeurs dans ALN (Ov )

Solution : calcul des paniers, en utilisant une caractérisationen termes de bordures.

Implémentation d’un algorithme : deux approches

faiblement coupléexterne (capable de traiter jusqu’à 15000 vues)

Techniques de fouilles de données : le domaine de laréécriture, un autre champ d’application ?

Hélène Jaudoin LIMOS-Cemagref [email protected] GDR Fouille de Données - Lyon - 21/11/05 32/32