treillis relationnel : une structure algébrique pour le data mining multidimensionnel
DESCRIPTION
Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel. Alain Casali, Rosine Cicchetti, Lotfi Lakhal Laboratoire d’Informatique Fondamentale Marseille. Plan. Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel - PowerPoint PPT PresentationTRANSCRIPT
Treillis Relationnel : Une Structure Algébrique pour le
Data Mining Multidimensionnel
Alain Casali, Rosine Cicchetti, Lotfi Lakhal
Laboratoire d’Informatique Fondamentale
Marseille
Plan
1. Nécessité d’un espace de recherche pour le data mining multidimensionnel
2. Treillis relationnel
3. Treillis relationnel contraint
4. Treillis relationnel vs Datacube
5. Perspectives
Casali, Cicchetti, Lakhal : Treillis Relationnel 2
1. Nécessité d’un espace de recherche pour le data mining multidimensionnel
• Problème de la transformation d’une relation d’attributs catégories en une relation binaire
• Treillis des parties : une structure mal adaptée au contexte multidimensionnel
• Non préservation de la complexité des algorithmes par niveaux
Casali, Cicchetti, Lakhal : Treillis Relationnel 3
Exemple:
Entrée Plat principal Dessert Quantité
Salade composée Agneau Glace 3
Salade composée Bœuf Glace 2
Salade composée Agneau Fruit 2
Salade composée Bœuf Fruit 2
Jambon Agneau Glace 1
Melon Agneau Glace 1
Casali, Cicchetti, Lakhal : Treillis Relationnel 4
Treillis des attributs binaires :
Mais toutes les solutions ne sont pas valides
SJMAB
JMABSMABSJABSJMBSJMA
MABJABJMBJMASABSMBSMASJBSJA
ABMBMAJBJAJMSBSASM
B
SJM
SJ
S AMJ
0
Casali, Cicchetti, Lakhal : Treillis Relationnel 5
Plan
1. Nécessité d’un espace de recherche pour le data mining multidimensionnel
2. Treillis relationnel
3. Treillis relationnel contraint
4. Treillis relationnel vs Datacube
5. Perspectives
Casali, Cicchetti, Lakhal : Treillis Relationnel 6
2. Treillis relationnel
2.1 Espace multidimensionnel
tuple = élément de space(r) = motif multidimensionnelex: <S,ALL,ALL> et <S,A,ALL>
2.2 Ordre de généralisation
On munit space(r) de l’ordre de généralisation g
ex: <S,ALL,ALL> g <S,A,ALL>
ØØ,...,)))((()( ALLADimrspace DA
sinon ØØ,...,
][][,u t g uAtAuDA
Casali, Cicchetti, Lakhal : Treillis Relationnel 7
r : relation de schéma
<S,?,?>
<S,A,F>
<?,B,G><?,B,F><?A,G><?,A,F><M,?,G><M,?,F><M,B,?><M,A,?><J,?,G><J,?,F><J,B,?><J,A,?><S,?,G><S,?,F><S,B,?><S,A,?>
<?,?,?>
<?,?,G><?,?,F><?,B,?><?,A,?><M,?,?><J,?,?>
<M,B,G><M,B,F><M,A,G><M,A,F><J,B,G><J,B,F><J,A,G><J,A,F><S,B,G><S,B,F><S,A,G>
<Ø,Ø,Ø>
Treillis de la relation exemple
Casali, Cicchetti, Lakhal : Treillis Relationnel 8
2.3 Opérateurs de base(a) La Somme
sinon
][][si][][,
ALL
AvAuAuAtDAvut
? ALL
<S,?,?>
<S,A,F>
<?,B,G><?,B,F><?A,G><?,A,F><M,?,G><M,?,F><M,B,?><M,A,?><J,?,G><J,?,F><J,B,?><J,A,?><S,?,G><S,?,F><S,B,?><S,A,?>
<?,?,?>
<?,?,G><?,?,F><?,B,?><?,A,?><M,?,?><J,?,?>
<M,B,G><M,B,F><M,A,G><M,A,F><J,B,G><J,B,F><J,A,G><J,A,F><S,B,G><S,B,F><S,A,G>
<Ø,Ø,Ø>
Treillis de la relation exemple
Casali, Cicchetti, Lakhal : Treillis Relationnel 9
(b) Le Produit
sinon ØØ,...,
Ø][,si
][][][,:Soit
AzDAztvut
AvAuAzDAz
2.4 Caractérisation du treillis relationnelThéorème: soit r une relation d’attributs catégories
sur .L’ensemble ordonné (space(r), g) est un treillis complet, atomique, co-atomique et gradué, appelé treillis relationnel et noté RL(r), dans lequel :
Casali, Cicchetti, Lakhal : Treillis Relationnel 10
MDR
tTrRLT
tTrRLT
Tt
Tt
),(
),(
2.5 Treillis relationnel vs Treillis des parties
DA
ADimn )(
)( ))(( DADimmaxoDA
n2
Casali, Cicchetti, Lakhal : Treillis Relationnel 11
Treillis Relationnel Treillis des PartiesHauteur |D|+1Nombre d'éléments
Opérateurs Sup. & Inf. Produit et Somme Union et Intersection
Caractéristiques non distributif distributif
Plan
1. Nécessité d’un espace de recherche pour le data mining multidimensionnel
2. Treillis relationnel
3. Treillis relationnel contraint
4. Treillis relationnel vs Datacube
5. Perspectives
Casali, Cicchetti, Lakhal : Treillis Relationnel 12
3. Treillis relationnel contraint
3.1 Définition des contraintesUne contrainte cont est anti-monotone w.r.t. g ssi
Une contrainte cont est monotone w.r.t. g ssi)()](et[:)(, uconttcontutrRLut g
)()](et[:)(, tcontucontutrRLut g
Casali, Cicchetti, Lakhal : Treillis Relationnel 13
3.2 Structure convexe « garantie »Théorème: le treillis relationnel contraint est un espace
convexe (représentable par bordures) dans lequel la borne maximale S+
cont et la borne minimale G+cont
sont:
1. Si cont = cmc, G+ = min ({t RL(r) : cmc(t)} )et S+=<Ø,…Ø>
2. Si cont = camc, G+=<ALL,…,ALL> et
S+ = max({t RL(r) : camc(t)})3. Si cont = chc, G+ = min({t RL(r) :chc(t)}) et
S+ = max({t RL(r) : chc(t)})
Casali, Cicchetti, Lakhal : Treillis Relationnel 14
3.3 Exemples de contraintes(a) Fréquence
Freq(t) minfreq est une contrainte anti-monotone et Freq(t) maxfreq est une contrainte monotone.
(b) Fréquence de la disjonction
Freq(vt) minfreq est une contrainte monotone et Freq(vt) maxfreq est une contrainte anti-monotone.
rt
rt
Mt
ttMttFreq
'
'
]['
ALLALL,...,'][')(
Casali, Cicchetti, Lakhal : Treillis Relationnel 15
rt
rt
g
Mt
ttMttFreq
'
'
]['
'][')(
3.4 Exactitude des solutions(a) freq(t) 3/11 (contrainte anti-monotone)
E PP D Q
S A G 3
S B G 2
S A F 2
S B F 2
J A G 1
M A G 1
<?,B,?> 4
<?,?,?> 11
<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9<?,B,?> 4
<?,?,?> 11
<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9
<S,A,?> 5
<?,B,?> 4
<?,?,?> 11
<?,?,F> 4<?,A,?> 7<S,?,?> 9
<S,A,?> 5 <S,B,?> 4<?,A,G> 5
<?,?,G> 7
<S,?,G> 5 <S,?,F> 4
<S,A,G> 3
Casali, Cicchetti, Lakhal : Treillis Relationnel 16
Algorithme par niveau binaire donne le même résultat ?
(b) freq(t) 4/11 (contrainte monotone)
E PP D Q
S A G 3
S B G 2
S A F 2
S B F 2
J A G 1
M A G 1<?,B,?> 4
<?,?,?> 11
<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9 <M,?,?> 1 <J,?,?> 1<?,B,?> 4
<?,?,?> 11
<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9 <M,?,?> 1 <J,?,?> 1
<S,A,?> 5 <S,B,?> 4 <?,B,F> 2<?,B,G> 2<S,?,F> 4 <?,A,F> 2<?,A,G> 5<S,?,G> 5
<?,B,?> 4
<?,?,?> 11
<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9 <M,?,?> 1 <J,?,?> 1
<S,A,?> 5 <S,B,?> 4 <?,B,F> 2<?,B,G> 2<S,?,F> 4 <?,A,F> 2<?,A,G> 5<S,?,G> 5
<S,A,G> 3
Casali, Cicchetti, Lakhal : Treillis Relationnel 17
<M,?,?> 1
<?,?,?> 11
<?,B,?> 4 <?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9 <J,?,?> 1
Si algorithme (cadre binaire) => SJ fait partie des résultats. Solution possible: ajouter la contrainte freq(t)>0. Mais freq(<J,B,?>)=0 et <J,B,?> vérifie la contrainte.
(c) freq(Vt) 6/11 (contrainte anti-monotone)
E PP D Q
S A G 3
S B G 2
S A F 2
S B F 2
J A G 1
M A G 1
Casali, Cicchetti, Lakhal : Treillis Relationnel 18
Freq(V<J,?,F>) = 5/11 mais Freq(<J,?,F>) = 0Donc la contrainte Freq(t) > 0 ne permet pas d’obtenir l’ensemble des solutions d’un problème de data mining multidimensionnel en utilisant les techniques de data mining binaire.
<M,B,?> 5
<?,B,?> 4
<?,?,?> 0
<?,?,F> 4 <M,?,?> 1 <J,?,?> 1
<M,?,F> 5 <J,B,?> 5 <J,?,F> 5 <?,B,F> 6
Plan
1. Nécessité d’un espace de recherche pour le data mining multidimensionnel
2. Treillis relationnel
3. Treillis relationnel contraint
4. Treillis relationnel vs Datacube
5. Perspectives
Casali, Cicchetti, Lakhal : Treillis Relationnel 19
4. Treillis relationnel vs Datacube
• Datacube est un problème de data mining multidimensionnel dont l’espace de recherche est le treillis relationnel.
• RL(r) = Datacube( )
+ ordre de généralisation
+ opérateurs Produit et Somme
Ordre de généralisation et opérateurs de base permettent la navigation dans le Datacube
rr
Casali, Cicchetti, Lakhal : Treillis Relationnel 20
• Projet similaire Laksmanan, Pei, Han pour l’extraction des connaissances (sémantiques) dans le Datacube.
• Premiers résultats (VLDB’02) :
Cube Quotient : Treillis des classes d’équivalences selon des fonctions agrégatives. Ce cube (réduit) permet la navigation comme dans le Datacube.
Casali, Cicchetti, Lakhal : Treillis Relationnel 21
Plan
1. Nécessité d’un espace de recherche pour le data mining multidimensionnel
2. Treillis relationnel
3. Treillis relationnel contraint
4. Treillis relationnel vs Datacube
5. Perspectives
Casali, Cicchetti, Lakhal : Treillis Relationnel 22
5. Perspectives
1. Treillis relationnel fermé
2. Espace de version
3. Espace de version émergent ( 2 Datacubes)
4. Représentations concises/condensées du treillis relationnel contraint
Casali, Cicchetti, Lakhal : Treillis Relationnel 23