treillis relationnel : une structure algébrique pour le data mining multidimensionnel

Post on 23-Jan-2016

33 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel. Alain Casali, Rosine Cicchetti, Lotfi Lakhal Laboratoire d’Informatique Fondamentale Marseille. Plan. Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel - PowerPoint PPT Presentation

TRANSCRIPT

Treillis Relationnel : Une Structure Algébrique pour le

Data Mining Multidimensionnel

Alain Casali, Rosine Cicchetti, Lotfi Lakhal

Laboratoire d’Informatique Fondamentale

Marseille

Plan

1. Nécessité d’un espace de recherche pour le data mining multidimensionnel

2. Treillis relationnel

3. Treillis relationnel contraint

4. Treillis relationnel vs Datacube

5. Perspectives

Casali, Cicchetti, Lakhal : Treillis Relationnel 2

1. Nécessité d’un espace de recherche pour le data mining multidimensionnel

• Problème de la transformation d’une relation d’attributs catégories en une relation binaire

• Treillis des parties : une structure mal adaptée au contexte multidimensionnel

• Non préservation de la complexité des algorithmes par niveaux

Casali, Cicchetti, Lakhal : Treillis Relationnel 3

Exemple:

Entrée Plat principal Dessert Quantité

Salade composée Agneau Glace 3

Salade composée Bœuf Glace 2

Salade composée Agneau Fruit 2

Salade composée Bœuf Fruit 2

Jambon Agneau Glace 1

Melon Agneau Glace 1

Casali, Cicchetti, Lakhal : Treillis Relationnel 4

Treillis des attributs binaires :

Mais toutes les solutions ne sont pas valides

SJMAB

JMABSMABSJABSJMBSJMA

MABJABJMBJMASABSMBSMASJBSJA

ABMBMAJBJAJMSBSASM

B

SJM

SJ

S AMJ

0

Casali, Cicchetti, Lakhal : Treillis Relationnel 5

Plan

1. Nécessité d’un espace de recherche pour le data mining multidimensionnel

2. Treillis relationnel

3. Treillis relationnel contraint

4. Treillis relationnel vs Datacube

5. Perspectives

Casali, Cicchetti, Lakhal : Treillis Relationnel 6

2. Treillis relationnel

2.1 Espace multidimensionnel

tuple = élément de space(r) = motif multidimensionnelex: <S,ALL,ALL> et <S,A,ALL>

2.2 Ordre de généralisation

On munit space(r) de l’ordre de généralisation g

ex: <S,ALL,ALL> g <S,A,ALL>

ØØ,...,)))((()( ALLADimrspace DA

sinon ØØ,...,

][][,u t g uAtAuDA

Casali, Cicchetti, Lakhal : Treillis Relationnel 7

r : relation de schéma

<S,?,?>

<S,A,F>

<?,B,G><?,B,F><?A,G><?,A,F><M,?,G><M,?,F><M,B,?><M,A,?><J,?,G><J,?,F><J,B,?><J,A,?><S,?,G><S,?,F><S,B,?><S,A,?>

<?,?,?>

<?,?,G><?,?,F><?,B,?><?,A,?><M,?,?><J,?,?>

<M,B,G><M,B,F><M,A,G><M,A,F><J,B,G><J,B,F><J,A,G><J,A,F><S,B,G><S,B,F><S,A,G>

<Ø,Ø,Ø>

Treillis de la relation exemple

Casali, Cicchetti, Lakhal : Treillis Relationnel 8

2.3 Opérateurs de base(a) La Somme

sinon

][][si][][,

ALL

AvAuAuAtDAvut

? ALL

<S,?,?>

<S,A,F>

<?,B,G><?,B,F><?A,G><?,A,F><M,?,G><M,?,F><M,B,?><M,A,?><J,?,G><J,?,F><J,B,?><J,A,?><S,?,G><S,?,F><S,B,?><S,A,?>

<?,?,?>

<?,?,G><?,?,F><?,B,?><?,A,?><M,?,?><J,?,?>

<M,B,G><M,B,F><M,A,G><M,A,F><J,B,G><J,B,F><J,A,G><J,A,F><S,B,G><S,B,F><S,A,G>

<Ø,Ø,Ø>

Treillis de la relation exemple

Casali, Cicchetti, Lakhal : Treillis Relationnel 9

(b) Le Produit

sinon ØØ,...,

Ø][,si

][][][,:Soit

AzDAztvut

AvAuAzDAz

2.4 Caractérisation du treillis relationnelThéorème: soit r une relation d’attributs catégories

sur .L’ensemble ordonné (space(r), g) est un treillis complet, atomique, co-atomique et gradué, appelé treillis relationnel et noté RL(r), dans lequel :

Casali, Cicchetti, Lakhal : Treillis Relationnel 10

MDR

tTrRLT

tTrRLT

Tt

Tt

),(

),(

2.5 Treillis relationnel vs Treillis des parties

DA

ADimn )(

)( ))(( DADimmaxoDA

n2

Casali, Cicchetti, Lakhal : Treillis Relationnel 11

Treillis Relationnel Treillis des PartiesHauteur |D|+1Nombre d'éléments

Opérateurs Sup. & Inf. Produit et Somme Union et Intersection

Caractéristiques non distributif distributif

Plan

1. Nécessité d’un espace de recherche pour le data mining multidimensionnel

2. Treillis relationnel

3. Treillis relationnel contraint

4. Treillis relationnel vs Datacube

5. Perspectives

Casali, Cicchetti, Lakhal : Treillis Relationnel 12

3. Treillis relationnel contraint

3.1 Définition des contraintesUne contrainte cont est anti-monotone w.r.t. g ssi

Une contrainte cont est monotone w.r.t. g ssi)()](et[:)(, uconttcontutrRLut g

)()](et[:)(, tcontucontutrRLut g

Casali, Cicchetti, Lakhal : Treillis Relationnel 13

3.2 Structure convexe « garantie »Théorème: le treillis relationnel contraint est un espace

convexe (représentable par bordures) dans lequel la borne maximale S+

cont et la borne minimale G+cont

sont:

1. Si cont = cmc, G+ = min ({t RL(r) : cmc(t)} )et S+=<Ø,…Ø>

2. Si cont = camc, G+=<ALL,…,ALL> et

S+ = max({t RL(r) : camc(t)})3. Si cont = chc, G+ = min({t RL(r) :chc(t)}) et

S+ = max({t RL(r) : chc(t)})

Casali, Cicchetti, Lakhal : Treillis Relationnel 14

3.3 Exemples de contraintes(a) Fréquence

Freq(t) minfreq est une contrainte anti-monotone et Freq(t) maxfreq est une contrainte monotone.

(b) Fréquence de la disjonction

Freq(vt) minfreq est une contrainte monotone et Freq(vt) maxfreq est une contrainte anti-monotone.

rt

rt

Mt

ttMttFreq

'

'

]['

ALLALL,...,'][')(

Casali, Cicchetti, Lakhal : Treillis Relationnel 15

rt

rt

g

Mt

ttMttFreq

'

'

]['

'][')(

3.4 Exactitude des solutions(a) freq(t) 3/11 (contrainte anti-monotone)

E PP D Q

S A G 3

S B G 2

S A F 2

S B F 2

J A G 1

M A G 1

<?,B,?> 4

<?,?,?> 11

<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9<?,B,?> 4

<?,?,?> 11

<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9

<S,A,?> 5

<?,B,?> 4

<?,?,?> 11

<?,?,F> 4<?,A,?> 7<S,?,?> 9

<S,A,?> 5 <S,B,?> 4<?,A,G> 5

<?,?,G> 7

<S,?,G> 5 <S,?,F> 4

<S,A,G> 3

Casali, Cicchetti, Lakhal : Treillis Relationnel 16

Algorithme par niveau binaire donne le même résultat ?

(b) freq(t) 4/11 (contrainte monotone)

E PP D Q

S A G 3

S B G 2

S A F 2

S B F 2

J A G 1

M A G 1<?,B,?> 4

<?,?,?> 11

<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9 <M,?,?> 1 <J,?,?> 1<?,B,?> 4

<?,?,?> 11

<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9 <M,?,?> 1 <J,?,?> 1

<S,A,?> 5 <S,B,?> 4 <?,B,F> 2<?,B,G> 2<S,?,F> 4 <?,A,F> 2<?,A,G> 5<S,?,G> 5

<?,B,?> 4

<?,?,?> 11

<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9 <M,?,?> 1 <J,?,?> 1

<S,A,?> 5 <S,B,?> 4 <?,B,F> 2<?,B,G> 2<S,?,F> 4 <?,A,F> 2<?,A,G> 5<S,?,G> 5

<S,A,G> 3

Casali, Cicchetti, Lakhal : Treillis Relationnel 17

<M,?,?> 1

<?,?,?> 11

<?,B,?> 4 <?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9 <J,?,?> 1

Si algorithme (cadre binaire) => SJ fait partie des résultats. Solution possible: ajouter la contrainte freq(t)>0. Mais freq(<J,B,?>)=0 et <J,B,?> vérifie la contrainte.

(c) freq(Vt) 6/11 (contrainte anti-monotone)

E PP D Q

S A G 3

S B G 2

S A F 2

S B F 2

J A G 1

M A G 1

Casali, Cicchetti, Lakhal : Treillis Relationnel 18

Freq(V<J,?,F>) = 5/11 mais Freq(<J,?,F>) = 0Donc la contrainte Freq(t) > 0 ne permet pas d’obtenir l’ensemble des solutions d’un problème de data mining multidimensionnel en utilisant les techniques de data mining binaire.

<M,B,?> 5

<?,B,?> 4

<?,?,?> 0

<?,?,F> 4 <M,?,?> 1 <J,?,?> 1

<M,?,F> 5 <J,B,?> 5 <J,?,F> 5 <?,B,F> 6

Plan

1. Nécessité d’un espace de recherche pour le data mining multidimensionnel

2. Treillis relationnel

3. Treillis relationnel contraint

4. Treillis relationnel vs Datacube

5. Perspectives

Casali, Cicchetti, Lakhal : Treillis Relationnel 19

4. Treillis relationnel vs Datacube

• Datacube est un problème de data mining multidimensionnel dont l’espace de recherche est le treillis relationnel.

• RL(r) = Datacube( )

+ ordre de généralisation

+ opérateurs Produit et Somme

Ordre de généralisation et opérateurs de base permettent la navigation dans le Datacube

rr

Casali, Cicchetti, Lakhal : Treillis Relationnel 20

• Projet similaire Laksmanan, Pei, Han pour l’extraction des connaissances (sémantiques) dans le Datacube.

• Premiers résultats (VLDB’02) :

Cube Quotient : Treillis des classes d’équivalences selon des fonctions agrégatives. Ce cube (réduit) permet la navigation comme dans le Datacube.

Casali, Cicchetti, Lakhal : Treillis Relationnel 21

Plan

1. Nécessité d’un espace de recherche pour le data mining multidimensionnel

2. Treillis relationnel

3. Treillis relationnel contraint

4. Treillis relationnel vs Datacube

5. Perspectives

Casali, Cicchetti, Lakhal : Treillis Relationnel 22

5. Perspectives

1. Treillis relationnel fermé

2. Espace de version

3. Espace de version émergent ( 2 Datacubes)

4. Représentations concises/condensées du treillis relationnel contraint

Casali, Cicchetti, Lakhal : Treillis Relationnel 23

top related