treillis relationnel : une structure algébrique pour le data mining multidimensionnel

23
Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel Alain Casali, Rosine Cicchetti, Lotfi Lakhal Laboratoire d’Informatique Fondamentale Marseille

Upload: waneta

Post on 23-Jan-2016

33 views

Category:

Documents


1 download

DESCRIPTION

Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel. Alain Casali, Rosine Cicchetti, Lotfi Lakhal Laboratoire d’Informatique Fondamentale Marseille. Plan. Nécessité d’un espace de recherche pour le data mining multidimensionnel Treillis relationnel - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

Treillis Relationnel : Une Structure Algébrique pour le

Data Mining Multidimensionnel

Alain Casali, Rosine Cicchetti, Lotfi Lakhal

Laboratoire d’Informatique Fondamentale

Marseille

Page 2: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

Plan

1. Nécessité d’un espace de recherche pour le data mining multidimensionnel

2. Treillis relationnel

3. Treillis relationnel contraint

4. Treillis relationnel vs Datacube

5. Perspectives

Casali, Cicchetti, Lakhal : Treillis Relationnel 2

Page 3: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

1. Nécessité d’un espace de recherche pour le data mining multidimensionnel

• Problème de la transformation d’une relation d’attributs catégories en une relation binaire

• Treillis des parties : une structure mal adaptée au contexte multidimensionnel

• Non préservation de la complexité des algorithmes par niveaux

Casali, Cicchetti, Lakhal : Treillis Relationnel 3

Page 4: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

Exemple:

Entrée Plat principal Dessert Quantité

Salade composée Agneau Glace 3

Salade composée Bœuf Glace 2

Salade composée Agneau Fruit 2

Salade composée Bœuf Fruit 2

Jambon Agneau Glace 1

Melon Agneau Glace 1

Casali, Cicchetti, Lakhal : Treillis Relationnel 4

Page 5: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

Treillis des attributs binaires :

Mais toutes les solutions ne sont pas valides

SJMAB

JMABSMABSJABSJMBSJMA

MABJABJMBJMASABSMBSMASJBSJA

ABMBMAJBJAJMSBSASM

B

SJM

SJ

S AMJ

0

Casali, Cicchetti, Lakhal : Treillis Relationnel 5

Page 6: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

Plan

1. Nécessité d’un espace de recherche pour le data mining multidimensionnel

2. Treillis relationnel

3. Treillis relationnel contraint

4. Treillis relationnel vs Datacube

5. Perspectives

Casali, Cicchetti, Lakhal : Treillis Relationnel 6

Page 7: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

2. Treillis relationnel

2.1 Espace multidimensionnel

tuple = élément de space(r) = motif multidimensionnelex: <S,ALL,ALL> et <S,A,ALL>

2.2 Ordre de généralisation

On munit space(r) de l’ordre de généralisation g

ex: <S,ALL,ALL> g <S,A,ALL>

ØØ,...,)))((()( ALLADimrspace DA

sinon ØØ,...,

][][,u t g uAtAuDA

Casali, Cicchetti, Lakhal : Treillis Relationnel 7

r : relation de schéma

Page 8: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

<S,?,?>

<S,A,F>

<?,B,G><?,B,F><?A,G><?,A,F><M,?,G><M,?,F><M,B,?><M,A,?><J,?,G><J,?,F><J,B,?><J,A,?><S,?,G><S,?,F><S,B,?><S,A,?>

<?,?,?>

<?,?,G><?,?,F><?,B,?><?,A,?><M,?,?><J,?,?>

<M,B,G><M,B,F><M,A,G><M,A,F><J,B,G><J,B,F><J,A,G><J,A,F><S,B,G><S,B,F><S,A,G>

<Ø,Ø,Ø>

Treillis de la relation exemple

Casali, Cicchetti, Lakhal : Treillis Relationnel 8

2.3 Opérateurs de base(a) La Somme

sinon

][][si][][,

ALL

AvAuAuAtDAvut

? ALL

Page 9: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

<S,?,?>

<S,A,F>

<?,B,G><?,B,F><?A,G><?,A,F><M,?,G><M,?,F><M,B,?><M,A,?><J,?,G><J,?,F><J,B,?><J,A,?><S,?,G><S,?,F><S,B,?><S,A,?>

<?,?,?>

<?,?,G><?,?,F><?,B,?><?,A,?><M,?,?><J,?,?>

<M,B,G><M,B,F><M,A,G><M,A,F><J,B,G><J,B,F><J,A,G><J,A,F><S,B,G><S,B,F><S,A,G>

<Ø,Ø,Ø>

Treillis de la relation exemple

Casali, Cicchetti, Lakhal : Treillis Relationnel 9

(b) Le Produit

sinon ØØ,...,

Ø][,si

][][][,:Soit

AzDAztvut

AvAuAzDAz

Page 10: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

2.4 Caractérisation du treillis relationnelThéorème: soit r une relation d’attributs catégories

sur .L’ensemble ordonné (space(r), g) est un treillis complet, atomique, co-atomique et gradué, appelé treillis relationnel et noté RL(r), dans lequel :

Casali, Cicchetti, Lakhal : Treillis Relationnel 10

MDR

tTrRLT

tTrRLT

Tt

Tt

),(

),(

Page 11: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

2.5 Treillis relationnel vs Treillis des parties

DA

ADimn )(

)( ))(( DADimmaxoDA

n2

Casali, Cicchetti, Lakhal : Treillis Relationnel 11

Treillis Relationnel Treillis des PartiesHauteur |D|+1Nombre d'éléments

Opérateurs Sup. & Inf. Produit et Somme Union et Intersection

Caractéristiques non distributif distributif

Page 12: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

Plan

1. Nécessité d’un espace de recherche pour le data mining multidimensionnel

2. Treillis relationnel

3. Treillis relationnel contraint

4. Treillis relationnel vs Datacube

5. Perspectives

Casali, Cicchetti, Lakhal : Treillis Relationnel 12

Page 13: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

3. Treillis relationnel contraint

3.1 Définition des contraintesUne contrainte cont est anti-monotone w.r.t. g ssi

Une contrainte cont est monotone w.r.t. g ssi)()](et[:)(, uconttcontutrRLut g

)()](et[:)(, tcontucontutrRLut g

Casali, Cicchetti, Lakhal : Treillis Relationnel 13

Page 14: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

3.2 Structure convexe « garantie »Théorème: le treillis relationnel contraint est un espace

convexe (représentable par bordures) dans lequel la borne maximale S+

cont et la borne minimale G+cont

sont:

1. Si cont = cmc, G+ = min ({t RL(r) : cmc(t)} )et S+=<Ø,…Ø>

2. Si cont = camc, G+=<ALL,…,ALL> et

S+ = max({t RL(r) : camc(t)})3. Si cont = chc, G+ = min({t RL(r) :chc(t)}) et

S+ = max({t RL(r) : chc(t)})

Casali, Cicchetti, Lakhal : Treillis Relationnel 14

Page 15: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

3.3 Exemples de contraintes(a) Fréquence

Freq(t) minfreq est une contrainte anti-monotone et Freq(t) maxfreq est une contrainte monotone.

(b) Fréquence de la disjonction

Freq(vt) minfreq est une contrainte monotone et Freq(vt) maxfreq est une contrainte anti-monotone.

rt

rt

Mt

ttMttFreq

'

'

]['

ALLALL,...,'][')(

Casali, Cicchetti, Lakhal : Treillis Relationnel 15

rt

rt

g

Mt

ttMttFreq

'

'

]['

'][')(

Page 16: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

3.4 Exactitude des solutions(a) freq(t) 3/11 (contrainte anti-monotone)

E PP D Q

S A G 3

S B G 2

S A F 2

S B F 2

J A G 1

M A G 1

<?,B,?> 4

<?,?,?> 11

<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9<?,B,?> 4

<?,?,?> 11

<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9

<S,A,?> 5

<?,B,?> 4

<?,?,?> 11

<?,?,F> 4<?,A,?> 7<S,?,?> 9

<S,A,?> 5 <S,B,?> 4<?,A,G> 5

<?,?,G> 7

<S,?,G> 5 <S,?,F> 4

<S,A,G> 3

Casali, Cicchetti, Lakhal : Treillis Relationnel 16

Algorithme par niveau binaire donne le même résultat ?

Page 17: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

(b) freq(t) 4/11 (contrainte monotone)

E PP D Q

S A G 3

S B G 2

S A F 2

S B F 2

J A G 1

M A G 1<?,B,?> 4

<?,?,?> 11

<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9 <M,?,?> 1 <J,?,?> 1<?,B,?> 4

<?,?,?> 11

<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9 <M,?,?> 1 <J,?,?> 1

<S,A,?> 5 <S,B,?> 4 <?,B,F> 2<?,B,G> 2<S,?,F> 4 <?,A,F> 2<?,A,G> 5<S,?,G> 5

<?,B,?> 4

<?,?,?> 11

<?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9 <M,?,?> 1 <J,?,?> 1

<S,A,?> 5 <S,B,?> 4 <?,B,F> 2<?,B,G> 2<S,?,F> 4 <?,A,F> 2<?,A,G> 5<S,?,G> 5

<S,A,G> 3

Casali, Cicchetti, Lakhal : Treillis Relationnel 17

<M,?,?> 1

<?,?,?> 11

<?,B,?> 4 <?,?,F> 4<?,?,G> 7<?,A,?> 7<S,?,?> 9 <J,?,?> 1

Si algorithme (cadre binaire) => SJ fait partie des résultats. Solution possible: ajouter la contrainte freq(t)>0. Mais freq(<J,B,?>)=0 et <J,B,?> vérifie la contrainte.

Page 18: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

(c) freq(Vt) 6/11 (contrainte anti-monotone)

E PP D Q

S A G 3

S B G 2

S A F 2

S B F 2

J A G 1

M A G 1

Casali, Cicchetti, Lakhal : Treillis Relationnel 18

Freq(V<J,?,F>) = 5/11 mais Freq(<J,?,F>) = 0Donc la contrainte Freq(t) > 0 ne permet pas d’obtenir l’ensemble des solutions d’un problème de data mining multidimensionnel en utilisant les techniques de data mining binaire.

<M,B,?> 5

<?,B,?> 4

<?,?,?> 0

<?,?,F> 4 <M,?,?> 1 <J,?,?> 1

<M,?,F> 5 <J,B,?> 5 <J,?,F> 5 <?,B,F> 6

Page 19: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

Plan

1. Nécessité d’un espace de recherche pour le data mining multidimensionnel

2. Treillis relationnel

3. Treillis relationnel contraint

4. Treillis relationnel vs Datacube

5. Perspectives

Casali, Cicchetti, Lakhal : Treillis Relationnel 19

Page 20: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

4. Treillis relationnel vs Datacube

• Datacube est un problème de data mining multidimensionnel dont l’espace de recherche est le treillis relationnel.

• RL(r) = Datacube( )

+ ordre de généralisation

+ opérateurs Produit et Somme

Ordre de généralisation et opérateurs de base permettent la navigation dans le Datacube

rr

Casali, Cicchetti, Lakhal : Treillis Relationnel 20

Page 21: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

• Projet similaire Laksmanan, Pei, Han pour l’extraction des connaissances (sémantiques) dans le Datacube.

• Premiers résultats (VLDB’02) :

Cube Quotient : Treillis des classes d’équivalences selon des fonctions agrégatives. Ce cube (réduit) permet la navigation comme dans le Datacube.

Casali, Cicchetti, Lakhal : Treillis Relationnel 21

Page 22: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

Plan

1. Nécessité d’un espace de recherche pour le data mining multidimensionnel

2. Treillis relationnel

3. Treillis relationnel contraint

4. Treillis relationnel vs Datacube

5. Perspectives

Casali, Cicchetti, Lakhal : Treillis Relationnel 22

Page 23: Treillis Relationnel : Une Structure Algébrique pour le Data Mining Multidimensionnel

5. Perspectives

1. Treillis relationnel fermé

2. Espace de version

3. Espace de version émergent ( 2 Datacubes)

4. Représentations concises/condensées du treillis relationnel contraint

Casali, Cicchetti, Lakhal : Treillis Relationnel 23