une approche de construction despaces de représentation multidimensionnels dédiés à la...

21
Une approche de construction d’espaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire ERIC – Université Lyon 2 5 avenue Pierre Mendès–France 69676, Bron Cedex – France http://eric.univ-lyon2.fr

Upload: perceval-chauvet

Post on 04-Apr-2015

119 views

Category:

Documents


11 download

TRANSCRIPT

Page 1: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

Une approche de construction d’espaces de représentation

multidimensionnels dédiés à la visualisationRiadh Ben Messaoud

Kamel AouicheCécile Favre

Laboratoire ERIC – Université Lyon 25 avenue Pierre Mendès–France

69676, Bron Cedex – Francehttp://eric.univ-lyon2.fr

Page 2: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 2/20

Contexte et problématiqueOLAP : navigation et exploration des données pour extraire des informations pertinentesForte composante visuelle dans l’OLAP

La représentation multidimensionnelle des données

Eparsité dans la représentation des données

La forte dimensionnalité

Eparsité plus importante

Ordre classique des modalités

Distribution aléatoire du nuage des faits

Page 3: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 3/20

Contexte et problématiqueAméliorer la visualisation des données : Regrouper les faits dans l’espace de représentation

Arranger l’ordre des modalités

1

2

3

4

5

6

7

8

A B C D E F G H I J K L

2

6

3

1

7

5

4

8

A C E G H D B K L J I F

Page 4: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 4/20

Plan

Travaux connexes

Notre approche : méthode de construction de représentations multidimensionnelles

Critère d’évaluation des représentations des données multidimensionnelles

Étude de cas : application aux données bancaires

Expérimentations

Conclusion et perspectives

Page 5: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 5/20

Travaux connexes

Deux points de vue : Administrateur

Optimiser le stockage Vitter et al., Barbará et Sullivan, Schanmugasundaram et al., Sismanis et al., Feng et al., Lakshmanan et al., Li et al.

Améliorer le temps de réponse aux requêtes Ross et Srivastava

Utilisateur Améliorer la visualisation et la navigation dans le cube

de données Choong et al.

Page 6: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 6/20

Notre approcheArranger l’ordre des modalités des dimensions du cube de données pour améliorer sa visualisation

Utiliser les résultats de l’Analyse des Correspondances Multiples (ACM)

Pourquoi l’ACM ? Principe de l’ACM :

Entrée : tableau individus/variables (faits/modalités des dimensions)

Sortie : axes d’analyse composites Construction d’un plan propice à l’analyse dans lequel sont

projetés les individus

L’ACM est une méthode factorielle adaptée aux grands volumes de données qualitatives

Page 7: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 7/20

Notre approche

Dimensions

Mesures

Choix des dimensions et des mesures par l’utilisateur selon les besoins de son analyse

1

Aplatissement du cube de données sous forme d’un tableau disjonctif complet1

Page 8: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 8/20

Notre approcheAplatissement du cube de données sous forme d’un tableau disjonctif complet1

1 2

3 4

5

6

8

7

9

123456789

A001000010

B000000000

C100001000

D000010000

E000000100

F010100001

D1

A110000000

B001100000

C000000000

D000010000

E000001000

F000000100

G000000011

D2

Page 9: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 9/20

Notre approche

Dimensions

Mesures

2

Application de l’ACM

2

Page 10: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 10/20

Notre approche

Construction d’axes factoriels ajustant au mieux le nuage des individus (faits) et des variables (modalités)Chaque axe factoriel est associé à une valeur propre représente la part de l’axe dans l’inertie totale du nuage des individusChaque variable (modalité) a une contribution relative dans la construction de l’axeContribution d’une dimension dans la construction de l’axe

Application de l’ACM2

F F

)()(1

tj

p

jt aCrDCr

t

F)( tjaCr

tD F

Page 11: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 11/20

Notre approche

Dimensions

Mesures

Arrangement des modalités3

Page 12: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 12/20

Notre approche

Associer à chaque dimension un axe factoriel

Pour chaque dimension, choisir l’axe qui a été le mieux expliqué par ses modalités

Maximiser

Chercher l’indice qui vérifie l’équation :

Trier les projections des modalités de sur l’axe

Utiliser ce tri pour ordonner les modalités de la dimension

Arrangement des modalités3

FtD

)( tDCr

dpDCrDCr tt ,,1))(max()(**

*

FtD

Page 13: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 13/20

Notre approche

Dimensions

Mesures

Page 14: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 14/20

Critère d’évaluation

Mesurer la qualité de la représentation des donnéesHomogénéité de la répartition des cellules dans un cube

Voisinage géométrique des cellules Mesure de similarité entre les cellules

AA

Voisinage de la cellule A

Δ(A) = 0 + 1 + 0 + 0 + 1 + 1 + 1 + 0 = 4

Calculer le gain en homogénéité fourni par la méthode

Similarité de deux cellules voisines Similarité = 1, si les 2 cellules sont pleines

Similarité = 0, sinon

CA AVB

CA

ACIH

)(

1

)()(Indice d’homogénéité :

Page 15: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 15/20

Étude de casJeu de données bancaires fourni par le Crédit LyonnaisLe cube contient n=311 959 faitsUn fait correspond au comportement d’achats des clients

DimensionNombre

de modalités

D1 : catégorie socio-professionnelle 58D2 : produit 25D3 : unité commerciale 65D4 : segment 15D5 : âge 12D6 : situation familiale 6D7 : type client 4D8 : marché 4

Page 16: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 16/20

Cube arrangé (IH=20,60%)Cube initial (IH=17,75%)

Études de casD1 : Catégorie socio-professionnelle, D2 : ProduitTaux d’éparsité = 64%

Gain en homogénéité = 16,38%

D1

D2

Page 17: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 17/20

ExpérimentationsÉvolution de l'indice d'homogénéité en fonction de l'éparsité

0%

5%

10%

15%

20%

25%

60% 65% 70% 75% 80% 85% 90%

Cube initialCube arrangé

Décroissance de l’indice d’homogénéité en fonction de l’éparsitéL’indice d’homogénéité du cube arrangé est toujours supérieur à celui du cube initial

Éparsité

Ind

ice d

’hom

og

én

éit

é

Page 18: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 18/20

ExpérimentationsÉvolution du gain en homogénéité en fonction de l'éparsité

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

60% 65% 70% 75% 80% 85% 90%

Gain en homogénéité toujours positifTendance croissante du gain en homogénéité en fonction de l’éparsitéFléchissements possibles dus à la nature des données

Gain

en

hom

og

én

éit

é

Éparsité

Page 19: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 19/20

ConclusionSolution au problème de la visualisation des données dans un cube éparse basée sur l’exploitation des résultats d’une analyse factorielle

Organisation des modalités des dimensions en fonction des résultats d’une ACM

Pas de diminution de l’éparsité mais organisation de celle-ci

Indice de qualité des représentations multidimensionnelles

Plus l’éparsité est importante, plus notre approche est pertinente

Page 20: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 20/20

Perspectives

Étude de complexité de notre approche

Étude de la possibilité de rendre la méthode incrémentale

Introduction des valeurs des mesures Dans la méthode Dans l’indice d’homogénéité

Utilisation de notre méthode pour détecter les parties du cube à matérialiser

Exploitation de notre approche dans le cadre de l’entreposage virtuel de données

Page 21: Une approche de construction despaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud Kamel Aouiche Cécile Favre Laboratoire

R. Ben Messaoud, K. Aouiche et C. Favre 21/20

Merci de votre attention