Download - P15 Eda05 V D
Une approche de construction d’espaces de représentation
multidimensionnels dédiés à la visualisationRiadh Ben Messaoud
Kamel AouicheCécile Favre
Laboratoire ERIC – Université Lyon 25 avenue Pierre Mendès–France
69676, Bron Cedex – Francehttp://eric.univ-lyon2.fr
R. Ben Messaoud, K. Aouiche et C. Favre 2/20
Contexte et problématiqueOLAP : navigation et exploration des données pour extraire des informations pertinentesForte composante visuelle dans l’OLAP
La représentation multidimensionnelle des données
Eparsité dans la représentation des données
La forte dimensionnalité
Eparsité plus importante
Ordre classique des modalités
Distribution aléatoire du nuage des faits
R. Ben Messaoud, K. Aouiche et C. Favre 3/20
Contexte et problématiqueAméliorer la visualisation des données : Regrouper les faits dans l’espace de représentation
Arranger l’ordre des modalités
1
2
3
4
5
6
7
8
A B C D E F G H I J K L
2
6
3
1
7
5
4
8
A C E G H D B K L J I F
R. Ben Messaoud, K. Aouiche et C. Favre 4/20
Plan
Travaux connexes
Notre approche : méthode de construction de représentations multidimensionnelles
Critère d’évaluation des représentations des données multidimensionnelles
Étude de cas : application aux données bancaires
Expérimentations
Conclusion et perspectives
R. Ben Messaoud, K. Aouiche et C. Favre 5/20
Travaux connexes
Deux points de vue : Administrateur
Optimiser le stockage Vitter et al., Barbará et Sullivan, Schanmugasundaram et al., Sismanis et al., Feng et al., Lakshmanan et al., Li et al.
Améliorer le temps de réponse aux requêtes Ross et Srivastava
Utilisateur Améliorer la visualisation et la navigation dans le cube
de données Choong et al.
R. Ben Messaoud, K. Aouiche et C. Favre 6/20
Notre approcheArranger l’ordre des modalités des dimensions du cube de données pour améliorer sa visualisation
Utiliser les résultats de l’Analyse des Correspondances Multiples (ACM)
Pourquoi l’ACM ? Principe de l’ACM :
Entrée : tableau individus/variables (faits/modalités des dimensions)
Sortie : axes d’analyse composites Construction d’un plan propice à l’analyse dans lequel sont
projetés les individus
L’ACM est une méthode factorielle adaptée aux grands volumes de données qualitatives
R. Ben Messaoud, K. Aouiche et C. Favre 7/20
Notre approche
Dimensions
Mesures
Choix des dimensions et des mesures par l’utilisateur selon les besoins de son analyse
1
Aplatissement du cube de données sous forme d’un tableau disjonctif complet1
R. Ben Messaoud, K. Aouiche et C. Favre 8/20
Notre approcheAplatissement du cube de données sous forme d’un tableau disjonctif complet1
1 2
3 4
5
6
8
7
9
123456789
A001000010
B000000000
C100001000
D000010000
E000000100
F010100001
D1
A110000000
B001100000
C000000000
D000010000
E000001000
F000000100
G000000011
D2
R. Ben Messaoud, K. Aouiche et C. Favre 9/20
Notre approche
Dimensions
Mesures
2
Application de l’ACM
2
R. Ben Messaoud, K. Aouiche et C. Favre 10/20
Notre approche
Construction d’axes factoriels ajustant au mieux le nuage des individus (faits) et des variables (modalités)Chaque axe factoriel est associé à une valeur propre représente la part de l’axe dans l’inertie totale du nuage des individusChaque variable (modalité) a une contribution relative dans la construction de l’axeContribution d’une dimension dans la construction de l’axe
Application de l’ACM2
F F
)()(1
tj
p
jt aCrDCr
t
F)( tjaCr
tD F
R. Ben Messaoud, K. Aouiche et C. Favre 11/20
Notre approche
Dimensions
Mesures
Arrangement des modalités3
R. Ben Messaoud, K. Aouiche et C. Favre 12/20
Notre approche
Associer à chaque dimension un axe factoriel
Pour chaque dimension, choisir l’axe qui a été le mieux expliqué par ses modalités
Maximiser
Chercher l’indice qui vérifie l’équation :
Trier les projections des modalités de sur l’axe
Utiliser ce tri pour ordonner les modalités de la dimension
Arrangement des modalités3
FtD
)( tDCr
dpDCrDCr tt ,,1))(max()(**
*
FtD
R. Ben Messaoud, K. Aouiche et C. Favre 13/20
Notre approche
Dimensions
Mesures
R. Ben Messaoud, K. Aouiche et C. Favre 14/20
Critère d’évaluation
Mesurer la qualité de la représentation des donnéesHomogénéité de la répartition des cellules dans un cube
Voisinage géométrique des cellules Mesure de similarité entre les cellules
AA
Le voisinage de la cellule A
Δ(A) = 0 + 1 + 0 + 0 + 1 + 1 + 1 + 0
= 4
CA AVB
CA
ACIHC
)(
1
)()(
Calculer le gain en homogénéité fourni par la méthode
R. Ben Messaoud, K. Aouiche et C. Favre 15/20
Étude de casJeu de données bancaires fourni par le Crédit LyonnaisLe cube contient n=311 959 faitsUn fait correspond au comportement d’achats des clients
DimensionNombre
de modalités
D1 : catégorie socio-professionnelle 58D2 : produit 25D3 : unité commerciale 65D4 : segment 15D5 : âge 12D6 : situation familiale 6D7 : type client 4D8 : marché 4
R. Ben Messaoud, K. Aouiche et C. Favre 16/20
Cube arrangé (IH=20,60%)Cube initial (IH=17,75%)
Études de casD1 : Catégorie socio-professionnelle, D2 : ProduitTaux d’éparsité = 64%
Gain en homogénéité = 16,38%
D1
D2
R. Ben Messaoud, K. Aouiche et C. Favre 17/20
ExpérimentationsÉvolution de l'indice d'homogénéité en fonction de l'éparsité
0%
5%
10%
15%
20%
25%
60% 65% 70% 75% 80% 85% 90%
Cube initialCube arrangé
Décroissance de l’indice d’homogénéité en fonction de l’éparsitéL’indice d’homogénéité du cube arrangé est toujours supérieur à celui du cube initial
Éparsité
Ind
ice d
’hom
og
én
éit
é
R. Ben Messaoud, K. Aouiche et C. Favre 18/20
ExpérimentationsÉvolution du gain en homogénéité en fonction de l'éparsité
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
60% 65% 70% 75% 80% 85% 90%
Gain en homogénéité toujours positifTendance croissante du gain en homogénéité en fonction de l’éparsitéFléchissements possibles dus à la nature des données
Gain
en
hom
og
én
éit
é
Éparsité
R. Ben Messaoud, K. Aouiche et C. Favre 19/20
ConclusionSolution au problème de la visualisation des données dans un cube éparse basée sur l’exploitation des résultats d’une analyse factorielle
Organisation des modalités des dimensions en fonction des résultats d’une ACM
Pas de diminution de l’éparsité mais organisation de celle-ci
Indice de qualité des représentations multidimensionnelles
Plus l’éparsité est importante, plus notre approche est pertinente
R. Ben Messaoud, K. Aouiche et C. Favre 20/20
Perspectives
Étude de complexité de notre approche
Étude de la possibilité de rendre la méthode incrémentale
Introduction des valeurs des mesures Dans la méthode Dans l’indice d’homogénéité
Utilisation de notre méthode pour détecter les parties du cube à matérialiser
Exploitation de notre approche dans le cadre de l’entreposage virtuel de données