auteur :eda, mai 2007 sig/ed ronan tournier modele conceptuel pour l’analyse multidimensionelle de...

24
Auteur : EDA, Mai 2007 Ronan Tournier SIG/ED MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier et Gilles Zurfluh. IRIT: Institut de Recherche en Informatique de Toulouse. [email protected]

Upload: eustacia-pottier

Post on 04-Apr-2015

108 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

Auteur : EDA, Mai 2007 Ronan Tournier

SIG/ED

MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS

Franck Ravat, Olivier Teste, Ronan Tournier et Gilles Zurfluh.

IRIT: Institut de Recherche en Informatique de Toulouse.

[email protected]

Page 2: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 2IRIT, SIG/ED

Plan

Introduction : Cadre d’étude Contexte Exemple Problématique

Modèle conceptuelManipulations multidimensionnellesConclusion et perspectives

Page 3: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 3IRIT, SIG/ED

Contexte

Analyse en ligne (OLAP)

Contexte de ces travaux

Page 4: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 4IRIT, SIG/ED

Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles : 20% des données du SI

(système d’information) [Sullivan-01], [Tseng-06] 80% des données hors de portée (les documents)

Limite: environnement rigideEvolution : XML, format prometteur

Envisager les documents dans le système Ajout de documents dans l’analyse en ligne

2 Types de documents XML [Fuhr-01]

Contexte

Page 5: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 5IRIT, SIG/ED

[1] Documents orientés données Transactions (expressions/résumés d’opérations) Reposent sur une structure de données Format d’échange structuré Ex. : BD, en-têtes mails, factures…

De nombreux travaux de recherche Alimentation : intégration de données XML

[Golfarelli-01]… Modélisation : XML multidimensionnel

[Boussaid-06]… Manipulation : opérateur cube pour XML

[Wiwatwattana-07]…

Contexte

Page 6: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 6IRIT, SIG/ED

[2] Documents orientés documents Documents d’information Principalement composés de texte Ex. : articles, e-book, ouvrages…

Peu de travaux de recherche Ajout des documents en tant que contexte [Peréz-05] Analyse de documents [McCabe-00]…

Basé sur des analyses numériques

Contexte

Page 7: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 7IRIT, SIG/ED

Analyse multidimensionnelle De l’analyse numérique…

Vers l’analyse non numérique

Sujet des publications

Nombre de publications par auteur

Exemple

 Institut Inst1

Auteur Au1 Au2 Au3

Conference        

DaWaK   2 1 -

ICEIS   1 3 -

CAiSE   - 1 2

 Institut Inst1

Auteur Au1 Au2 Au3

Conference        

DaWaK 

XML, Temporel

Entrepôts de données

-

ICEIS 

XML, BD temporelles

XML, Fouille, Contraintes

-

CAiSE 

-Entrepôts de

donnéesModèle conceptuel, Fouille de données

Sujets des 3publications

Page 8: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 8IRIT, SIG/ED

Problématique

Modélisation multidimensionnelle Etats de l’art [Torlone-03], [Ravat-07] conçus pour l’analyse de données transactionnelles

numériques

Conçus pour l’analyse de données transactionnelles

Spécification d’analyse peu flexible

Comment analyser un indicateur textuel ?

Page 9: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 9IRIT, SIG/ED

Limites de la modélisation Mesures textuelles non gérées Structure documentaire non exploitée Spécification d’analyses peu flexible

Analyse de documents… Remise en cause de la manipulation (basée sur les

données numériques) La navigation s’appuie sur la structure hiérarchique

du document Conséquence : la manipulation s’en trouve changée

Pourquoi un nouveau modèle ?

Problématique

Page 10: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 10IRIT, SIG/ED

MODELE

Introduction :cadre de l’étudeModèle conceptuel

Concept : Dimensions regroupées en Galaxie Application

Manipulations multidimensionnellesConclusion et perspectives

Page 11: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 11IRIT, SIG/ED

Modèle

CaractéristiquesUn seul concept : Dimension

Pas de fait => simplification de la modélisation avec un unique concept

Une dimension est un sujet potentiel d’analyse Flexibilité du sujet d’analyse et éviter de fournir des

sujets d’analyse prédéfinis Hiérarchisation des indicateurs d’analyse Représenter les spécificités des documents

Cadre applicatif Analyse de publications scientifiques

Page 12: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 12IRIT, SIG/ED

Concepts

Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonction d’association des instances

Page 13: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 13IRIT, SIG/ED

Concepts

Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies

Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles

Paramètre = niveau de granularité d’analyse (attribut)Attribut Faible = complément sémantique d’un paramètre

Page 14: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 14IRIT, SIG/ED

Concepts

Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonction d’association des instances

{article1, article2,…}

article1

temp3

auteur6

conference2

Page 15: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 15IRIT, SIG/ED

Concepts

Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction d’association entre dimensions LkG = ensemble de fonctions liant des instances

entre elles (liens récursifs)

{Articles, Temps, Auteurs, Conference…}

{Temps, Auteurs, Conference } appartiennent à StarG(Articles)

article1.reference3

article12

Page 16: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 16IRIT, SIG/ED

Application

Exemple: analyse de publications et de projets

Page 17: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 17IRIT, SIG/ED

MANIPULATION

Introduction : cadre de l’étudeModèle conceptuelManipulations multidimensionnelles

Opérations de manipulation Exploitation des liens

Conclusion et perspectives

Page 18: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 18IRIT, SIG/ED

Manipulation

Manipulations multidimensionnellesOpérations revisitées

Sélection du sujet d’analyse Sélection d’une dimension

Restriction de la portée de l’analyse Forage dans les données analysées

Forage classique et forage sur le sujet Réorientation de l’analyse

Réorientation classique et sur le sujet

Page 19: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 19IRIT, SIG/ED

Opérations

Spécification d’une analyseSélectionner les principaux mot-clefs par section d’articles par auteur, par année

Page 20: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 20IRIT, SIG/ED

Changement du niveau de détail

Réorientation

Opérations

Page 21: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 21IRIT, SIG/ED

Exploitation des liens

Exemple d’emploi des liens

Focus ( Count( ARTICLES.HS.Article),

((ARTICLES.Reference.AUTEURS.HA, <Auteur,Institut>),

(CONFERENCES.HConf, <Nom>) ) 

)

 R.Institut Inst1

R.Auteur Au1 Au2 Au3

Conference        

DaWaK 

XML, Documents

XML, Entrepôts de données

Fouille de données, Clustering

DEXA 

XML, BD temporelles

- -

CAiSE 

Fouille de données

Fouille de données

Fouilles de données, Clustering

 R.Institut Inst1

R.Auteur Au1 Au2 Au3

Conference        

DaWaK   3 2 1

DEXA   2 - -

CAiSE   1 1 2

Contexte des citations

Citations d’auteur

3 citations dans une conférence

Portée des travaux : Comment analyser le contexte de ces citations ?

 Institut Inst1

Auteur Au1 Au2 Au3

Conference        

DaWaK   2 1 -

ICEIS   1 3 -

CAiSE   - 1 2

Page 22: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 22IRIT, SIG/ED

CONCLUSION

Introduction : cadre de l’étudeModèle conceptuelManipulations multidimensionnellesConclusion et perspectives

Bilan Perspectives

Page 23: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 23IRIT, SIG/ED

Conclusion et Perspectives

Conclusion Modèle conceptuel pour l’analyse

multidimensionnelle de documents orientés documents

Modèle basé sur un unique concept : dimension Ensemble d’opérations de manipulation permettant

l’analyse multidimensionnelle

Perspectives Fonction d’agrégation adaptées : « mot-clef moyen » Langage de manipulation graphique

Page 24: Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS Franck Ravat, Olivier Teste, Ronan Tournier

EDA 2007 24IRIT, SIG/ED

-

MERCIEDA 2007, Ronan Tournier

SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données

IRIT, Institut de Recherche en Informatique de Toulouse

Université Paul Sabatier, Toulouse III.