auteur :eda, mai 2007 sig/ed ronan tournier modele conceptuel pour l’analyse multidimensionelle de...
TRANSCRIPT
Auteur : EDA, Mai 2007 Ronan Tournier
SIG/ED
MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS
Franck Ravat, Olivier Teste, Ronan Tournier et Gilles Zurfluh.
IRIT: Institut de Recherche en Informatique de Toulouse.
EDA 2007 2IRIT, SIG/ED
Plan
Introduction : Cadre d’étude Contexte Exemple Problématique
Modèle conceptuelManipulations multidimensionnellesConclusion et perspectives
EDA 2007 3IRIT, SIG/ED
Contexte
Analyse en ligne (OLAP)
Contexte de ces travaux
EDA 2007 4IRIT, SIG/ED
Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles : 20% des données du SI
(système d’information) [Sullivan-01], [Tseng-06] 80% des données hors de portée (les documents)
Limite: environnement rigideEvolution : XML, format prometteur
Envisager les documents dans le système Ajout de documents dans l’analyse en ligne
2 Types de documents XML [Fuhr-01]
Contexte
EDA 2007 5IRIT, SIG/ED
[1] Documents orientés données Transactions (expressions/résumés d’opérations) Reposent sur une structure de données Format d’échange structuré Ex. : BD, en-têtes mails, factures…
De nombreux travaux de recherche Alimentation : intégration de données XML
[Golfarelli-01]… Modélisation : XML multidimensionnel
[Boussaid-06]… Manipulation : opérateur cube pour XML
[Wiwatwattana-07]…
Contexte
EDA 2007 6IRIT, SIG/ED
[2] Documents orientés documents Documents d’information Principalement composés de texte Ex. : articles, e-book, ouvrages…
Peu de travaux de recherche Ajout des documents en tant que contexte [Peréz-05] Analyse de documents [McCabe-00]…
Basé sur des analyses numériques
Contexte
EDA 2007 7IRIT, SIG/ED
Analyse multidimensionnelle De l’analyse numérique…
Vers l’analyse non numérique
Sujet des publications
Nombre de publications par auteur
Exemple
Institut Inst1
Auteur Au1 Au2 Au3
Conference
DaWaK 2 1 -
ICEIS 1 3 -
CAiSE - 1 2
Institut Inst1
Auteur Au1 Au2 Au3
Conference
DaWaK
XML, Temporel
Entrepôts de données
-
ICEIS
XML, BD temporelles
XML, Fouille, Contraintes
-
CAiSE
-Entrepôts de
donnéesModèle conceptuel, Fouille de données
Sujets des 3publications
EDA 2007 8IRIT, SIG/ED
Problématique
Modélisation multidimensionnelle Etats de l’art [Torlone-03], [Ravat-07] conçus pour l’analyse de données transactionnelles
numériques
Conçus pour l’analyse de données transactionnelles
Spécification d’analyse peu flexible
Comment analyser un indicateur textuel ?
EDA 2007 9IRIT, SIG/ED
Limites de la modélisation Mesures textuelles non gérées Structure documentaire non exploitée Spécification d’analyses peu flexible
Analyse de documents… Remise en cause de la manipulation (basée sur les
données numériques) La navigation s’appuie sur la structure hiérarchique
du document Conséquence : la manipulation s’en trouve changée
Pourquoi un nouveau modèle ?
Problématique
EDA 2007 10IRIT, SIG/ED
MODELE
Introduction :cadre de l’étudeModèle conceptuel
Concept : Dimensions regroupées en Galaxie Application
Manipulations multidimensionnellesConclusion et perspectives
EDA 2007 11IRIT, SIG/ED
Modèle
CaractéristiquesUn seul concept : Dimension
Pas de fait => simplification de la modélisation avec un unique concept
Une dimension est un sujet potentiel d’analyse Flexibilité du sujet d’analyse et éviter de fournir des
sujets d’analyse prédéfinis Hiérarchisation des indicateurs d’analyse Représenter les spécificités des documents
Cadre applicatif Analyse de publications scientifiques
EDA 2007 12IRIT, SIG/ED
Concepts
Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonction d’association des instances
EDA 2007 13IRIT, SIG/ED
Concepts
Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies
Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles
Paramètre = niveau de granularité d’analyse (attribut)Attribut Faible = complément sémantique d’un paramètre
EDA 2007 14IRIT, SIG/ED
Concepts
Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonction d’association des instances
{article1, article2,…}
article1
temp3
auteur6
conference2
EDA 2007 15IRIT, SIG/ED
Concepts
Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction d’association entre dimensions LkG = ensemble de fonctions liant des instances
entre elles (liens récursifs)
{Articles, Temps, Auteurs, Conference…}
{Temps, Auteurs, Conference } appartiennent à StarG(Articles)
article1.reference3
article12
EDA 2007 16IRIT, SIG/ED
Application
Exemple: analyse de publications et de projets
EDA 2007 17IRIT, SIG/ED
MANIPULATION
Introduction : cadre de l’étudeModèle conceptuelManipulations multidimensionnelles
Opérations de manipulation Exploitation des liens
Conclusion et perspectives
EDA 2007 18IRIT, SIG/ED
Manipulation
Manipulations multidimensionnellesOpérations revisitées
Sélection du sujet d’analyse Sélection d’une dimension
Restriction de la portée de l’analyse Forage dans les données analysées
Forage classique et forage sur le sujet Réorientation de l’analyse
Réorientation classique et sur le sujet
EDA 2007 19IRIT, SIG/ED
Opérations
Spécification d’une analyseSélectionner les principaux mot-clefs par section d’articles par auteur, par année
EDA 2007 20IRIT, SIG/ED
Changement du niveau de détail
Réorientation
Opérations
EDA 2007 21IRIT, SIG/ED
Exploitation des liens
Exemple d’emploi des liens
Focus ( Count( ARTICLES.HS.Article),
((ARTICLES.Reference.AUTEURS.HA, <Auteur,Institut>),
(CONFERENCES.HConf, <Nom>) )
)
R.Institut Inst1
R.Auteur Au1 Au2 Au3
Conference
DaWaK
XML, Documents
XML, Entrepôts de données
Fouille de données, Clustering
DEXA
XML, BD temporelles
- -
CAiSE
Fouille de données
Fouille de données
Fouilles de données, Clustering
R.Institut Inst1
R.Auteur Au1 Au2 Au3
Conference
DaWaK 3 2 1
DEXA 2 - -
CAiSE 1 1 2
Contexte des citations
Citations d’auteur
3 citations dans une conférence
Portée des travaux : Comment analyser le contexte de ces citations ?
Institut Inst1
Auteur Au1 Au2 Au3
Conference
DaWaK 2 1 -
ICEIS 1 3 -
CAiSE - 1 2
EDA 2007 22IRIT, SIG/ED
CONCLUSION
Introduction : cadre de l’étudeModèle conceptuelManipulations multidimensionnellesConclusion et perspectives
Bilan Perspectives
EDA 2007 23IRIT, SIG/ED
Conclusion et Perspectives
Conclusion Modèle conceptuel pour l’analyse
multidimensionnelle de documents orientés documents
Modèle basé sur un unique concept : dimension Ensemble d’opérations de manipulation permettant
l’analyse multidimensionnelle
Perspectives Fonction d’agrégation adaptées : « mot-clef moyen » Langage de manipulation graphique
EDA 2007 24IRIT, SIG/ED
-
MERCIEDA 2007, Ronan Tournier
SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données
IRIT, Institut de Recherche en Informatique de Toulouse
Université Paul Sabatier, Toulouse III.