chap1 2 dw (1)
TRANSCRIPT
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
1
1
Département des Sciences de l’Informatique
Conception des Entrepôts de Données
2012/2013
Mohamed Ali BEN HASSINEFaculté des Sciences de Tunis
Section: 5ème année Ingénieurs (IF5)
FST© Med Ali Ben Hassine 20122
Plan
Chapitre 1 : Introduction à l'informatique décisionnelle
Chapitre 2 : Les Entrepôts de données
Chapitre 3 : Modélisation multidimensionnelle
Chapitre 4 : L'algèbre multidimensionnelle
Chapitre 5 : Les SGBD décisionnels et Extension de SQL
Chapitre 6 : Les techniques d'optimisation dans les ED
Chapitre 7 : Le cycle de vie dimensionnel
Chapitre 8 : La fouille de données
Bibliographie
● Kimball R, Reeves L, Concevoir et déployer un data warehouse Guide deconduite de projet, Eyrolles, 2000.
● Kimball R, Margy Ross, The Data Warehouse Toolkit: The Complete Guide toDimensional Modeling, 2nd Edition, Wiley Computer Publishing, 2002 .
● Inmon, W.H. : What is a Data Warehouse? Prism Solutions. Volume 1. 1995.
● Jiawei Han and Micheline Kamber: Data Mining : Concepts and Technics,Morgan Kaufmann Publishers, Elsevier, 2006.
● Ladjel Bellatreche, Techniques d'optimisation des requêtes dans les datawarehouses, Sixth International Symposium on Programming and Systems, pp.81-98, 2003
3
Chapitre 1 Introduction à l'informatique décisionnelle
4FST© Med Ali Ben Hassine 2012
Plan 1. Contexte2. L’information et la prise de décision3. Informatique décisionnelle4. Système d'information décisionnel
4.1 Système d'information4.2 SID4.3 OLAP et ROLAP4.4 Architecture d’un SID4.5 Historique des SID
5. Conclusion
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
2
● Besoin Prise de décisions stratégiques et tactiques Réactivité
● Qui? les décideurs (non informaticiens, non statisticiens)
● Comment Répondre aux demandes d’analyse de données Dégager des informations qualitatives nouvelles
Contexte
5
Quels tunisiens consomment beaucoup de poisson?
Qui sont mes meilleurs clients?
Pourquoi et comment le chiffre d’affaire a baissé?
A combien s’élèvent mes ventes journalières?
Entreprise■ une organisation dotée d’une mission et d’un objectif métier. Elle doit gérer
sa raison d’être et/ou sa pérennité au travers de différents objectifs(sécurité, développement, rentabilité). Par voie de conséquence, cetteorganisation humaine est dotée d’un centre de décision.
Objectifs d’une entreprise■ Améliorer ses performances■ Faire face à la concurrence■ Développer sa part de marché■ Etre plus entreprenante
Prendre des risques, remettre en cause certain choix, se recentrer surdes secteurs d’activité ou au contraire s’élargie sur des nouveaux.
Besoins des entreprises
6
Décision : action mentale volontaire qui vise à modifier ou déformer un état de choses en vue d’atteindre un certain objectif.
(Courbon, 1982)
Objectifs (suite)■ Meilleure connaissance de ses clients, de son environnement
« profiler » ses clients pour mieux les satisfaire, voir même créer un nouveau besoin chez eux.
■ Anticiper des événements de plusieurs types : évolution du marché, fluctuation de consommation, etc.
■ Prendre des décisions stratégiques ayant une forte répercussion sur la santé financière de l’entreprise.
Besoins des entreprises
7
peut-être le responsable de l’entreprise, d’une fonction ou d’un secteur. engage la pérennité ou la raison d’être de l’entreprise. doit s’entourer de différents moyens lui permettant une prise de décision
la plus pertinente.
Qui?■ le décideur (non informaticien, non statisticien) :
Besoins des entreprises
8
Besoins importants■ Maîtriser ses données
■ Accéder à toutes les données de l’entreprise■ Regrouper les informations disséminées
■ Exploiter ses données■ Analyser rapidement les données pour prendre les bonnes décisions
Problèmes
■ Masse importante de données collectées■ Nombreux systèmes d’information, souvent hétérogènes■ Information surabondante, non organisée, éparpillée■ Difficulté d’accéder à l’information■ L’information brute n’a aucun sens ou une valeur ajoutée limitée.■ Codification différente selon les services.
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
3
Besoins des entreprises
9
Solutions :■ Sélectionner et transformer les données en informations fiables,
homogènes, utiles et accessibles par un traitement rapide, efficace etproductif.
■ La BI recouvre l’ensemble des technologies permettant de gérer etd’exploiter les informations disponibles, en particulier le DW qui permetde stocker ces informations stratégiques.
Années 70 : début de l’informatique de gestion :■ Entrée de l'informatique de gestion dans les grandes entreprises.
Années 80 : informatique opérationnelle centralisée :■ Arrivée dans beaucoup d’entreprises des BDR, des progiciels de
gestion, des premiers micro-ordinateurs.■ Informatisation d’applications traitant des données directement liées à
l'activité quotidienne des organisations : paie, comptabilité, commandes,facturation (informatique de production ou opérationnelle).
■ Architecture maître-esclave : maître = puissant ordinateur en site centralet esclaves = terminaux passifs en mode texte.
Evolution de l’informatique dans l’entreprise
10
Années 90 : informatique opérationnelle décentralisée :■ Apparition des ordinateurs personnels et des réseaux locaux.■ Développement d’application bureautiques : traitement de textes, tableurs,
petites BD, …■ Architecture client-serveur permet de décloisonner la bureautique et
l’informatique opérationnelle et s’impose conduisant à une nouvelleinformatique orientée vers les utilisateurs et les centres de décision desentreprises.
Années 2000 : Développement de l’Informatique Décisionnelle (ID) :■ Développement de Systèmes d'Information Décisionnels (orientés décision).■ Architecture client-serveur multi-niveaux (multi-tiers).■ Entrepôt de données (Data Warehouse) : restructurer et exploiter des
quantités très grande de données historisées selon différentes dimensions.■ Fouille de données (Data Mining) : extraction de connaissances à partir de
données, en général stockées dans ces entrepôts.
Evolution de l’informatique dans l’entreprise
11
■ Disposer de l’information pertinente était réservée aux managers.■ L’information était centralisée.■ Les décideurs n’avaient pas la maîtrise de l’ensemble des
informations de l’entreprise.
Avant les SID
■ Dans tous les secteurs économiques, dans toutes les entreprises,l’information est devenue “le nerf de la guerre”.
■ L’information est omniprésente; la difficulté n’est plus de la recueillir, maisde la rendre disponible sous la bonne forme, au bon moment et à labonne personne, qui saura l’exploiter et en tirer de la valeur ajoutée.
■ L’information devient un capital en temps.■ L’information est une source de valeur pour l’entreprise.
Maintenant
L’information et la prise de décision
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
4
Les principaux aspects du décisionnel
13
■ Stratégie: appropriation et partage d'objectifs.
■ Organisation: institutionnalisation du dialogue de gestion, positionnement ducontrôle de gestion.
■ Finances et comptabilité: mesure de coûts, outils d'analyse économique.
■ Ergonomie et contenu : choix d'indicateurs, mise au point de tableaux de bord.
■ Système d'information : données, outils, infrastructures, intégration dans le SI.
■ L’information est la matière première de la décision : le décideur se déterminesur la base des informations dont il dispose sur les éléments ayant un impact sur leproblème à résoudre.
■ L’identification des informations dont la connaissance est nécessaire est unedécision en soit.
■ Processus de décision : Selon H. Simon, le processus de prise de décision se faitselon un modèle dit : Intelligence - Design - Choice (IDC)
La prise de décision
Contrôle
Choix
Conception
Renseignement Identifier et formuler le problème (constatation d’une différence entre la réalité et ce qui est souhaité)
Imaginer des solutions alternatives possibles et en déterminer les conséquences potentielles
Choisir une solution parmi les alternatives
Vérifier que la solution est conforme aux attentes
Modèle IDC
■ Décisions structurées :Une décision est dite structurée quand :
Les informations nécessaires à son élaboration sont disponibles Les alternatives possibles sont énumérables Les mécanismes d’évaluation des solutions sont connus
Exemples Gestion de stock, Planification de fabrication en raffinerie
Les décisions structurées sont programmables.
Types de décisions : structurées ou non structurées
Les décisions sont de deux types :1. Décisions structurées2. Décisions faiblement ou non structurées
■ Décisions faiblement ou non structurées :Une décision est dite faiblement ou non structurée quand : Les informations nécessaires à son élaboration sont plus ou moins
disponibles, sujette à interprétation ou suspectes. Les alternatives possibles sont non énumérables (explosion combinatoire). Les critères à satisfaire sont contradictoires.
Exemples Décisions faiblement structurées : Ordonnancement de fabrication,
préparation de budget, lancement d’un produit. Décisions non structurées : Gestion de projet, publicité, R&D
En la simplifiant, une décision faiblement structurée peut devenir structurée et donc programmable.
Types de décisions : structurées ou non structurées
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
5
■ Les décisions structurées sont exécutables via des procédures automatisées.Elles constituent le Système d’Information Transactionnel (SIT). [voir plus loin]
■ Le système informatisé correspondant est composé d’applications de typeOLTP (On Line Transaction Processing).
■ Les décisions peu ou pas structurées ne peuvent pas être totalement prises ense basant uniquement sur le SIT.
Nécessité d’un autre système d’information au dessus du SITsusceptible d’apporter une aide à ces décisions. C’est le Systèmed’Information d’Aide à la Décision (SIAD). [voir plus loin]
■ Le SIAD a les caractéristiques suivantes :● Utilise les données du SIT.● Dispose en plus d’informations propres.● Fournit un accès aisé aux informations pour les décideurs.● Offre des possibilités de modélisation et de simulation.● Laisse une place plus ou moins importante à l’informel.
Types de décisions et SI L'Informatique décisionnelle
Processus de décision humain:
18
Stim
uli e
xter
nes
Stimuli internes
● Je reconnais une personne quand je la vois parce que je l’ai déjà vue Je vois la personne Je compare cette vision avec ma
mémoire qui a stocké l’image des personnes que je connais (image + nom)
● J’ai chaud S’il fait chaud dehors => c’est normal,
je vais me mettre au frais S’il ne fait pas chaud => j’ai de la fièvre
=> je vais chez le médecin
=> une information isolée a peu de valeur. Elle n’a de sens que comparée à d’autres informations Contexte Mémoire
L'Informatique décisionnelle
Système d’aide à la décision:
19
■ une information isolée a peu de valeur.
On compare un chiffre à un objectif(référentiel)
On suit l’évolution d’un indicateurdans le temps
On fédère des données provenant deplusieurs systèmes pour obtenir uneinformation à valeur ajoutée
Syst
èmes
opé
rant
s
L'Informatique décisionnelle
■ Terme anglais : Business Intelligence (BI)
■ Définition 1: c’est la branche de l’informatique qui permet l'exploitation desdonnées de l'entreprise dans le but de faciliter la prise de décision. C'est-à-dire,la compréhension du fonctionnement actuel et l'anticipation des actions pour unpilotage éclairé de l'entreprise.
20
■ Définition 2: désigne les moyens, les outils et les méthodes qui permettent decollecter, consolider, modéliser et restituer les données, matérielles ouimmatérielles, d'une entreprise en vue d'offrir une aide à la décision et depermettre aux responsables de la stratégie d'entreprise d’avoir une vued’ensemble de l’activité traitée.
■ Objectifs■ Vision globale de l’activité■ Aide à la décision
■ Basée sur un entrepôt de données pour stocker des données transverses provenantde plusieurs sources hétérogènes.
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
6
L'Informatique décisionnelle
■ Le flux informationnel lié au processus de la BI
21
Définir le problème
Rassembler les données
Analyser les données
Etablir les solutions Décider
Temps de prise de décision
Champs d’application des systèmes décisionnels
■ Processus de prise de la BI
L'Informatique décisionnelle
22
23
Aide à la décision : Quelques notions à préciser
■ Pilotage
■ Indicateur
■ Tableau de bord
■ Reporting
24
■ Pilotage / décision Piloter : prendre des décisions pour réaliser des objectifs (qui sont
censés découler d'une stratégie). Décision: acte ponctuel, le pilotage étant une démarche permanente.
■ Pilotage stratégique / opérationnel Deux différences : niveau et horizon temporel de la décision Stratégique : direction, horizon à moyen – long terme
Par ex. création d'une nouvelle unité, recrutement de médecin, etc. Opérationnel : niveau du service, de l'unité 'médicale'
Horizon plus court (peut être mensuel, peut être aussi quotidien) Décisions concrètes de fonctionnement : par ex. planning infirmières
■ Performance d’une organisation : se caractérise par sa capacité àatteindre les objectifs qu’elle s’est fixés, dans le cadre de sa stratégie"
■ Pilotage de la performance définir et quantifier le niveau de performance à atteindre, suivre et projeter l’atteinte de la cible, évaluer et analyser les résultats pour adapter sa stratégie. ge
stio
n d'
un h
ôpita
l
Pilotage
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
7
25
■ Indicateur : Information qui doit aider un acteur à évaluer le cours d’une action vers
l’atteinte d’un objectif ou son résultat. C’est un élément d’alerte, d’analyse, et de décision.
■ Indicateur : à un domaine d’utilisation : dépend de l’objectif et de l’utilisateur, suppose l’existence d’une question qu’il contribue à éclairer, n’a pas de sens sans éléments d’interprétation, doit pouvoir être comparé dans l’espace et le temps, Indicateur de pilotage : n’est pertinent que s’il peut susciter une action.
■ Il se caractérise par : un libellé, une définition un champ : période de référence, établissement ou service une formule ou procédure de calcul les référentiels qu’il emploie une documentation (guide de lecture)
Indicateur
26
■ Tableau de bordOutil destiné à un responsable pour lui permettre, grâce à desindicateurs, présentés de façon synthétique et en référence à desobjectifs fixés, de contrôler le fonctionnement de son système, enanalysant des écarts significatifs, afin de prévoir, décider, agir.
Tableau de bord
■ Nécessité de tableaux de bord multi-niveaux Tableau de bord très synthétique pour la direction, puis
possibilités d’approfondissements service, par activité,…
27Modèle conducteur/automobile/ tableau de bord
■ Analogie avec la conduite d’un véhicule :un tableau de bord est constitué d’indicateurs et de témoins Lisibles, rassemblés sur une surface réduite, de signification claire Importance de la forme et de la notion de zone de validité
Perturbations
Tableau de bord
Perception
Mesure
Action
Objectif
Contraintes
Tableau de bord
28
■ En résumé, un tableau de bord
ne fournit pas de solution prête à l’emploi. Il utilise des sondes et des alertes. fournit des informations précises et vérifiées, nécessitant toutefois une analyse favorise le dialogue sur des bases communes pour maîtriser l’action collective décloisonne les services institue une culture de résultat
Tableau de bord
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
8
29
désigne l’ensemble des informations (rapports et bilansanalytiques) relatives aux réalisations d’une périodepréparé pour un niveau de responsabilité supérieur
Reporting
Reporting / Tableau de bord
Tableau de bord
Pendant l’action
Reporting
Après l’action (pour la hiérarchie)
Outil de mesure de performances et de contrôle
Contextes économique et informationnel de l’informatique décisionnelle
Contexte économique :■ Mondialisation de l'économie, ouverture de nouveaux marchés■ Concurrence toujours plus accrue■ Besoin d'obtenir des informations pour prises de décisions de plus
en plus rapides
Contexte informationnel :■ Décentralisation des données vers les utilisateurs■ Difficulté d'accès à l'information qui est en trop grande quantité■ Un enjeu stratégique d’entreprise■ Les informations, une source de revenu et de compétitivité
Contexte informatique :■ Puissance de calcul croissante■ Capacité de stockage croissante■ Bases de données de plus en plus importantes■ SGBD de plus en plus performants (parallélisme, …)■ Ouverture sur le Web,
30
31FST© Med Ali Ben Hassine 2012
Système d’Information Décisionnel (SID)Système d’InformationSystème
Système :
32
■ est un tout constitué d'éléments en interaction dynamique, ceséléments sont organisés et coordonnés en vue d'atteindre un objectif,qui évolue dans un environnement.
FST© Med Ali Ben Hassine 2012
■ peut être considéré comme une « boîte noire » qui, soumise à desentrées imposées par l’environnement du système, les transforme ensorties satisfaisant des critères de performances que le systèmes’efforce à atteindre par un mécanisme de régulation.
SYSTÈMEEntrées Sorties
ObjectifsRégulation
Système d’Information Décisionnel (SID)
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
9
• Information
Système d’ Information Décisionnel (SID)
33
: une donnée qui a un sens, et ce sens vientd'un certain modèle d'interprétation.
Information = Donnée + Modèle d'interprétation
■ Une même donnée peut avoir plusieurs sens selon le modèle d'interprétation qui lui est associé.
■ Exemple : la donnée `12101995' peut être aussi interprétée - par un anglo-saxon-comme la date du 10 décembre 1995 (et non pas 12 octobre 1995).
■ Donnée : une description élémentaire, souvent codée, d'une réalité (chose,transaction, événement, etc.). Elle peut revêtir plusieurs formes :expression, caractère, papier, numérique, images, sons, etc.
34
Les informations sont des données traitées ou transformées qui aidentquelqu'un à prendre une décision ou à tirer des conclusions.
SI : Données, Information et Connaissance
Les données sont des faits qui n'ont pas encore été traités et dont on ne peut, à cestade, tirer aucun renseignement.
Données(entrées)
Informations(sorties)Traitement
■ L’information se rapporte à un problème pour le sujet, donc à un contexte bien précis.C’est cette caractéristique qui permet de distinguer entre connaissance et information.
■ La connaissance est l’ensemble d’informations interprétées par l’individus en luipermettant de tirer des décisions.
35
■ La comparaison entre les paiements effectués et le calendrier desversements nous renseigne sur la situation du prêt et sa chronologie -informations qui peuvent être utilisées pour prendre une décisionconcernant le suivi ou le provisionnement du prêt en question.
Une institution peut être noyée sous les données, sans pour autantavoir beaucoup d'informations.
Exemple
■ une simple opération de paiement ne nous dit pas si le paiement a étéeffectué en temps voulu et ne nous éclaire pas sur la situation du prêt.
SI : Données vs Information SI : Type d’Information
36
■ Niveau d'agrégation brutes élaborées
■ Flux Logistique Monétaire de personnel de l'actif
■ Utilisation Prise de décision planification stratégique gestion administrative régulation opérationnelle
■ Nature du support oral documentaire informatique
● L'information décisionnelle sort du système● elle est instantanée ou historique● elle est livrée à l'utilisateur à des fins de
reporting, d'analyse, de prévision
● L'information opérationnelle est liée aufonctionnement immédiat de l'organisation
● elle évolue en temps réel● elle est transactionnelle
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
10
SI : l'information utile
37
■ L'information n'est pas bonne ou mauvaise, elle est simplement
appropriée ou non.
une information est « appropriée » quand elle est livrée à la bonne destination, au bon moment et sous une forme directement exploitable par le destinataire.
Système d’Information Décisionnel (SID)
38
Définition 1: Le SI est un ensemble organisé de ressources (matériels,logiciels, personnels, données et procédures) qui permet de regrouper, declassifier, de traiter et de diffuser de l'information d’une organisation.
Système d’Information
Définition 2: Le SI est le système de couplage entre le système opérantet le système de pilotage.
Systèmes d’information
Système de pilotage
Système opérant
Flux d’informations en provenance de l’environnement
Flux entrant des biens et services
Flux d’informations à destination de l’environnement
Flux sortant des biens et services
À ne pas confondre avec système informatique : ensemble d'équipements destinéau traitement automatique de l'information.
39
C’est un système dans lequel s’effectuent les transformationsphysiques ou intellectuelles sur les flux qui traversentl’entreprise en vue de produire des sorties valorisées.
Système OpérantFlux en Entrée :
■ Matières■ Argent■ équipements■ ressources humaines■ informations
Sorties :
■ Produits
■ Services
Système Opérant Système Opérant et BD pour la prise de décision
■ Les données des opérations de tous les jours : source importante d'informations richesse importante pour l'entreprise il faut les utiliser au mieux
■ Idée :
exploiter au mieux cette masse d'informations (BD existantes, applications de production :OLTP ),
rendre possible l'accès à toutes ces données accumulées dans le temps,
analyser ces données pour produire de nouvelles informations permettant de : résumer et d'analyser l'importance de certains facteurs dégager des tendances générales
40
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
11
Système de Pilotage
41
« On ne peut améliorer que ce qu’on sait mesurer »
les informations fournies par mon système comptable m’indiquent si je gagne ou si je perds globalement de l’argent, mais ne m’en explique pas les causes et ne me suggère aucun axe d’amélioration
j’ai besoin d’outils m’aidant à formaliser mes projets stratégiques, à suivre leur avancement
Système de pilotage = outils d'analyse + outils de suivi
je connais mal la rentabilité réelle de mes actes, de mes patients, de mes filières de soins
je ne dispose pas des informations synthétiques, pertinentes et fiables me permettant de prendre les bonnes décisions au bon moment
je ne dispose pas des informations synthétiques, pertinentes et fiables me permettant de prendre les bonnes décisions au bon moment
je souhaite placer mon personnel dans un contexte d’amélioration continue de la performance (objectifs individuels clairs, suivi de leur réalisation ...)
Système de Pilotage
42
Système dans lequel les décisions sont prises concernant :■ les objectifs assignés au système opérant.■ l’affectation des ressources au système opérant.■ le contrôle des résultats obtenus du SO.■ la régulation.■ l’évolution de l’organisation.
Système de Pilotage Objectifs,affectation des ressources,régulation
Résultats dusystème opérant
Informations externes
43
Parallèlement au flux physique, il y a un flux de décisions
L'information va permettre de prendre les bonnes décisions.
1. Niveau stratégique (planification)2. Niveau de pilotage3. Niveau opérationnel (régulation)
Les différents niveaux d’un SI d’une organisation
Opérant Flux physique
Pilotage
ContraintesContraintes
Flux de décisions
Stra-tegique
Les différents niveaux d’un SI d’une organisation:
44
3. Niveau opérationnel (régulation)C’est le niveau hiérarchique le plus bas. Il agit sur les flux qui traversent l’organisation en se basant sur les directives du niveau supérieur.
2. Niveau de pilotageC’est le niveau hiérarchique moyen mettant en œuvre les objectifs élaborés par le niveau supérieur. Il détermine les moyens d’atteindre les objectifs globaux :● en les décomposant en sous-objectifs,● en allouant les ressources nécessaires,● en mettant en place les moyens de contrôle et● en prenant les initiatives correction en cas de besoin.
1. Niveau stratégique (planification)C’est le niveau le plus haut hiérarchiquement. Il consiste à :● définir les objectifs de l’entreprise,● définir les moyens et les scénarios pour parvenir aux objectifs, dans une vision à long terme.● fournir au niveau inférieur un cadre d’objectifs à atteindre et une orientation pour les mettre en œuvre.
Opérant Flux physique
Pilotage
ContraintesContraintes
Flux de décisions
Stra-tegique
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
12
Système Opérant, Système de Pilotage et SI
45commandesdonnées Modèle systémique des organisations
SI
SP Système de Pilotage
Infos externes
Infos vers extérieur
SOSystème Opérant
Flux entrant
Flux sortant
SI décisionnel
(SID)
analyse + prise de décisions
SI opérationnel
(SIO)
activités courantes
Zone de décisions
Système Opérant, Système de Pilotage et SI
46
Système d’Informations
Opérant
Système d’information opérationnel (SIO)
Stra-tegique
Pilotageanalyse + prise de décisions
commandes
données
Zone de décisions
Système d’information décisionnel (SID)
activités courantes
Modèle systémique des organisations
47
Systèmes d’aide stratégique
Prévision des ventes à moyen terme
Plan à 5 ansPrévision budgétaires à moyen et long terme
Planification de la force de travail
Systèmes d’aide à la décision
Gestion des ventes
Analyse des ventes
Contrôled’inventaire
Echéancier de production
Budget annuel Analyse des investissements
Analyse prix/profit
Analyse des localisations
Analyse des coûts
Systèmes transactionnels
Suivi des commandes
Traitements des commandes
Contrôle des machines
Ordonnancement des usines
Contrôle des flux de matériels
Paie
Gestion des comptes débiteurs
Gestion des comptes créditeurs
Audit
Reportingfiscal
Gestion de la trésorerie
Compensation
Formation
Gestion des carrières
Vente Production Comptabilité Finance Personnel
Exemple de SI
48
Système d’Information Décisionnel (SID)
Définition 1 : Un SID est un système capabled'agréger les données internes ou externes et deles transformer en informations servant à uneprise de décision.
Définition 2 : Un SID est un ensemble de technologies destinées àpermettre aux collaborateurs d’accéder et comprendre les données depilotage plus rapidement, de telle sorte qu’ils prennent des décisionsmeilleures et plus rapides pour atteindre les objectifs de son organisation.
Connaissances
Informations
Données
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
13
49
SID
Les SID, dans leur version la plus complète, permettent de répondreaux questions suivantes :
■ Que s’est-il passé ?■ Pourquoi cela s’est-il passé ?■ Que va-t-il se passer ?■ Que vient-il se passer ?
Différentes questions :■ Quel est le volume des ventes par produit et par région durant le troisième
trimestre de 2011 ?■ Quels sont les produits dont le volume des ventes baisse constamment
durant les 6 derniers mois de l'année ?■ Est ce qu'une baisse de prix de 10% par rapport à la concurrence ferait
redémarrer les ventes du produit p ?
50
■ Les décideurs doivent :● prendre rapidement des décisions● prendre de "bonnes décisions"● faire des prévisions pour orienter les choix de l'entreprise
SID
■ Un SID bien conçu doit donc :● Fournir un accès à des données fiables.● Présenter l’information de manière cohérente.● Être acceptable et accepté par tous les utilisateurs.● Faciliter la prise de décision. Connaître la signification d’une information
c’est bien, savoir quoi en faire c’est mieux.● Aider à la diffusion de l’information et à la mise en œuvre des actions.
51
Comment faciliter la prise de décision ?
■ utiliser les données produites par l'entreprise dans la gestion quotidienne■ produire régulièrement des données nécessaires au processus de décision
(résumés, synthèses, etc.)■ disposer d'outils d'analyse de données
SID
La valeur ajoutée du décisionnel réside dans :■ l’apport fonctionnel■ la performance■ la capacité à traiter de grands volumes de données■ la capacité à évoluer■ l’accessibilité
52
SID : Applications typiques
■ Banque et assurance● Détermination de profils de clients (risques de prêt, nouveaux services)● Suivi des clients, gestion de portefeuilles● Mailing ciblés pour le marketing …
■ Econométrie● Prévisions de trafics routiers● Prévisions de mouvements boursiers …
■ Santé● Etudes épidémiologiques● Recherche de nouveaux médicaments …
■ Grande distribution● Ciblage de clientèle, habitudes d’achat, secteurs géographiques …● Opportunités de promotions, produits à succès, modes …● Agencements de magasins (sur la base de corrélations entre produits).
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
14
Architecture d’un SID
53
Trois couches : alimentation, stockage, restitution
■ ETL (Extract Transform Load) ● Récupère des données hétérogènes, les transforme et les charge.
■ Entrepôt de données ● Stockage intelligent de l’information, associé à des outils de «navigation»
dans les données.
■ Outils de restitution ● Rapports prédéfinis, outils de requêtage, reporting de masse, tableaux de
bord dynamiques, …
■ Un «portail» pour fédérer l’ensemble● Point d’entrée unique pour l’ensemble des applications.● Gestion des droits d’accès en fonction du profil de l’utilisateur.
54
Architecture d’un SID
55
Fonctions d’un SID
● Collecte des données brutes dans leurs environnements d'origine, ce qui implique des activités plus ou moins élaborées de détection et de filtrage;
● Intégration des données, c-à-d leur regroupement en un ensemble technique, logique et sémantique homogène approprié aux besoins de l'organisation ;
● Diffusion, ou distribution d'informations élaborées à partir des données dans des contextes appropriés aux besoins des utilisateurs ;
● Administration, qui gère le dictionnaire de données et le processus d'alimentation de bout en bout, (le SID doit lui-même être piloté).
● Présentation se charge de présenter les informations à valeur ajoutée de telle sorte qu'elles apparaissent de la façon la plus lisible possible dans le cadre de l’aide à la décision
Historique de l’informatique décisionnelle
56
L’usage de l’informatique pour supporter des décisions n’est pas nouveau :
Années 70-80 : débuts de l’Informatique Décisionnelle :● Développement d'outils d'édition de rapports, de statistiques, exploitant les BD du
Système d’information Opérationnel.● Développement de petits systèmes d’aide à la décision à base de tableurs
(simulation budgétaire, …).● Développement de systèmes experts (IA) systèmes à base de règles, conçus par
extraction de la connaissance d'un ou plusieurs experts :■ bons résultats obtenus pour certains domaines d'application tels que la médecine, la
géologie, la finance, ...■ mais formalisation sous forme de règles de la prise de décision est difficile voire
impossible dans de nombreux domaines.● Développement de SIAD (DSS Decision Support Systems) : basés sur des
techniques de Recherche Opérationnelle (RO), la simulation, l’optimisation, …
Systèmes en général mal intégrés au système d'information opérationnel, etdevant être développés par des informaticiens.
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
15
Historique de l’informatique décisionnelle
57
Années 90-2000 : essor de l’informatique décisionnelle :
■ technologie informatique permettant le développement d’environnementsspécialisés pour l'aide à la décision notamment des entrepôts de données.
■ de nombreux algorithmes, souvent issus des statistiques et de l’IA,permettant d'extraire des informations à partir de données brutes sont arrivés àmaturité.
■ ces algorithmes sont regroupés dans des logiciels de fouille de données etpermettent la recherche d'informations nouvelles ou cachées à partir de données.
■ de plus en plus ces données sont issues du Web, aussi la recherched’information et la fouille de données sur le Web (ou "Web Mining") sont deplus en plus d’actualité.
Infocentre
58
■ Concept apparu au début des années 80.■ Réponse à la difficulté des services informatiques de satisfaire les besoins
variés, nombreux et imprévisibles des décideurs.■ L'infocentre peut être vu comme une interface entre un utilisateur (non
informaticien) et une BD de production ou privée (agrégation de données).Cette interface permet à l'utilisateur d'accéder aux données facilement etsans recourir à un langage.
Différence entre Infocentre et DataWarehouse
59
■ L’infocentre est une collection de données orientées sujet, intégrées, volatiles,actuelles, organisées pour le support d’un processus de décision ponctuel.
■ Le DW est une collection de données orientées sujet, intégrées, non volatiles,historisées, organisées pour le support d’un processus d’aide à la décision.
■ L’infocentre une solution décisionnelle qui consiste en une mise à dispositionsimple des données de production.
■ Le DW complète l'infocentre par une 'Préparation' intelligente des données misesà disposition :● Mise en conformité et uniformisation des codes utilisés● Choix des données à présenter : Mesures et Axes d'analyse, ainsi que du degré
d'historisation nécessaire● Nettoyage des données présentés avant chargement● Pré-agrégations répondant à des problématiques de performance, choix du degré
de finesse des mesures présentées.
Executive Information System (EIS)
60
■ Un EIS (ou encore système d'information pour dirigeants) est un systèmedestiné aux dirigeants qui ont besoin d'un outil d'aide à la décision mais qui nedisposent pas de temps pour l'apprentissage.
■ Il s'agit en quelque sorte du « tableau de bord » informatisé des cadressupérieurs, qui sert à la planification stratégique et à partir duquel on peutproduire des rapports, des graphiques, etc., faciles à consulter rapidement.
■ Un EIS permet de générer à partir d'une ou plusieurs bases de production unensemble d'informations agrégées (indicateurs) et de les présenter sous formede tableau de bord aux utilisateurs.
■ À la différence d’un SAD, l’EIS ne permet pas à l’utilisateur final de poser unequestion qui n’aurait pas été prévue initialement.
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
16
61
SIO / SID OLTP / OLAPBDR / BDMD
Systèmes d’informations
Système de pilotage
Système d’information opérationnel (SIO)
Système opérant
Entrepôt de données
BPBPBP
OLAP
OLTP
Système d’information décisionnel (SID)
ETL
Base de production
62
SID et SIO
Opérationnel et Décisionnel sont deux technologies complémentaires et indissociables, et il est vain de vouloir faire sans l’une ou l’autre.
63
SID / SIO
■ système de production■ Informatique opérationnelle■ représente aujourd'hui la majeure partie du SI■ focalisé sur le fonctionnement courant (gestion des patients par exemple)■ procédures répétitives■ transactions■ données élémentaires■ Utilisation des bases de données relationnelles normalisées
SIO
Limites du SIO■ données détaillées surabondantes et peu lisibles, absence de synthèses■ mauvaise qualité informationnelle■ compartimentage, absence de sémantique commune, incohérences■ manque de recul historique
contenu très riche,faible valeur informationnelle 64
SID / SIO
■ Informatique décisionnelle■ destiné uniquement à produire de l'information et non à automatiser des opérations■ découplé du SIO mais alimenté par le SIO■ transforme les données pour améliorer leur valeur informationnelle■ potentiellement concerné par tous les types de données■ Modélisation dimensionnelle■ Entrepôts de données, magasin de données
SID
Limites du SID■ distinction SIO/SID artificielle■ aller-retour SIO-SID malcommodé■ besoins flous et changeants■ prédominance des données internes■ manque de données instantanées■ périmètre limité aux structures de données les plus simples■ Dénormalisation des bases de données
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
17
OLTP / OLAP
65
Les applications informatiques peuvent être classées en deux catégories :■ Applications OLTP (On-Line Transactional Processing)■ Applications OLAP (On-Line Analytical Processing)
OLTP / OLAP
Applications OLTP :■ L'intégrité et la sécurité des données sont privilégiées.■ Requêtes simples■ Utilisées par des services de production : commerciaux, administratifs, production, etc..■ Nécessitent la connaissance des structures des données.■ Utilisent des bases de données de production (relationnelles)■ Manipulent des données homogènes.■ Nombre d'utilisateurs simultanés important.■ Applications critiques.
Exemples d'applications :■ Gestion bancaire■ Systèmes de réservation■ Gestion commerciale, personnel, production, etc.
66
Exemple de requête : ■ Le 15/01/2002 à 13h12, le client X a retiré 500DT du compte Y
OLTP / OLAP
67
Exemple de requête : ■ Quel est le volume des ventes par produit et par région durant le troisième
trimestre de 2002?
Applications OLAP :■ Catégorie de traitements dédiés à l’ide à la décision dont des requêtes interactives
complexes sur des gros volumes de données.■ L'analyse et la manipulation des données sont privilégiées.■ Requêtes complexes■ Applications d'aide à l'élaboration de stratégies■ Utilisées par les DG, les services marketing, financiers, contrôleurs de gestion, etc..■ Ne nécessitent pas la connaissance des structures des données.■ Utilisent des entrepôts de données (modèle multidimensionnel)■ Manipulent des données hétérogènes.■ Nombre d'utilisateurs simultanés faible.
Exemples d'applications :■ Analyse des tendances■ Analyse des comportements
68
BD relationnelles / BD multidimensionnelles
Pays
France
Espagne
Allemagnepommes
poiresoranges
janvierfévrier
avril
Temps
Produits
Vente de pommes en Allemagne
en avril
AchatPK id_achat
FK id_clientid_produit
Quantité
clientPK id_client
Nomadresse
ProduitPK id_produit
LibelléFamille
Les données nécessaires pour effectuer des analyses et en déduire des orientations stratégiques peuvent être stockées dans des structures :
■ relationnelles ou■ multidimensionnelles.
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
18
69
BD relationnelles / BD multidimensionnelles
Bases de données relationnelles■ Structure tabulaire.■ Croisement des données à l'aide des jointures.■ Pas de redondance (doublons, agrégation).■ Les résultats de requêtes sont sous forme de listes.■ Opérations : Sélectionner, ajouter, mettre à jour et supprimer des tuples. Structures peu adaptées aux applications de type OLAP.
■ Les données sont organisées selon des axes.■ Hypercube comprend autant de dimensions que d'axes d'analyse.■ Possibilité de redondance des données.■ Les requêtes peuvent exploiter toutes les combinaisons d'axes.■ Temps d'accès stable.■ Moins de risque d'erreurs dans la formulation des requêtes.■ Langage MDX = Multidimensional Expressions (de Microsoft "OLE DB for OLAP") Structures bien adaptées aux applications de type OLAP.
Bases de données multidimensionnelles
Différences entre OLTP et OLAP
OLTP OLAP
Conception orientée application (Application de
production, Facturation ) structure statique (E/R)
orientée sujet (Client, Produit, Vendeur) structure évolutive (en étoile, flocon)
Données
détaillées, non agrégées récentes, mise à jour accessibles de façon individuelle normalisées
Résumées, recalculées, agrégées. Historiques accessibles de façon ensembliste dénormalisées
Vue relationnelle multidimensionnelle
Requêtes / Utilisation
simples, nombreuses, régulières, prévisibles, répétitives
sensibles aux performances (réponses immédiates)
accès à beaucoup de données
complexes, peu nombreuses, irrégulières, non prévisibles
non sensibles aux performances (réponses moins rapides)
accès à beaucoup d'information
Utilisateurs agents opérationnels nombreux (des milliers) concurrents
managers / analystes peu (dizaines voir centaines) non concurrents
Accès lectures, insertions, m‐à‐j, suppressions lectures, insertions, mises à jour,
Taille 100MB à qcqs Go 100GB à qcqs To 70
Charge du serveur de données
opérationneldécisionnelopér. + décis.
taux d’occupation
temps
Source: H.E.C. Liège - U.E.R. Systèmes d'Information (F. Fontaine)
71
Besoins décisionnels
Data Warehousedonnées opérationnelles
contrôle d’info. détaillées et récentes, rapports
standardisés
« interrogation et rapports »
fichiers du logiciel DM
BUSINESS INTELLIGENCEBUSINESS INTELLIGENCEanalyse ad-hoc, info. globalisées, prise de
décisions
« OLAP - EIS»
découverte de connaissance
« Data Mining »
En synthèse
72
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
19
Chapitre 2 Entrepôt de données
73
Plan 1. Introduction2. Objectifs3. Définition4. Architecture5. Processus ETL6. Implementation
FST© Med Ali Ben Hassine 2012
■ La réponse tient en un mot : Entrepôt de données (data warehouse) !
■ Il ne faut pas être inquiet,... nous sommes tous fichés dans ces immensesentrepôts de données : toutes actions liées à l’activité d’une entreprise sontstockées dans un Data Warehouse (DW) pour en être analysées, via des outils dedatamining afin de nous étudier. Ceci dans un but bien précis :
celui de nous connaître afin de mieux identifier nos besoins
Introduction
c’est par pur « feeling » du responsable ou bien par une stratégie de marketing bien plus
élaborée?
Par quel moyen, la publicité nominative (postal ou par mail) est bien souvent en relation directe avec nos
habitudes de consommations ?
Comment choisir l’emplacement des produits dans une grande
surface ?
74
Introduction - Problématique
Une grande masse de données :– Distribuée– Hétérogène– Très détaillée
À traiter :– Synthétiser / Résumer– Visualiser– Analyser
Pour une utilisation par :– Des experts et des analystes d'un métier– NON informaticiens– NON statisticiens
75
Introduction – Problématique
Comment répondre aux besoins de décideurs afin d’améliorer les performances décisionnelles de l’entreprise?
■ En donnant un accès rapide et simple à l’information stratégique.
■ En donnant du sens aux données.
■ En donnant une vision transversale des données de l’entreprise (intégration de différentes bases de données).
■ En extrayant, groupant, organisant, corrélant et transformant (résumé, agrégation) les données.
76
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
20
Introduction – Solution
● Mettre en place un SI dédié aux applications décisionnelles : un
entrepôt de données (datawarehouse).
● Transformer des données de production en informations stratégiques.
77
Le DW est un système d’information dédié aux applications décisionnelles situé en :
■ Aval des bases de production (bases opérationnelles)■ Amont des prises de décision basées sur des indicateurs (Key Business Indicators (KBI))
78
Entrepôt de Données
Entrepôt de Données (Définition)
Bill Inmon (1996)
79
Principe■ base de données utilisée à des fins d’analyse.■ récolte, stocke et gère efficacement des gros volumes données
pour la prise de décision.■ assure un regroupement homogène et exploitable de données
hétérogènes, très nombreuses et distribuées.
" Un Entrepôt de Données est une collection de données orientées sujet,intégrées, non volatiles et historisées, organisées pour la prise dedécision ".
Caractéristiques : orientées sujet
● orientées sujet («métiers») : Les données des entrepôts sontorganisées par sujet plutôt que par application. Par exemple, unechaîne de magasins d’alimentation organise les données de sonentrepôt par rapport aux ventes qui ont été réalisées par produit etpar magasin, au cours d’un certain temps.
Production
Employé
Facturation
DonnéesProduction
Données Employé
DonnéesFacturation
80
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
21
Caractéristiques : Données intégrées
● intégrées : Les données provenant des différentes sources doiventêtre intégrées, avant leur stockage dans l’entrepôt de données.L’intégration (mise en correspondance des formats, par exemple),permet d’avoir une cohérence de l’information.
Production
Employés
Facturation
Données Client
81
Caractéristiques : Données non volatiles
● non volatiles : à la différence des données opérationnelles, celles del’entrepôt sont permanentes et ne peuvent pas être modifiées. Lerafraîchissement de l’entrepôt, consiste à ajouter de nouvelles données,sans modifier ou perdre celles qui existent.
82
Ajout
Modification
Suppression
Accès
Chargement
Bases de production Entrepôts de données
Caractéristiques : Données et historisées
● historisées : La prise en compte de l’évolution des données estessentielle pour la prise de décision qui, par exemple, utilise destechniques de prédiction en s’appuyant sur les évolutions passéespour prévoir les évolutions futures.
Ventes Données client
83
Pourquoi ne pas utiliser une BD?
BD et DW :■ ont des objectifs différents et font des traitements différents■ stockent des données différentes■ font l'objet de requêtes différentes
BD et DW ont besoin d'une organisation différente des données BD et DW doivent être physiquement séparés.
84
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
22
Processus de l’entreprise : Un exemple
85
Les clients
Les fournisseurs L’entreprise Les salariés
Gestion de la relation client,optimisation des ventes
Gestion de la relation client,optimisation des ventes
Optimisation des achats Gestion des RHprocessus opérationnelsOptimisation des
processus opérationnels
Les actionnaires
Enterprise ManagementFinances, Strategic
Enterprise Management
Exemple 1/3
Consolidation financière Analyse des coûts et de la profitabilité Gestion des risques Budget, planning, simulation, prévision Gestion de la relation actionnaires Management de la valeur
■ Gestion du temps de travail■ Formation, recrutement■ Fidélisation des salaries■ Salaires et rémunération
■ Profitabilité client■ Satisfaction client■ Analyse comportementale, ciblage■ Opportunités de ventes croisées■ Efficacité de forces de ventes, canaux de distribution■ Efficacité des opérations commerciales (promotion, publicité, etc.)
■ Performance du fournisseur■ Optimisation des délais■ Coûts et qualité du service
(interne et prestataires)
■ Performance de la production et de la logistique(Coûts, Qualité, Délai)
■ Analyse des affectations, coût du temps travaille
Objectifs, enjeux
■ Retour sur investissement (RSI, en anglais Return Of Investment 'ROI')
■ Réduction des coûts et contrôle des limites
■ Avoir une vision de l’entreprise qui aide à sa gestion, à son pilotage.
■ Répondre à des questions auxquelles les progiciels orientés métier nepeuvent faire face.
■ Les ERP ont apporté des solutions pour gérer les données del’entreprise selon un modèle unifié et cohérent, la Business Intelligenceles rentabilise.
86
Exemple 2/3
■ Quel a été l’impact de la dernière promotion sur cette gamme d’articles?■ Quel a été le secteur d’activité le plus rentable dans cette région?■ Quelle est la période où l’absentéisme est le plus fort ? Quelle est la catégorie de
personnel la plus touchée et quel est l’impact sur la production?■ … Autant de questions auxquelles il est difficile de répondre, voire impossible si
elles mettent en jeu des données de plusieurs compartiments de l’entreprise.
■ Exemple de problème rencontré lors du passage d’une logique de compte à unelogique de client : Le client apparaît en de multiples endroits ; dans : La base marketing La base commerciale Le système de facturation Le système après vente
■ Toutes ces données doivent être homogénéisées, organisées et intégrées au seindu Datawarehouse.
Requêtes
87
Exemple 3/3 Entrepôt de Données : Objectifs
Principaux objectifs :1. regrouper, organiser des informations provenant de sources diverses,2. les intégrer et les stocker pour donner à l’utilisateur une vue orientée métier,3. retrouver et analyser l’information facilement et rapidement.
En plus:4. Transformer un SI qui avait une vocation de production en un SI décisionnel.
Transformation des données de production en informations stratégiques.
5. Les informations d'un DW doivent être cohérentes.
6. Les données du DW doivent pouvoir être séparées et combinées au moyen detoutes les mesures possibles de l'activité.
7. Le DW ne comporte pas seulement des données mais aussi un ensembled'outils de requêtes, d'analyse et de présentation d'information.
88
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
23
8. Gestion et visualisation des données doit être rapide et intuitive
visualisation multidimensionnelle des données:
9. La qualité de l'information d'un DW est l'un des ressorts de la réorganisationdes données (Business Reengineering).
Entrepôt de Données : Objectifs (suite)
Comment Fédérer/Regrouper l'ensemble des données de l'entreprise ?89
Entrepôt de Données (Fonctions)
La construction d’un entrepôt revient à faire correspondre les besoins des utilisateurs avec la réalité des informations disponibles.
Trois fonctions essentielles :
■ collecte de données de différentes bases existantes■ Stockage de données (historisées)■ Mettre à disposition les données pour : Interrogation Visualisation Analyse
90
Architecture
91
Différence entre un DW et un datamart
Un DW et un datamart se distinguent par le spectre qu'il recouvre :● Le DW recouvre l'ensemble des données et problématiques d'analyse visées par
l'entreprise.● Le datamart recouvre une partie des données et problématiques liées à un métier
ou un sujet d'analyse en particulier (finance, commercial, …) Mini DW lié à un métier particulier de l ’entreprise
● Un DW est souvent volumineux (plusieurs centaines de Go voire qcqs To ) avec desperformances inappropriées (temps de réponse trop longs).
● Un Data mart comporte moins de 50 Go, ce qui permet des performancesacceptables.
● La création d’un datamart peut être un moyen de débuter un projet de DW (projetpilote).
92
Datamarts du service Marketing
Datamart du service Ressources HumainesDW de l’entreprise
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
24
Différence entre un DW et un datamart
Pourquoi des datamarts ?Les datamarts sont destinés à pré-agréger des données disponibles defaçon plus détaillée dans les DW, afin de traiter plus facilement certainesquestions spécifiques, critiques, etc.
93
Exemple : Ticket de caisseSi un DW enregistre un ensemble de ventes d'articles avec un grain trèsfin, un datamart peut faciliter une analyse dite de ticket de caisse (co-occurrence de ventes de produits par exemple) en adoptant un grainplus grossier (le ticket plutôt que l'article).
Catégories des données stockées
■ Données dans un DW : données du SIO + BD externes (ETL).
■ Quatre catégories de données :
Les données de détail : issues des systèmes transactionnels de l’entreprise"socle de l’entreprise". Leur stockage permet d’offrir aux utilisateurs du SID lesdétails des chiffres affichés, par exemple, sur un tableau de bord.
Les données agrégées : correspondent à des éléments d’analyse représentantles besoins des utilisateurs. Elles constituent déjà un résultat d’analyse et unesynthèse de l’information contenue dans le système décisionnel, et doivent êtrefacilement accessibles et compréhensibles..
Les méta données : décrivent les caractéristiques des données stockées :origine, date de dernière m-à-j, mode de calcul, procédure de transformation.Elles sont utiles aussi bien aux utilisateurs (comprendre les données) qu’auxadministrateurs (fournir des moyens d’exploitation et de maintenance du DW).
Les données historisées : Couches de données dans lesquelles chaquenouvelle insertion de données provenant du SIO ne détruit pas les anciennesvaleurs, mais créée une nouvelle occurrence de la donnée.
94
Processus ETL
95
■ L’ETL est une couche logicielle responsable de l’alimentation d’une BD à partir de sources de données.
■ Dans un SID, l’ETL sert à alimenter l’ED ou bien les magasins de données .■ L’ETL fait partie des middlewares (intergiciels)
Importance de l’ETL
96
■ Constitue 70 à 80% du temps passé dans un projet décisionnel.
■ La qualité de l’ED dépend de la qualité de l’ETL :
Temps de chargement
Fréquence de chargement
Qualité des données (QoD)
Qualité des services (QoS)
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
25
Processus ETL
Outils d’alimentation pour
■ Extraire
■ Transformer
■ Charger dans un DW
97
donnéessources
ETL = Extracteur+IntégrateurExtract + Transform + Load
Objectif ● Obtenir des informations consolidées et stables dans l’entrepôt.● Tache difficile à mettre en œuvre
ETL – Extraction
■ Objectif : Identifier et localiser les données sources pertinentes (BDR,fichiers, …) puis les collecter et les extraire des différents systèmesopérationnels.
■ Fonctionnalités : Traiter différents formats (XML, HTML, TXT, CSV, DB2, Oracle…). Gérer les connexions aux sources (ODBC, JDBC...). Extraire le dictionnaire des sources (propriété des colonnes, clés…). Extraire les données de manière performante et sans perturber les
environnements de production. Détecter les données qui ont été modifiées dans les sources. Ajouter des contrôles (fichier de rejets, audits…). Stocker l’ensemble des règles d’extraction dans le référentiel.
98
ETL – Extraction
99
Extraction logique
Traite la quantité des données à extraire
Extraction
Extraction physique
Traite l’aspect technique de l’opération de l’extraction
■ totale : extraire toutes les données dans un seul coup
■ incrémentale(partielle) : à chaque fois, extraire une partie des données
■ directe (Charger les données directement au DW)
■ indirecte (passer par stagingarea)
100
Deux principales possibilités
■ Extraction des changements:■ Que les parties des données ayant été modifiées depuis la dernière
procédure d’extraction sont transmises au système DW.■ Modifications peuvent être des insertions de tuples (insert), des effacements
de tuples (delete). Des modifications de tuples existants (update) sont typiquement implémentés par une suite insert+delete.
■ Copie intégrale des données source (snapshot)■ S’utilise lorsque le nombre de changements individuels est trop important ou
si l’extraction des changements n’est pas possible due à des raisons techniques.
■ Conflit d’intérêt: Extraction de données cohérentes vs. restriction du fonctionnement opératif causé par l’accès exclusif des données, nécessaire durant l’extraction.
ETL – Extraction
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
26
ETL –Transformation
Problématique■ Existence de plusieurs sources■ non conformité des représentations■ découpages géographiques différents■ 5 à 30 % des données des BD commerciales sont erronées■ une centaine de type d’inconsistances ont été répertoriées
données erronées analyse erronée !
DWBP
BP
BP
■ Transformation : Étape importante garantissant que les données intégrées dans le DW seront cohérentes et fiables.
101
■ Objectif Transformer les données sources selon les
unités de mesure et les formats de l’ED. Homogénéiser les données sources. Nettoyer les données. Suppression des incohérences sémantiques. Dater les données. Créer des clés. 102
Suppression des incohérences sémantiques entre les sources pouvant survenir lors de l’intégration :
■ des schémas : problème de modélisation : différents modèles de données sont utilisés problèmes de terminologie : un objet est désigné par 2 noms différents, un même
nom désigne 2 objets différents incompatibilités de contraintes : 2 concepts équivalents ont des contraintes
incompatibles conflit sémantique : choix de différents niveaux d’abstraction pour un même concept conflits de structures : choix de différentes propriétés pour un même concept conflits de représentation : 2 représentations différentes choisies pour les mêmes
propriétés d’un même objet
■ des données : Equivalence de champs Equivalence d’enregistrements : fusion d’enregistrements
ETL –Transformation
103
Objectif : Résoudre le problème de consistance des données au sein de chaque source.
ETL – Transformation
■ présence de données fausses dès leur saisie faute de frappe différent format dans une même colonne
(jj/mm/aa, mm/jj/aa, jj-mois jj/mm/aaaa) texte masquant de l’information (e.g., “N/A”) valeurs nulles et valeurs incohérentes
9999, xxxx, non renseignée, inc, inconnue Traiter les valeurs manquantes et les valeurs incohérentes (ignorer, remplacer,
saisir manuellement ces valeurs manquantes) incompatibilité entre la valeur et la description de la colonne duplication d’information (Référence des produits, des clients dans
différentes sources)
Types d’inconsistances
Nettoyage
104
■ persistance de données obsolètes■ confrontation de données sémantiquement équivalentes mais
syntaxiquement différentes (Problèmes de codage et de nommage) Employé, Personnes, Salariés, Personnel Employés Boulvd, Bd, Boulevard Boulevard
Types d’inconsistances (suite)
un outil de nettoyage comprend
■ des fonctions d’analyse■ des fonctions de normalisation■ des fonctions de conversion■ des dictionnaires de synonymes ou d’abréviations
ETL – Transformation Nettoyage
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
27
105
Définition de table de règlesremplacer valeur par
Mr Mmonsieur Mmnsieur Mmasculin MM MMsieur MM. MMonseur M
normalisation, conversion, dictionnaires, ...
Exemple de conversions :
utilisation d’expression régulière, suppression de doublons, de valeur nulle, ...
ETL – Transformation Nettoyage
106
■ 5 étapes de nettoyage de données:
1. Décomposition des données source en éléments (elementizing)Par exemple adresse rue, numéro, code postal, ville
2. Adaptation des éléments à un format standard (standardizing) : par exemple, adoption d’un même format pour les dates (jj/mm/aaaa), "1ST AVE" "First Avenue"
3. Vérification de la plausibilité de données (vérification) : par exemple le conflit entre code postal = «91400» et ville = «Paris» est identifié et résolu
4. Alignement des données (matching) : par exemple vérification de l’existence d’un produit (tuple provenant d’une source) dans la BD intégrée. Si un produit y existe déjà, sa représentation intégrée est adaptée.
5. Formation de groupes (householding)Vérification de l’appartenance de nouveau tuples à un groupe de tuples de la BD intégrée intéressant au niveau application (bénéfique lors des analyses).Par exemple, formation / élargissement du groupe «type de consommateur».
ETL – Transformation Nettoyage
ETL – Chargement Données nettoyées et transformées
■ Fonctionnalités :
Traiter les messages reçus du système de transformation des données. Insérer de nouvelles données et archivage de données anciennes. Ordre de chargement :
1. Tables de Dimensions2. Tables de Faits
Mettre à jour périodiquement les tables de faits (selon le grain). Gérer les gros volumes de données (index, partitionnement,
parallélisation, chargement en blocs…). Ajouter des contrôles (fichier de rejets, audits…). Stocker l’ensemble des règles de chargement dans le référentiel
■ Objectif : Charger les données transformées dans l’entrepôt.
107
ETL – Chargement Techniques
■ Basées SQL Interface standard: embedded SQL, JDBC, ... Opération / extension propriétaire: Array Insert Considération et activation de toutes les méthodes BD: déclencheurs,
actualisation d’indexes, concurrence, ...■ Chargement de masse (bulk load): Extension spécifique d’un système
BD dédiée au chargement de larges volumes de données.■ Utilisation d’interfaces d’application: nécessaire chez certains vendeurs
(SAP)
108
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
28
Cycle de vie de l’ETL
■ La mise en place de l’ETL passe par les étapes suivantes :
1. Conception de l’ETL : Identification des sources de données Correspondance des données Définition des transformations Structure de la zone d’attente
2. 1er chargement : Chargement de toutes les données sources
3. Rafraichissement de l’ED : Chargement périodique des données
■ Mise à jour de l’ETL lorsque les structures sources ou cibleschangent
109
Fréquence de l’ETL
■ Dépend de : la granularité de la dimension Temps la disponibilité des données sources la fréquence d’utilisation de l’ED
■ Dans certains cas, pour gagner du temps, on peut avoir unefréquence de chargement inférieure à celle de la granularité de ladimension temps.
■ Exemple : Granularité Temps = mois Fréquence de chargement = jour
110
La méthode pull et la méthode push
■ Techniques de détection des mises à jour effectuées sur la BDopérationnelle et son envoi à l ’entrepôt pour sa mise à niveau ultérieure.
avec la méthode pull, c’est le SID qui recherche périodiquement lesdonnées dans les BD opérationnelles. Cette méthode alimente le SIDen temps différé, cependant la quantité volumineuse de données àchaque transfert peut être coûteuse en temps.
avec la méthode push, c’est le SIO qui au fil de l’eau de sestransactions alimente le SID. Cette méthode alimente le SID en tempsdirect ce qui oblige à revoir le code des applications opérationnelles.
111
Outils ETL
■ Sans outils : Commandes SQL et utilitaires du SGBD source et cible Programmation (PL/SQL)
■ Outils propriétaires : Oracle Warehouse Builder IBM DB2 Warehouse Manager Microsoft Integration Services …
■ Open source : Talend Open studio Pentaho Data Integration …
■ Comparatif des outils ETL open source http://alma.univ-nantes.fr/promotions/2007-08/stages/08-obs-francheteau.pdf http://www.atolcd.com/fileadmin/Publications/Atol_CD_Livre_Blanc_ETL_Open_Source.pdf
112
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
29
Modélisation d'un DW
• Les BD relationnelles ne sont pas adaptées à l'OLAP car :
Pas les mêmes objectifs
Pas les mêmes données: Les données nécessaires à l'OLAP sont multidimensionnelles (i.e.
ventes par vendeur, par date, par ville, …). Les tables en représententune vue aplatie.
Pas les mêmes traitements et requêtes: Non seulement perte de performances mais aussi nécessité pour les
utilisateurs de savoir comment trouver les liens entre les tables pourrecréer la vue multidimensionnelle.
• Il est donc nécessaire de disposer d'une structure de stockage adaptée à l'OLAP,i.e. permettant de : représenter les données dans plusieurs dimensions, manipuler les données facilement et efficacement.
Nécessité d'une structure multidimensionnelle
(Chapitre 3)
113
Implémentation d'un data warehouse
3 possibilités:
1. Relational OLAP (ROLAP)
2. Multidimensional OLAP (MOLAP)
3. Hybrid OLAP (HOLAP)
[Ces concepts seront détaillés dans le chapitre 5]
114
115
ROLAP
Idée:● Données stockées en relationnel.● La conception du schéma est particulière: schéma en étoile, en flocon.● Des vues (matérialisées) sont utilisées pour la représentation
multidimensionnelle.● Un moteur ROLAP permet de simuler le comportement d’un SGBD
multidimensionnel (Traduction des requêtes OLAP (slice, rollup…) en SQL)● Utilisation d'index spéciaux: bitmap.● Administration (tuning) particulière de la base.
Avantages/inconvénients● Souplesse, évolution facile, moins
cher à mettre en place stockage de gros volumes.
● Mais peu efficace pour les calculs complexes. 115
MOLAP
Idée:● Utilise un système multidimensionnel pour gérer les structures multidimensionnels● Modélisation directe du cube.● Ces cubes sont implémentés comme des matrices à plusieurs dimensions.
● CUBE [1:m, 1:n, 1:p…] (mesure)● Le cube est indexé sur ses dimensions.
Avantages/inconvénients● rapide● formats propriétaires● ne supporte pas de très gros volumes de données
116
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
30
HOLAP
Idée:● MOLAP + ROLAP● Données stockées dans des tables relationnelles● Données agrégées stockées dans des cubes.● Les requêtes vont chercher les données dans les tables et les cubes.● Solution hybride entre MOLAP et ROLAP● Bon compromis au niveau coût et performance
117
Administration d'un ED
■ L'ED est un aspect physique du SI de l'entreprise. Il doit être par conséquent évolutif. Les données doivent donc changer. On doit procéder à d'autres alimentations et donc gérer l'actualisation des données.
■ Il existe des outils qui prennent en charge les tâches de rafraîchissement des données.
■ Ils procèdent par réplication pour propager les m-à-j effectuées dans les BD sources, dans l'ED.
■ Le mécanisme de réplication et une opération de copie de données d'une BD vers une ou plusieurs BD.
■ Les réplications sont alors asymétriques synchrones ou asynchrones ou alors symétriques synchrones ou asynchrones.
■ Le rafraîchissement des données peut se faire également par des processus de transformation qui exploitent les méta-données.
118
Administration d'un ED
■ La fonction d'administration porte sur un aspect fonctionnel (qualité et la pérennité des données) mais aussi sur un aspect technique (maintenance, optimisation, sécurisation,...)
■ Elle concerne l'ensemble des tâches du processus d'entreposage de la sélection des données de production à la mise à disposition pour construire les espaces d'analyse.
■ L'administrateur de l'ED doit maîtriser la gestion des données (données, provenance des données, méta-données).
■ Les données agrégées sont aussi une production (information) de l'entreprise comme les données de production (ERP), doivent être entreposées.
■ Ainsi le développement de l'ED témoignera, aussi bien de la production de base que de l'activité informationnelle (pilotage de l'entreprise).
■ Les requêtes portent plus souvent sur les agrégats que sur les données de base (80% - 20%)
119
Rôles et responsabilités
Kimball (2004) a définit 8 rôles dont les plus sont :
1. Gestionnaire ETL■ Gérer quotidiennement l’équipe ETL.■ Définir les standards et procédures de l’environnement de développement
ETL (Règles de nomenclature, Meilleures pratiques…)■ Superviser le développement, les tests et l’assurance qualité
2. Architecte ETL■ Concevoir l’architecture et l’infrastructure de l’environnement ETL.■ Concevoir le mappage logique de données.■ Livrer les routines ETL en production.■ Appréhender les besoins d’affaire.■ Connaître les systèmes source.■ Résoudre les problèmes techniques complexes.
120
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
31
Rôles et responsabilités
3. Développeur ETL■ Développer les routines ETL.■ Tester les routines ETL.■ S’assurer que les résultats du processus ETL répondent aux besoins
d’affaire (Collaboration étroite avec l’architecte ETL)
4. Analyste système■ Rassembler des besoins d’affaire.■ Documenter les besoins d’affaire.■ Travailler en collaboration avec toute l’équipe du DW (Non seulement celle
du système ETL).
121
Rôles et responsabilités
5. Spécialiste qualité de données■ S’assurer de la qualité des données dans l’entrepôt de données en entier.■ S’assurer que les règles d’affaire sont bien implantées par les processus
ETL (en collaboration avec l’analyste système et l’architecte ETL)
6. DBA■ Installer, configurer, migrer et maintenir la base de données.■ Traduire le modèle logique de données en modèle physique.
122
Annexe :Méthode générale de conception de l’ETL sous Oracle
1. Récupération des données sources dans la zone d'extraction Création de vues pour les données stockées dans des BDR Création de tables externes pour les fichiers CSV Transformation XSLT des fichiers XML en instructions SQL et ajout
manuel des données XML. Une table classique correspondant au schéma XML doit donc être créée dans le zone d'extraction.
123
2. Création des tables de traitement● Créer une table pour chaque vue, table externe et table classique de la zone
d'extraction selon la syntaxe SQL3 du modèle RO pour pouvoir accepter desméthodes ultérieurement. Déclarer ensuite une méthode pour chaque attribut àexporter dans le modèle dimensionnel.
● Ajouter un attribut booléen pour chaque table afin de discriminer ultérieurement lesdonnées nouvelles des données anciennes.
● Pour chaque hypothèse de "propreté" des données sources, on poser une contrainteassociée. Par exemple si une donnée doit être une clé primaire et que l'on pense queles sources sont correctes de ce point de vue, on ajoute la clause PRIMARY KEY. Parcontre il ne faut pas ajouter les contraintes lorsque l'on sait que les données sourcessont "sales", sans quoi ces données seront refusées au chargement et ne pourrontjamais être nettoyées.
● Pour chaque hypothèse de "nettoyage" des données sources, on pose un trigger quiva traquer les erreurs et les rapporter dans une table de log.
● On note enfin qu'il est parfois utile de donner des tailles de champs plus grandes quecelle attendues afin de ne pas bloquer ou tronquer d'enregistrement. C'est une autrefaçon de "relâcher" les Contraintes.
Annexe :Méthode générale de conception de l’ETL sous Oracle
124
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
32
3. Transfert des données de la zone d'extraction vers la zone de transformation● Toutes les données doivent passer, l'analyse des triggers et le non blocage par
les contraintes posées permettent de valider les hypothèses de propreté.● On utilise l'instruction Oracle MERGE pour les imports. Les données nouvelles
sont marquées en utilisant l'attribut de discrimination ajouté à cet effet.● Les sources de données importées manuellement de la zone d'import sont
remises à zéro (DELETE).
Annexe :Méthode générale de conception de l’ETL sous Oracle
4. Création des méthodes de transformation● On implémente une méthode pour chaque attribut que l'on souhaite exporter
dans le modèle dimensionnel. Cette méthode permet de réaliser dynamiquementles transformations et vérifications adéquates.
125
5. Préparation du chargement● Désactivation des contraintes des tables dimensionnelles.● Suppression des index des tables dimensionnelles.
6. Chargement dans les tables dimensionnelles● Seule l'API fournie par les méthodes est utilisée pour accéder aux données.● On peut choisir une mise à jour complète : la base dimensionnelle est vidée
puis remplie à nouveau ; ou bien une mise à jour partielle : les donnéesnouvelles (marquées comme telles) sont ajoutées mais les modifications surles données préalables ne sont pas prises en compte.
7. Post-chargememnt● Réactivation des contraintes, en cas d'erreur procéder aux corrections ad hoc
dans les méthodes de transformation et recommencer.● Recréer les index.
Annexe :Méthode générale de conception de l’ETL sous Oracle
126
Attention : Passage● Le passage d'une zone à l'autre doit toujours laisser passer toutes les
données.● Lors du passage de la zone d'extraction à la zone de transformation, les
contraintes qui bloquent doivent être levées pour laisser passer les données etlors du passage de la zone de transformation à la zone d'exploitation, lesméthodes doivent gérer tous les cas de figure problématiques.
Rappel : Particularités Oracle à mobiliser● Tables externes : ORACLE LOADER● Triggers : CREATE TRIGGER● Instruction d'ajout et mise à jour de données : MERGE● Méthodes relationnel-objet : CREATE TYPE et CREATE TYPE BODY● Désactivation et réactivation de contraintes : ALTER TABLE nom_table
[ENABLE | DISABLE] CONSTRAINT nom_contrainte;
Annexe :Méthode générale de conception de l’ETL sous Oracle
127128
Annexe :Méthode générale de conception de l’ETL sous Oracle
Résumé en image
128