cours-datamart.pdf
Post on 16-Oct-2015
83 Views
Preview:
TRANSCRIPT
-
Prof. CHRAYAH Mohamed
-
Les entreprises passent l re de linformation.
Dfi : Transformer leur systme dinformation quiDfi : Transformer leur systme dinformation qui
avait une vocation de production un SI dcisionnel
Dont la vocation de pilotage devient majeure.
-
Definition dun Data warehouse
(DW)
La Data warehouse (entrept de donnes) est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le non volatiles et historises, organises pour le support d un processus d aide la dcision (Inmon, 94).
-
1-Donnes orientes sujet
Donnes structures par thmes (sujets majeurs de lentreprise) et non suivant les processus fonctionnels.
Definition dun Data warehouse
(DW)
fonctionnels.
Le sujet est transversal aux structures fonctionnelles et organisationnelles de lentreprise. On peut accder aux donnes utiles sur un sujet.
Lintgration des diffrents sujets se fait dans une structure unique.
-
1-Donnes orientes sujet
Il n y a pas de duplication des informations communes plusieurs sujets.
La base de donnes est construite selon les thmes
Definition dun Data warehouse
(DW)
La base de donnes est construite selon les thmes qui touchent aux mtiers de lentreprise (clients, produits, risques, rentabilit, ).
Les donnes de base sont toutefois issues des Systmes dInformation Oprationnels (SIO).
-
2 Donnes intgres
Les donnes, issues de diffrentes applications de production, peuvent exister sous toutes formes
Definition dun Data warehouse
(DW)
production, peuvent exister sous toutes formes diffrentes.
Il faut les intgrer afin de les homogniser et de leur donner un sens unique, comprhensible par tous les utilisateurs.
Elle doivent possder un codage et une description unique.
-
3 Donnes non-volatiles
Une information est considre volatile quand les donnes sont rgulirement mises jour comme dans les Systmes dInformation Oprationnels.
Definition dun Data warehouse
(DW)
les Systmes dInformation Oprationnels.
Dans un SIO, les requtes portent sur les donnes actuelles. Il est difficile de retrouver un ancien rsultat.
Dans un DW, il est ncessaire de conserver lhistorique de la donne. Ainsi, une mme requte effectue deux mois dintervalle en spcifiant la date de rfrence de la donne, donnera le mme rsultat.
-
4 Donnes historises
Dans un SIO, les transactions se font en temps rel, et les donnes sont mises jour constamment.
L historique des valeurs de ces donnes n est
Definition dun Data warehouse
(DW)
L historique des valeurs de ces donnes n est gnralement pas conserv car il est inutile.
Dans un DW, la donne nest jamais mise jour.
Les donnes du DW s ajoutent aux donnes dj engranges.=> ajout de couches de donnes successives, la manire des strates gologiques
-
4 Donnes historises
Le DW stocke donc lhistorique des valeurs que la donne aura prises au cours du temps.
Definition dun Data warehouse
(DW)
donne aura prises au cours du temps.
Un rfrentiel de temps est alors associ la donne afin dtre capable didentifier une valeur particulire dans le temps.
Les utilisateurs possdent un accs aux donnes courantes ainsi qu des donnes historises.
-
5 Support d un processus d aide la dcision
Un DW est un systme d information ddi aux applications dcisionnelles dont les principales contraintes sont :
Definition dun Data warehouse
(DW)
contraintes sont :
des requtes complexes plusieurs niveaux d agrgation
la ncessit de disposer d informations synthtiques ( reporting de gestion, analyse des ventes, gestion de la masse salariale, etc)
le stockage des donnes sous une forme multi-dimensionnelle
des mises jour priodiques
-
Objectifs dun Data warehouse
permet le dveloppement d applications dcisionnelles et de pilotage de l entreprise et de ses processus
joue un rle de rfrentiel pour l entreprise puisqu il permet de fdrer des donnes souvent parpilles dans permet de fdrer des donnes souvent parpilles dans diffrentes bases de donnes
offre une vision globale et oriente mtier de toutes les donnes que manipule l entreprise
permet de faire face aux changements du march et de l entreprise
offre une information comprhensible, utile , rapide et jour
-
Architecture dun Data warehouse
Extraire
AnalyseRequtesRapports
Monitor&
IntegratorMeta-donnes
BD
autressources
OLAP Server
DataWarehouse
ExtraireTransformerChargerMettre jour
OLAP
RapportsData mining
Sources Outils Front-End
Data Marts
BD oprationnelles
Stockage
-
1 Les Bases de Donnes
Bases de donnes internes:
Bases de production de lentreprise
Bases cres par les utilisateurs
Architecture dun Data warehouse
Bases cres par les utilisateurs
Bases de donnes externes lentreprise qui ncessitent leur identification, leur rapatriement et leur intgration.
Donnes achetes des fournisseurs de donnes
Donnes rcupres sur Internet
-
2 Oprations sur les donnes
EXTRACTION
Architecture dun Data warehouse
Extraire les donnes de leur environnement dorigine (bases de donnes relationnelles, fichiers plats, ).
Utiliser une technique approprie pour n extraire que les donnes ncessaires : donnes cres ou modifies depuis la dernire opration dextraction.
-
2 Oprations sur les donnes
TRANSFORMATION Une mme donne peut avoir une structure ou une valeur
diffrente en fonction de la base (production, externe, utilisateurs)
Architecture dun Data warehouse
diffrente en fonction de la base (production, externe, utilisateurs) dont elle provient.
On peut tre confront des redondances (un mme client peut apparatre avec diffrents attributs et proprits selon la source consulte).
Il faut supprimer certaines donnes aberrantes qui risqueraient de fausser les analyses.
Il faut donc purer et transformer les donnes.
-
2 Oprations sur les donnes
CHARGEMENT/RAFRAICHISSEMENT
Effectuer sur les donnes des oprations de calcul et dagrgation.
Remplacer certaines bases si aucune solution dextraction satisfaisante nest
Architecture dun Data warehouse
Remplacer certaines bases si aucune solution dextraction satisfaisante nest
possible.
Mettre en place des procdures de chargement et de restauration (en cas de problme).
Typiquement, la frquence du chargement est quotidienne et il est effectu en tout dbut de matine.
Si la disponibilit du systme ne peut tre interrompue, envisager la mise en place de systmes redondants.
-
2 Oprations sur les donnes
LES OUTILS
On peut automatiser tout ou partie des oprations dcrites.
Architecture dun Data warehouse
dcrites.
Des outils sont disponibles : Extract dETI, SIS de MICROSOFT, SAS/Warehouse Administrator de SAS
Le dveloppement doutils spcifiques est envisageable mais risque d alourdir les tches.
-
3 Dictionnaire de Donnes
Le dictionnaire de donnes regroupe les mta-donnes.
Une mta-donne reprsente une donne sur les
Architecture dun Data warehouse
Une mta-donne reprsente une donne sur les donnes. Il sagit de lensemble des informations qui permettent de qualifier une donne, notamment par sa smantique, sa rgle de calcul, sa provenance, sa qualit, etc
les mta-donnes permettent de prciser de quelle table provient la donne, quelles dates et heures elle en a t extraite, ltat de la base cet instant, etc...
-
3 Dictionnaire de Donnes
Une mta-donne permet de remonter la chane et de reconstituer lensemble dvnements et donnes qui ont servi obtenir linformation associe.
Architecture dun Data warehouse
servi obtenir linformation associe.
Le dictionnaire de donnes contient toutes les informations permettant dexploiter les donnes.
Cest un rfrentiel destin aux utilisateurs et ladministrateur du DW.
A ce jour, il nexiste pas de normes en ce qui concerne la structure et la gestion des dictionnaires de donnes. Chaque outil propose sa solution et son approche.
-
4 LES DATA MARTS
Un data mart (magasin de donnes) est un DW focalis sur un sujet particulier, souvent au niveau dpartemental ou mtier.
Architecture dun Data warehouse
sujet particulier, souvent au niveau dpartemental ou mtier.
C est donc un mini DW li un mtier particulier de l entreprise (finance, commercial, ).
Un DW est souvent volumineux (plusieurs centaines de Go voire quelques To ) avec des performances inappropries (temps de rponse trop longs). Un Data mart, quant lui, comporte moins de 50 Go, ce qui permet des performances acceptables.
La cration dun data mart peut tre un moyen de dbuter un projet de DW (projet pilote).
-
LES DATA MARTS
-
DIMENSION
On entend par dimensions les axes avec lesquels on veut faire l'analyse. Il peut y avoir une dimension
Modlisation dun Data warehouse
veut faire l'analyse. Il peut y avoir une dimension client, une dimension produit, une dimension
gographie (pour faire des analyses par secteur gographique).
Une dimension est tout ce qu'on utilisera pour faire nos analyses.
-
FAITLes faits sont ce sur quoi va porter l'analyse. Ce sont des
tables qui contiennent des informations oprationnelles et qui relatent la vie de l'entreprise. On aura des tables de
Modlisation dun Data warehouse
qui relatent la vie de l'entreprise. On aura des tables de faits pour les ventes (chiffre d'affaire net, quantits et montants commands, quantits factures, quantits retournes, volumes des ventes, etc.)
par exemple ou sur les stocks (nombre d'exemplaires d'un produit en stock, niveau de remplissage du stock, taux de roulement d'une zone, etc.
Un fait est tout ce qu'on voudra analyser.
-
Le modle en toile
Modlisation dun Data warehouse
N CdeDate Cde
Commande
Code produitNom ProduitDescription
Produit
TABLE DE FAITS
N ClientNom ClientAdresse ClientVille
Client
Description ProduitCatgorieDescription catgoriePrix unitaire
Code vendeurNom VendeurVille VendeurQuota
Vendeur
N CdeCode vendeurN ClientClef dateCode produitNom VilleQuantitPrix total
TABLE DE FAITS
Date
Clef dateDateMoisAnne
Nom VilleRgionPays
Ville
-
Le modle en toile
Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une ou plusieurs mesures .
Plusieurs tables de dimension : descripteurs des dimensions.
Modlisation dun Data warehouse
Avantages : Facilit de navigation Performances : nombre de jointures limit . Gestion des agrgats Fiabilit des rsultats
Inconvnients : Toutes les dimensions ne concernent pas les mesures Redondances dans les dimensions Alimentation complexe.
-
Proprits des mesures
Additivit : somme sur toutes les mesures
Exemple : CA ; Quantit vendue, ...
Semi-additivit : somme sur certaine mesures :
Modlisation dun Data warehouse
Semi-additivit : somme sur certaine mesures :
Exemple : nbre de contacts clients, Etats des stocks, ...
Non-additivit : pas de somme , recalculer
Exemple : encours moyen fin de mois, plus grand CA pour lensemble des magasins
-
La table de fait contient se qu'on appelle des " mesures .
Les tables de dimension contiennent les lments qu'utiliseront les dcideurs pour voir la table de faits.
On n'utilise JAMAIS la cl d'un systme de production
Modlisation dun Data warehouse
On n'utilise JAMAIS la cl d'un systme de production comme cl de dimension.
Chaque ligne de la table de faits doit avoir une relation avec chacune des tables de dimensions
Il n'existe de relations qu'entre les dimensions et les tables de faits.
-
Modlisation dun Data warehouseOn vous demande de crer un data Mart (une toile) pour
l'analyse de l'activit des reprsentants d'une entreprise de vente d'imprimantes. Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs. Les employs font ils leur travail, quelle est la zone de couverture des vendeurs, ou travail, quelle est la zone de couverture des vendeurs, ou sont les endroits o les vendeurs sont le moins efficaces, quelle est la moyenne de ventes des reprsentants, etc., etc. L'entreprise possde un systme de gestion de ressources humaines, un systme de gestion des ventes et des feuilles de routes avec des informations concernant les vendeurs : kilomtres parcourus, litres d'essence utilise, frais de voyage, ventes, promesses de ventes, etc.
-
Modlisation dun Data warehouse
Date Vendeur Produit Zone gographique Client
Annes Nom Catgorie Pays Nom
Mois Prnom Type Province Adresse
Jours Salaire Groupe Ville Pays
Heures
Analyse : consommation
d'essence,
Qte
commande,
Qte prcommande,
kilomtrage,nombre de visites,
etc.
-
Modlisation dun Data warehouse
ID_produitNomPrenomCathegorieGroupe
Produit
Temps
ID_tempsANNEE
Geographie
ID_GEOANNEEMOISJOURSEMAINE
Vendeur
ID_vendeurNomPrenomSalaireDate_embauche
ID_GEOPAYSVILLEPROVINCE
Temps
ID_ClientNOMADRESSEPERSONNE RESS
ID_anal_representantID_date_commandeID_vendeurID_GEOID_produit
Fait Analyse Representantes
-
Modlisation dun Data warehouseOn vous demande de crer un data Mart (une toile) pour
l'analyse de l'activit dun magasins de boissons. Une chaine nationale fictive de magasins de boissons. Celle-ci vient d implmenter un programme carte de fidlit vient d implmenter un programme carte de fidlit dans les points de vente. Quoique le programme soit relativement rcent et que les ventes sur carte de fidlit ne reprsentent encore que 5% des ventes nationales, la direction dsire analyser les ventes et le marketing au niveau du client et savoir si la manire dacheter des clients dtenteurs dune carte de fidlit diffre du mode de consommation des clients anonymes.
-
Modlisation dun Data warehouse
-
ExerciceUne agence de voyage dsire connaitre le chiffre
daffaires (CA) par client, par date de voyage (date, semaine, mois, trimestre, et anne), par compagnie arienne, par ville de destination ?arienne, par ville de destination ?
Les tableaux de bord doivent pouvoir prsenter les totaux et sous totaux de CA : tous clients confondus, et/ou toutes dates, et/ou toutes compagnies, et/ou toutes destinations.
Dessinez le modle dimensionnel ?
-
Modlisation dun Data warehouse
N CdeDate Cde
Commande
Code produitNom ProduitDescription Produit
Produit
TABLE DE FAITS
N ClientNom ClientAdresse ClientVille
Client
Description ProduitCatgorieDescription catgoriePrix unitaire
Code vendeurNom VendeurVille VendeurQuota
Vendeur
N CdeCode vendeurN ClientClef dateCode produitNom VilleQuantitPrix total
TABLE DE FAITS
Date
Clef dateDateMoisAnne
Nom VilleRgionPays
Ville
-
Le modle floconn
Modlisation dun Data warehouse
N CdeDate Cde
Commande
Code produitNom Produit
Produit
TABLE DE FAITS
Cathegorie
Catgorie
N ClientNom ClientAdresse ClientVille
Client
Nom ProduitDescription ProduitcatgoriePrix unitaire
Code vendeurNom VendeurVille VendeurQuota
Vendeur
N CdeCode vendeurN ClientClef dateCode produitNom VilleQuantitPrix total Date
Clef dateDateMois
Nom VilleRgion
Ville
CatgorieDescription
MOIS
MoisAnne
ANNEE
Anne
Region
RgionPays
Pays
Pays
-
La modlisation en flocon tant une variante de la modlisation en toile.
Modlisation dun Data warehouse
modlisation en toile.
Le principe de la modlisation en flocon est de crer des hirarchies de dimensions, de telle manire avoir moins de lignes par dimensions
-
Modle floconn = Modle en toile + normalisation
des dimension
Modlisation dun Data warehouse
Lorsque les tables sont trop volumineuses
Avantages :
rduction du volume,
permettre des analyses sur la dimension hirarchise.
Inconvnients :
navigation difficile ;
nombreuses jointures.
-
Constellation
Une constellation est une srie d'toiles ou de flocons relies entre eux par des dimensions.
Modlisation dun Data warehouse
entre eux par des dimensions.
Il s'agit donc d'toiles avec des dimensions en commun. Un
environnement dcisionnel idal serait une place ou il serait
possible de naviguer d'toile en toile, de constellation en
constellation et de Data Mart en DataMart la recherche
de l'information si prcieuse.
-
La constellations de faits permet
de reprsenter plusieurs tables
de faits partageant quelques
tables de dimension.
Exemples :
Les tables de faits (tudiants) et
(enseignants) peuvent tre
mises en relation par la
dimension temps et gographie.
date_du_chargement
jour
jour_semaine
mois
trimestre
anne
lib_temps
date_du_chargement
code_etudiant
code-etudiant
date_de_chargement
numero-etudiant
nom
prenom
code_composante
Identite_etudiant
date_du_chargement
code_pers
code_profil_pers
Table de faits enseignants
Table de faits tudiants
Modlisation dun Data warehouse
lib_pays
date_de_chargement
pays
libelle_pays
groupe_pays
libelle_groupe_pays
europe
libelle_europe
lib_pays
code_profil_etudiant
nb_heures_eq_td
nb_heures_eq_tp
mesures
code_pru
date_de_chargement
libelle_profil_etudiant
lib_profil_etudiantcode_composante
lib_pays
date_de_chargement
code_composante
libelle_composante
lib_composante
-
LOLAP ou Online Analytical Processing est une technique informatique d'analyse multidimensionnelle, qui permet aux dcideurs, d'avoir accs rapidement et de manire interactive une information pertinente
Le Concept OLAP
de manire interactive une information pertinente prsente sous des angles divers et multiples, selon leurs besoins particuliers. A titre dexemple on peut reprsenter de faon graphique des informations contenues dans une base de donnes, sous la forme d'un cube plusieurs dimensions, lequel cube permet d'analyser ces donnes sous diffrents angles, grce l'organisation de celles-ci en axes d'analyses et en variables analyser.
-
OLAP et Data WarehouseIl est important de distinguer les capacits dun data warehouse de celles dun systme OLAP. Contrairement un data warehouse qui se base le plus souvent sur une technologie relationnelle, OLAP utilise des vues technologie relationnelle, OLAP utilise des vues multidimensionnelles de donnes agrges afin de permettre un accs rapide des informations stratgiques pour une analyse plus fine. "
-
OLAP et Data WarehouseOLAP est un mode de stockage prvu pour lanalyse statistique des donnes. Une base de
donnes OLAP peut se reprsenter comme un cube N dimensions o toutes les
intersections sont pr-calcules.
Lexemple suivant ne possde que trois dimensions pour que lon puisse le reprsenter visuellement mais ce nest en aucun cas une limite. Il sagit dun cube reprsentant les
ventes de fruits dune entreprise. Les trois axes reprsents sont :
Le pays de vente
Le type de fruit
La priodeLa priode
-
Les 12 rgles OLAP: Vue multidimensionnelle.
Transparence du serveur OLAP a diffrents types de logiciels.
Accessibilit a de nombreuses sources de donnes.
Performance du systme de Reporting.
Le Concept OLAP
Performance du systme de Reporting.
Architecture Client/serveur.
Dimension gnriques.
Gestion dynamique des matrices creuses.
Support multi-utilisateurs.
Calculs a travers les dimensions.
Manipulation intuitive des donnes.
Souplesse et facilit de constitution des rapports.
Nombre illimit de niveaux dagrgation et de dimensions
-
Analyse MultidimentionnelleLes serveurs OLAP ont t conus pour sintgrer dans un environnement
client/serveur afin den retirer les possibilits offertes.
4000
8000
1000
TEMPS
80007000
120004000
PRODUIT
CLIENT
-
Analyse Multidimentionnelle1- obtenir des informations dj agrges selon les besoins de lutilisateur.2- simplicit et rapidit daccs3- capacit manipuler les donnes agrges selon diffrentes dimensions4- un cube utilise les fonctions classiques dagrgation : min, max, count, sum, avg, mais peut utiliser des fonctions dagrgations spcifiques.
-
Analyse Multidimentionnelle
-
LES DIMENSIONS
LES VARIABLES
Analyse Multidimentionnelle
LES VARIABLES
Lutilisateur formulera alors ses requtes en prcisant les indicateurs a analyser(le chiffre daffaire),les dimensions sur lesquelles ces analyseurs doivent tre projetes (le produit et le client) et la population a observer (le mois mars 2010)
-
Cube de donnes
Date
2002 350 600 300NumFou
NumPro
Date
F1
F2
P1 P2 P3
2000
2001
2002
250
300
350
500
600
400
300
200
Le multidimensionnel
-
La granularit des dimensions
Jours AnnesTrimestresMoisTemps
PaysRgionsVillesGographie
GammesTypesNumrosProduits Marques
Le multidimensionnel
-
Exemple Montant des ventes fonction de (Mois, rgion, Produit)
Granularit des dimensions :
P
r
o
d
u
i
t
Mois
Type Rgion Anne
Catgorie Pays Trimestre
Produit Ville Mois Semaine
Magasin Jour
:
Le multidimensionnel
-
CA
Projection en 2 dimensions Coupe d un cubeProduits
CA
Produitspour une rgion donne
La navigation multidimensionnelle
France
Sud
Marseille NiceLyon
Est Ouest
Rduction selon 1 dimensionZoom selon une dimension
Rgion
Produits
Temps en mois
Temps en semaines
CA
Le multidimensionnel
-
ExempleLa figure suivante presente un cube de donnees forme de montants de vente
en cellules et de trois aretes graduees respectivement par des categories de produits, des
villes de magasins et des trimestres. La notion de cube de donnees ne se limite pas a trois
axes mais se generalise en hyper-cube ou le nombre daxes est quelconque pouvant aller
jusqua plusieurs dizaines.
-
Structure de visualisationIl sagit dune vision synthtique et prcise des donnes que les dcideurs apprhendent
facilement. Elle drive directement de la mtaphore du cube de donnes puisquelle peut tre considre comme la tranche du cube de donnes comme lillustre la figure suivante.
-
Navigation dans les donnes: DRILL-DOWN,DRILL-UP
Le drill-down/up dsigne la facult daller du niveau global vers le niveau dtaill ,et inversement.
Analyse Multidimentionnelle
Ce mcanisme est totalement bas sur la notion de hirarchie
SLIDE AND DICE
Dsigne la possibilit de faire pivoter dynamiquement les axes du tableau danalyse croise.
DATA SURFING
La possibilit laisse a lutilisateur de circuler librement, de manire intuitive et ergonomique dans un modle dimensionnel, lutilisateur peut alors modifier dynamiquement ses axes danalyse ou appliquer un nouveau filtre a ses donnes.
-
LES DIFFERENTS OUTILS OLAP
Deux versions d'OLAP s'affrontent actuellement:
Les outils MOLAP (Multidimensional OLAP) d'une part qui s'appuient sur une base de donnes part qui s'appuient sur une base de donnes multidimensionnelle.
Les outils ROLAP (Relational OLAP) d'autre part, qui reprsente leur quivalent sur une base de donnes relationnelle.
-
LES OUTILS ROLAP
Data Warehouse Moteur ROLAP Aide la dcision
Donnes Traitements Prsentation
RapportsMulti-Dimensionnel
Gnration de plansd'excution SQLafin d'obtenir des
fonctionnalits OLAP.
Stockage desdonnes dtailles (et
agrges) etdes mta-donnes
-
LES OUTILS ROLAP
Lapproche la plus rpandue consiste a stocker les bases de donnes
multidimensionnelles dans un environnement relationnel : on parle de lapproche Relational OLAP (R-OLAP).
Dans le contexte relationnel, la BDM est traduite par des relations. Cette
Dans le contexte relationnel, la BDM est traduite par des relations. Cette approche procure de nombreux avantages : reutilisation des mecanismes de gestion des donnees prouves depuis des dcennies et capacite a gerer des volumes de donnees tres importants.
-
LES OUTILS MOLAP
Data Warehouse Moteur MOLAP Aide la dcision
Donnes Traitements Prsentation
RapportsMulti-Dimensionnel
Stockage desdonnes dtailles (et
agrges)
-
LES OUTILS MOLAP
Une autre approche consiste a dvelopper une technologie ddie a la gestion des structures multidimensionnelles. Cette approche dite Multidimensionnel OLAP (M-OLAP) vise a offrir des niveaux levs de performance. Les bases M-OLAP stockent les donnes nativement sous une forme multidimensionnelle : il sagit dune application
sous une forme multidimensionnelle : il sagit dune application physique du concept de cube. Les bases de donnes de type M-OLAP restent limites dans leur capacit a grer dimportants volumes de donnes (au-del du gigaoctet) et se heurtent a la ncessit de dvelopper spcifiquement et entirement tous les mcanismes des systmes de gestion de base de donnes.
top related