chapitre 1 introductionfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · les dwh...

48
1 FBR. ISG. 2020 Advanced data warehouse Mastère Professionnel Data science for business FBR. ISG. 2020 Fahmi Ben Rejab CHAPITRE 1 INTRODUCTION Année universitaire 2020/2021

Upload: others

Post on 15-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

1FBR. ISG. 2020

Advanced data warehouse

Mastère Professionnel Data science for business

FBR. ISG. 2020

Fahmi Ben Rejab

CHAPITRE 1

INTRODUCTION

Année universitaire 2020/2021

Page 2: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

2FBR. ISG. 2020

HISTORIQUE

GÉNÉRATION DES SGBDGestion de projet Informatique

Mastère Pro. DSB

Hiérarchies, Réseaux

SGBD 1

1960 - 1970 - 1980

Relationnels

SGBD 2

1970 - 1980 - 1990

Avancés

SGBD 3

1980 - 1990 - 2000

Avancés

SGBD 4/5

2000 - 2010

BIG DATA,

2010 - 2020

Page 3: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

3FBR. ISG. 2020

HISTORIQUE

APPLICATIONSGestion de projet Informatique

Mastère Pro. DSB

Applications : Paie, Marketing, Financière

(50 tables de quelques milliers de lignes) 50 Mo

Applications : Gestion des risques, ERP, Analyse des ventes

(100 tables de quelques millions de lignes) 2 Go

Intégration de plusieurs systèmes d’information nationaux et internationnaux)

Entrepôts de données (grosses masses de données)

(milliers de tables de quelques millions de lignes) > 100 Go

Fouille de données

(Analyse du comportement des clients, etc.)

BIG DATA, Entrepôt de données avancés

Téraoctets par jour, Pétaoctets par an

(Applications analytique, prise de décision, analyse prédictive)

Page 4: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

4FBR. ISG. 2020

HISTORIQUE

APPLICATIONSGestion de projet Informatique

Mastère Pro. DSB

Page 5: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

5FBR. ISG. 2020

HISTORIQUE

APPLICATIONSGestion de projet Informatique

Mastère Pro. DSB

Applications : Paie, Marketing, Financière

(OLTP: quelques secondes) (Batch : < 1 heure)

Applications : Gestion des risques, ERP, Analyse des ventes

(Batch : < 1 heure)

Entrepôts de données

(OLTP : < 10 secondes) (OLAP < 1 heure)

( agrégation, ...) (Batch : Quotidien ou mensuel < 1h)

Grosse volumétrie : travail d’optimisation et suivi des activités du DWH nécéssaire

Par expérience, certains traitements ne se terminent pas

Nécessité de modifications techniques et fonctionnelles au bout de quelques jours

Applications : Génome, Astronomie

Analyse climatique, Physique quantique,

Analyse tendancielle

(Temps réel)

Page 6: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

6FBR. ISG. 2020

HISTORIQUE

STRUCTURE ET TYPE DE DONNÉEESGestion de projet Informatique

Mastère Pro. DSB

Page 7: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

7FBR. ISG. 2020

HISTORIQUE

EXEMPLES DES SGBDGestion de projet Informatique

Mastère Pro. DSB

SGBD 1

COADSYL, SOCRATE ………

SGBD 2

ORACLE 5/6 INGRES, DB2, ...

SGBD 3

ORACLE 7/8, INGRES, DB2, Sybase,Verssant Enjin (O2),

ObjectStore, Orlent, SQLServer, ACCESS,... MySQL, PostGreSQL,

SGBD 4/5

ORACLE 9i, 10g, 11g, 12c

SQLServer, DB2, ... XML, ...

BIG DATA

MapReduce, Hadoop

Teradata, Oracle

Page 8: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

8FBR. ISG. 2020

HISTORIQUE

QUELLE QUANTITÉ D’INFORMATION ? SOUS QUELLE FORME ?Gestion de projet Informatique

Mastère Pro. DSB

Taux de croissance annuel de données est de 50 %

Comment accéder à ces données, tirer partie de ces données ?

→ Les bases de données ne suffisent plus !

Page 9: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

9FBR. ISG. 2020

HISTORIQUE

DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique

Mastère Pro. DSB

Page 10: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

10FBR. ISG. 2020

HISTORIQUE

DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique

Mastère Pro. DSB

La majeure partie des applications Bases de Données reposentaujourd’hui sur trois couches :

Graphical User Interfaces GUILa couche la plus externe est celle de qui permet de présenter

les données aux utilisateurs.

La couche applicationLa couche application intermédiaire inclut le programme de l’application

Elle ne stocke pas les données.

la couche Base de DonnéesLa couche la plus interne gère le stockage des données.

Page 11: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

11FBR. ISG. 2020

HISTORIQUE

DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique

Mastère Pro. DSB

Page 12: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

12FBR. ISG. 2020

HISTORIQUE

DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique

Mastère Pro. DSB

• Les applications interrogent les données avec, par exemple, le langage SQL

Select

et les mettent à jour par l’intermédiaire des opérations

Insert, Update et Delete

qui constituent des transactions.

• Celles-ci doivent avoir certaines propriétés ACID (Atomicité, Cohérence, Isolation et

Durabilité)

• Ce type d’application est appelé On-Line Transaction Processing

OLTP

Page 13: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

13FBR. ISG. 2020

INTRODUCTION

DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique

Mastère Pro. DSB

Données volumineuses & Besoins nouveaux

• Rapports,

• Etats,

• Tableaux de Bord (KPI),

• Graphiques,

• Synthèses,

• Groupement,

• Agrégat,

• Résumé

• ...

Les éléments d’un DSS (SID)

Page 14: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

14FBR. ISG. 2020

INTRODUCTION

DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique

Mastère Pro. DSB

▪ Contrairement aux applications OLTP, qui consultent et mettent à jour

les données des BD opérationnelles,

▪ les DSS lisent les données seulement pour avoir de nouvelles

informations à partir des données sources

▪ Bénéfice de cette approche : seules les BD opérationnelles doivent

être créées et maintenues

▪ Un ensemble de méta-données est utilisés pour les 2 systèmes.

▪ Les DSS ne nécessitent que des travaux supplémentaires mineurs.

Page 15: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

15FBR. ISG. 2020

INTRODUCTION

DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique

Mastère Pro. DSB

Cependant, il y a plusieurs désavantages :

Quand le DSS et les application OLTP se partagent les mêmes BD

Un DSS ne peut utiliser que les données actuellement stockées dans les BD donc les analyses

historiques sont souvent impossibles à cause des opérations de mises à jour qui changent les

données historiques.

L’utilisation des BD en mode multi-utilisateurs

Ce qui implique des opérations de verrouillage des données (Locking operations) et donc des

problèmes de performance car les requêtes analytiques demandent l’accès à de très grands

nombre de tuples.

Page 16: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

16FBR. ISG. 2020

INTRODUCTION

DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique

Mastère Pro. DSB

La solution est de séparer

La BD orientée

Transaction

La BD orientée Aide à la

Décision

d’où la naissance du concept

Entrepôt de Données = Data Warehouse

Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles)

Page 17: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

17FBR. ISG. 2020

INTRODUCTIONDÉFINITION DU DATA WAREHOUSE

Gestion de projet Informatique

Mastère Pro. DSB

▪ Le Data Warehouse est une collection de données orientées sujet,

intégrées, non volatiles, historisées, organisées pour le support d’un

processus d’aide à la décision

▪ Un système de DWH peut être formellement défini comme un triplet

<BD cible, méta-données, un ensemble d’opérations>

Page 18: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

e) Administration

a) Collecte

Finances

Marketing

1.0

Organiser

les données

via ETL

Comptoir

de

données

Contrôle

Qualité

Ressources

humaines

Production

Sources:- Richardson, James, Schlegel, Kurt, Sallam, Rita L., Hostmann, Bill, Gartner Inc, Magic Quadrant for Business Intelligence Platforms, 16 janvier 2009.

b) Intégration

2.0

Gérer les

métadonnées

Entrepôt

central de

données

c) Diffusion

3.0

Diffuser

l’information

stratégique

Analyses

OLAP

d) Présentation

Usager

4.0

Activer

une

requête

1Requêtes

Requêtes

sulta

ts

Administration

C'est la fonction transversale qui supervise la bonne exécution

de toutes les autres. Elle pilote le processus de mise à jour

des données, la documentation sur les données (les méta-

données), la sécurité, les sauvegardes, la gestion des incidents.

INTRODUCTIONARCHITECTURE DU DATA WAREHOUSE

Gestion de projet Informatique

Mastère Pro. DSB

Page 19: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

19FBR. ISG. 2020

INTRODUCTIONDÉFINITIONS

Gestion de projet Informatique

Mastère Pro. DSB

▪ Le DWH intègre des données à partir de sources multiples et hétérogènes

afin de répondre aux requêtes du système d’aide à la décision.

▪ Ce type d’application est appelé On-Line Analytical Processing OLAP

▪ OLAP permet la transformation des données en informations stratégiques

La différence en données, informations, connaissances, sagesse…???

Page 20: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

Données

Information présentée

sous forme

conventionnelle,

en vue d'être traitée

Informations

Une information est

une donnée à laquelle

un sens et une

interprétation ont été

donnés

ConnaissancesRègles utilisant les

informations et les

données pour en déduire

d'autres

INTRODUCTIONDÉFINITIONS

Gestion de projet Informatique

Mastère Pro. DSB

Page 21: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

INTRODUCTIONDÉFINITIONS

Gestion de projet Informatique

Mastère Pro. DSB

Page 22: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

22FBR. ISG. 2020

INTRODUCTIONANALYSE OLAP (ON-LINE ANALYTICAL PROCESSING)

Gestion de projet Informatique

Mastère Pro. DSB

• Techniques OLAP :

apparition en recherche dans les années 70

développement à partir des années 90 dans l’industrie

▪ Réalisation de synthèses, d’analyses et de la consolidation dynamique de données

multidimensionnelles

▪ Manière la plus naturelle d’exploiter un ED étant donné son organisation

multidimensionnelle

Page 23: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

23FBR. ISG. 2020

INTRODUCTIONFOUILLE DE DONNÉES (DATA MINING)

Gestion de projet Informatique

Mastère Pro. DSB

• Data Mining

• Recherche de connaissances cachées dans les données (modèle de comportement)

• Domaine jeune à l’intersection de l’Intelligence Artificielle, les Statistiques, les BD

• Méthodes : régression linéaire, arbres de décision, réseaux de neurones, ...

• Intégration croissante dans les entrepôts

Page 24: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

24FBR. ISG. 2020

INTRODUCTIONDATA SCIENCE & DATA WAREHOUSE

Gestion de projet Informatique

Mastère Pro. DSB

Data Science & Data WareHouse

• Pour les entreprises, une plateforme Data Warehouse est une façon pratique

de visualiser le passé sans affecter les opérations quotidiennes. En effectuant

des requêtes et des analyses de données au sein de Data Warehouse,

• Les entreprises peuvent améliorer leurs opérations et leur efficience, et ainsi

augmenter leurs revenus et leurs bénéfices.

• Progrès importants sont effectués dans ce domaine (DWH)

Page 25: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

25FBR. ISG. 2020

INTRODUCTIONVISUALITION DES INFORMATIONS

Gestion de projet Informatique

Mastère Pro. DSB

• Objectif: Faciliter l’analyse et l’interprétation de données

Synthèse des données de l’entrepôt

→ Conversion des données complexes de l’entrepôt

• en images,

• en graphiques 2D et 3D

• en animations

Page 26: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

26FBR. ISG. 2020

INTRODUCTION

DES BASES DE DONNÉES AUX ENTREPÔTS DE DONNÉES ?Gestion de projet Informatique

Mastère Pro. DSB

Pourquoi pas des SGBDs pour les entrepôts de données ?

Les 2 systèmes sont performants

• SGBD : calibré pour l’OLTP ; méthodes d’accès index, contrôle de concurrence,

reprise

• Entrepôt : calibré pour l’OLAP ; requêtes OLAP complexes, vue dimensionnelle,

consolidation

Fonctions et données différentes

• Données manquantes : l’aide à la décision (AD) a besoin des données historiques

qui ne se trouvent pas dans les BD opérationnelles

• Consolidation : l’AD a besoin de données consolidées (agrégats) alors qu’elles sont

brutes dans les BD opérationnelles

Page 27: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

27FBR. ISG. 2020

INTRODUCTIONCOMPARAISON

Gestion de projet Informatique

Mastère Pro. DSB

Data WareHouse vs. BD opérationnelle

OLTP (On-Line Transaction Processing)

Exécution en temps réel des transactions, pour l’enregistrement des opérations

quotidiennes : inventaires, commandes, paye, comptabilité

OLAP (On-Line Analytical Processing)

Traitement efficace des requêtes d’analyse pour la prise de décision qui

sont par défaut assez complexes (bien qu’a priori, elles peuvent être réalisées par

les SGBD classiques)

Page 28: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

28FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSBINTRODUCTION

COMPARAISON

Page 29: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

29FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSBINTRODUCTION

ARCHITECTURE MULTI-TIERS

Oracle 12c

Page 30: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

30FBR. ISG. 2020

HISTORIQUECONCEPTION LOGIQUE DES DWH

Gestion de projet Informatique

Mastère Pro. DSB

Données multidimentionnellesMontant des ventes en fonction des paramètres produits, mois, région

Page 31: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

31FBR. ISG. 2020

INTRODUCTION

DOMAINES D’APPLICATION: INFORMATIQUE DÉCISIONNELLEGestion de projet Informatique

Mastère Pro. DSB

Entrepôt de données

• Outils de veille stratégique et de recueil d’information

(intelligence économique)

• Aide aux décideurs pour prendre les bonnes décisions sur la

base des données disponibles

Exemple :

• Quels sont les 5 produits les plus vendus pour chaque sous-catégorie de produits qui

représente plus de 20% des ventes dans sa catégorie de produits ?

• Quelle est la priorité d’expédition et quel est le revenu brut potentiel des commandes de

livres qui ont les 10 plus grandes recettes brutes parmi les commandes qui n’avaient pas

encore été expédiées ?

Page 32: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

32FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSB

Commerce, finance, transport, télécommunications, santé, services,

• gestion de la relation client

• gestion des commandes, des stocks

• prévisions de ventes

• définition de profil utilisateur

• analyse de transactions bancaires

• détection de fraudes

• ...

INTRODUCTION

DOMAINES D’APPLICATION: INFORMATIQUE DÉCISIONNELLE

Page 33: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

33FBR. ISG. 2020

OPÉRATIONS Gestion de projet Informatique

Mastère Pro. DSB

Extraction (Extraction) :

Ces opérations permettent de filtrer les données à partir de données

sources (BD, fichiers, sites web...) dans des BD temporaires.

Transformation (Transformation) :

Ces opérations permettent de transformer les données extraites dans un

format uniforme.

Les conflits entre les modèles, les schémas et les données sont résolus

durant cette phase.

Chargement (Load) :

Ces opérations permettent de charger les données dans le DWH.

La BD cible est souvent implantée avec un SGBD relationnel-objet.

Agrégat et Groupement (Agregating and Grouping) :

La BD cible doit permettre de stocker les données opérationnelles et les

données issues de calculs.

Page 34: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

34FBR. ISG. 2020

ARCHITECTURE FONCTIONNELLE

DATA WAREHOUSE

Gestion de projet Informatique

Mastère Pro. DSB

Les données d’un entrepôt se structurent suivant

un axe synthétique : établissement d’une hiérarchie d’agrégation incluant

- les données détaillées : les événements les plus récents

- les données agrégées : synthèse des données détaillées

- les données fortement agrégées : synthèse à un niveau supérieur des

données agrégées

un axe historique

incluant les données détaillées historisées représentant les événements passés

→ Stockage des méta-données : informations concernant les données de l’ED

(provenances, structures, méthodes utilisées pour l’agrégation, ...)

Page 35: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

35FBR. ISG. 2020

DATA WAREHOUSES ET DATA MARTS

ARCHITECTURE FONCTIONNELLEGestion de projet Informatique

Mastère Pro. DSB

Entrepôts de données

Collecte l’ensemble de l’information utile aux décideurs à partir des sources de

données (BD opérationnelle, BD externes, ...)

Centralisation de l’information décisionnelle

Garantie de l’intégration des données extraites et de leur pérennité dans le

temps

Magasins de données

Orientés sujet

Aide efficace aux processus OLAP

Extraction d’une partie des données utiles :

pour une classe d’utilisateurs ou

pour un besoin d’analyse spécifique

Page 36: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

36FBR. ISG. 2020

DATA WAREHOUSES ET DATA MARTS

CALCUL, STOCKAGE, ORGANISATION Gestion de projet Informatique

Mastère Pro. DSB

Entrepôts de données

Puissantes machines pour la gestion de très grandes bases de données de

détail historisées

Lieu de stockage centralisé d’un extrait des bases de production

Organisation des données suivant un modèle facilitant la gestion efficace des

données et leur historisation

Magasins de données

Petits entrepôts avec une infrastructure plus légère, mise en œuvre rapide

Données extraites d’un ED ou de BD existantes pour un besoin d’aide `a la

décision particulier

Organisation des données suivant un modèle facilitant les traitements

décisionnels

Page 37: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

37FBR. ISG. 2020

DATA WAREHOUSES ET DATA MARTS

DATA WAREHOUSE VS DATA MARTGestion de projet Informatique

Mastère Pro. DSB

Page 38: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

38FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSB

Hiérarchie de dépôts :

Operational Data Store (ODS)

regroupement des données intégrées

récupération des sources

Corporate Data Warehouse (CDW)

regroupement les vues agrégées

DATA WAREHOUSES ET DATA MARTS

VUE LOGIQUE DE DWH

Page 39: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

39FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSB

DATA WAREHOUSES ET DATA MARTS

VUE LOGIQUE DE DWH

Page 40: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

40FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSB

DATA WAREHOUSES ET DATA MARTS

PROBLÈME DES SOURCES HÉTÉROGÈNES

Chaîne de concessionnaires automobilesconcession 1

vehicules(serie, modele, couleur, autoradio, ...)ex :vehicules(’1234’,’Clio 5p, ’rouge’, ’ABS’, ...)

concession 2automobiles(num serie, modele, couleur)options(num serie, option)ex :automobiles(1234, ’Clio’, ’R’)

automobiles(2345, ’Clio’, ’R’)

options(1234, ’ABS)

Pour un même concept :

schémas différents; noms d’attribut différents;

types de données différents

valeurs différentes; sémantiques différentes

Page 41: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

41FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSB

4 étapes :

1. Sélection des données sources

2. Extraction des données

3. Nettoyage et Transformation

4. Chargement

Etapes 1 et 2 : Jusqu’`a 80 % du temps de développement d’un entrepôt

outil : Oracle Warehouse Builder (OWB)

DATA WAREHOUSES ET DATA MARTS

PROCESSUS D’ALIMENTATION D’UN DWH

Page 42: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

42FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSB

Quelles données de production faut-il sélectionner pour alimenter l’ED ?

• Définir l’utilité des données sources

• Doit-on prendre l’adresse complète ou séparer le code postal ?

• Réorganiser les données sélectionnées pour qu’elles deviennent des informations

• Faire une synthèse des données sources pour les enrichir

• Dénormaliser les données pour créer des liens entre les données et permettre des accès

différents

PROCESSUS D’ALIMENTATION D’UN DWH1- SÉLECTION

Page 43: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

43FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSB

Un extracteur (wrapper) est associé à chaque source de données

• Sélection et extraction des données

• Formatage des données dans un format cible commun en général le modèle

Relationnel

• Utilisation d’interfaces comme ODB, OCI, JDBC

PROCESSUS D’ALIMENTATION D’UN DWH2- EXTRACTION

Page 44: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

44FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSB

Résolution des problèmes de consistance des données au sein

de chaque source

Remarque

une centaine de type d’inconsistances ont été répertoriées

5 à 30 % des données des BD commerciales sont erronées

PROCESSUS D’ALIMENTATION D’UN DWH3- NETTOYAGE ET TRANSFORMATION

Page 45: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

45FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSB

• Fonctions d’analyse

• Fonctions de normalisation

• Fonctions de conversion

• Usage de dictionnaires de synonymes ou d’abréviations

• Définition de table de règles

→ Utilisation d’expressions régulières, suppression de doublons,

de valeur nulle, ...

PROCESSUS D’ALIMENTATION D’UN DWH3- NETTOYAGE ET TRANSFORMATION

Levenshtein Algorithm?

Exemple en SQL ORACLE?

Page 46: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

46FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSB

PROCESSUS D’ALIMENTATION D’UN DWH3- NETTOYAGE ET TRANSFORMATION

Page 47: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

47FBR. ISG. 2020

Gestion de projet Informatique

Mastère Pro. DSB

Objectif : Stockage des données nettoyées et préparées dans l’ODS

Opération :

• risquant d’être assez longue

• plutôt mécanique

• la moins complexe

Mais il est nécessaire de définir et mettre en place :

• des stratégies pour assurer de bonnes conditions `a sa réalisation

• une politique de rafraîchissement

PROCESSUS D’ALIMENTATION D’UN DWH4- CHARGEMENT

Page 48: CHAPITRE 1 INTRODUCTIONfahmi-benrejab.e-monsite.com/medias/files/01... · 2019-10-18 · Les DWH sont physiquement séparés des SGBD opérationnels (BD opérationnelles) FBR. ISG

Thank You