business intelligence présentation. sommaire 1.le système dinformation décisionnel 2.les modèles...
TRANSCRIPT
Business IntelligencePrésentation
Sommaire
1. Le système d’information Décisionnel
2. Les modèles de données
3. Le Data Mining
4. L’offre BI de Microsoft
5. Les nouveautés avec SQL Server 2012
La BI pour qui ? Pourquoi ?
La chaine décisionnelle
Proactif
Interactif
Passif
Présentation Exploration Découverte
Outils BI
Rendu
Reporting de masse
Reporting Adhoc
OLAP
Data Mining
Définitions – Vocabulaire
• Infocentre = Base de données dédiée à l’analyse d’une application A l’origine des “copies” de base de production
• Staging Area : Espace de stockage temporaire des données provenant des différentes sources. C’est un lieu où l’on va pouvoir stocker des données qui arrivent à des moments différents. C’est une zone d’attente, une “salle d’embarquement”.
• ODS (Operating Data Store)– Lieu où vont être effectuées les transformations, les croisements, etc. C’est l’étape juste avant
l’alimentation du Datawarehouse et il utilise, comme source la Staging Area.– Le modèle de données de l'ODS est un modèle relationnel classique assez proche des modèles de
production– Ce « sas » assure l'isolation des mondes "opérationnel" et "décisionnel" (performances,
exploitabilité...)
• Datawarehouse = Entrepôt de données, destiné à centraliser, nettoyer, et uniformiser les données de l’entreprise à des fins de reporting et d’analyse. Il stocke l’historique des données avec la granularité la plus fine,
• Data Mart : Entrepôt de données dédié à un métier particulier. Il est situé en aval du Datawarehouse
Architecture cible
Source OLTP
Infocentre (Miroir OLTP)
Staging Area
ODS
DataWarehouse
Data Mart1OLAP Cubes
Outils Clients(Excel, Proclarity…)
Reporting Custom
Data Mining
Data Mart2
Modélisation
Stockage Multidimensionnel
Restitution
Typologie et périmètre des projets décisionnels
• Un SID (système d’information décisionnel), c’est : « un système permettant aux utilisateurs de l’entreprise de disposer d’informations pertinentes et d’outils d’analyse puissants pour les aider à prendre les bonnes décisions au bon moment » (Bill Inmon)
• Un projet décisionnel est réussi quand l’utilisateur dit : « J’ai l’information, elle est sûre, je la comprends, donc je l’utilise »
Modélisation BI
KIMBALL :• Tables de fait , Tables de Dimensions• Stockage dénormalisé des données
Inmon’s:• S ’appuie sur une modélisation en BD relationnelle complexe• Les données sont stockées dans la 3éme Forme Normale (3NF)
Lequel Choisir?• Traditionnellement la modélisation Kimbal est utilisée• Kimball permet un Feedback rapide / demandes métier
La pierre angulaire d’un système décisionnel
Le modèle de donnée
OLTP (Online Transaction Processing )Reporting opérationnel
OLAP (Online Analytical Processing )Pilotage métier et entreprise
OLTP VS OLAP
• Time-critical• In-place data update• Current data (‘Snapshot’)• Functional transaction focus
• Store details only
• Only keeps company internal data
• Small delays tolerable• Append only• Historical and current data• Reporting (information
delivery) focus• Store summary + details
(e.g. counts and aggregates)• Warehouse also keeps external data
(e.g. customer demographics)
OLTP OLAP
Les modèle de données ROLAP
Schéma en étoileSchéma en flocon
Economie de jointures à l'interrogation
Perte en espace de stockage
Gain en espace de stockage
Performance d’interrogations affectées
Les technologies Multidimensionnelles
Le Data Mining
QU'EST-CE QUE LE DATA MINING ?C’est l'exploration et l'analyse de grandes quantités de données afin de découvrir des formes et des règles significatives en utilisant des moyens automatiques ou semi-automatiques.
Basé sur des méthodes mathématiques +/- complexes : • Méthodes de tri : Les algorithmes de Data Mining• Technique: Statistique• Résultat: Prédiction, estimation, classification
Crédit Accordé (Oui/Non)
Statut
AgeSexe
Les Algorithmes de Data Mining
-Naive Bayes-Arbre de décision-Réseaux de neurones-Réseaux Bayesiens-Régression logistique
Classification
- Arbre de décision-Régression linéaire-Réseaux de neurones-Régression logistique
Estimation
- Clustering
Cluster
- Time Series
Forecast
-Règles d’Association-Arbre de décision
Association
Analyse supervisée (Y=fct(x1,x2…xn)) Analyse Non-supervisée (pas de sortie à classer)
Sans le savoir, vous utilisez le Data Mining tous les jours!Eg: Mozilla Thunderbird et Microsoft Outlook utilisent le classifier Naive Bayes pour filtrer les spam de vos mails.
Exemple de Data Mining:
• Entreprise : banque• Activité : prêts hypothécaires• Problème : accepter ou refuser une demande de crédit ?• Solution: Analyser les données historiques : solvabilité
observée lors des anciens crédits pour prévoir la solvabilité des Nouveaux demandeurs de crédit
Crédits anciens (Oui/Non)
• Sexe=M• Statut=M• Age=60• …• Crédit=Oui
Modèle
• Arbre de Décision
Prédire nouvelle Demande de crédit
• Sexe=M• Statut=D• Age=45• …• Crédit =?
Quelques possibilités d'utilisation
Marketing• Quel profil de client cibler lors d’une campagne marketing ?• Quels clients sont susceptibles de réagir à une promotion
déterminée ? (CRM)• Quels produits offrir à quels clients ? (Eg: Amazone)
Finances• Quels produits financiers proposer à quels clients ? • Comment détecter une faillite prochaine ? (Crise Boursière)
Télécommunications• Quels clients sont susceptibles de nous quitter ?• Quel est le profil des clients très rentables,
et des clients pas ou peu rentables ?
L’offre BI de Microsoft
• Data Mining
• Reporting
• OLAP• Base de Données
SQL Server
2008 R2SSAS
SSAS, XLs
2010SSRS
SSIS
Architecture fonctionnelle avec Microsoft BI
Data Mining
SQL Server Management StudioSQL Server Management Studio est un environnement intégré qui permet d'avoir accès, de configurer, de gérer, d'administrer et de développer tous les composants de SQL Server.
SQL Server Management Studio associe un groupe d'outils graphiques à des éditeurs de script T-SQL, MDX, …
SQL Server Integration Services
• Au-delà du simple transfert des données d’une source vers une destination, l’ETL sert à :– Ordonnancer des taches– Nettoyer les données transférées– Augmenter la puissance de traitement pour faire face à l’accroissement
constant des volumes de données– Prendre en charge la totalité de la chaîne de traitement, c’est-à-dire d’être
à même de mettre à jour les cubes OLAP construits à partir des entrepôts de données mis à jour
• À l’aide d’outils de débogage, les développeurs peuvent définir des points d’arrêts sur les packages, les conteneurs, les événements de tâches et les observateurs de données pour surveiller les données pendant leur passage dans le flux.
Extraire Transformer Charger
SQL Server Reporting Services
• SQL Server Reporting Services est un outil de génération de rapports d’entreprise.
• Le générateur de rapports, autorise les utilisateurs à : • Créer leurs propres rapports : reporting Had-hoc avec ReportBuilder• S’abonner à des rapports (Pull/Push)• Exporter les rapports en différents formats
SQL Server Analysis Services
• SQL Server Analysis Services permet de concevoir, de créer et de gérer des structures multidimensionnelles qui contiennent des données agrégées provenant d'autres sources de données
Le Data Mining avec Xls 2010
il s’agit d’utiliser de manière transparente et naturelle de puissants outils statistiques. Des analyses prédictives rendues possibles directement depuis Excel 2007 grâce à l’add-in nommé « SQL Server 2008 Datamining pour Excel.»
Portail Collaboratif (SharePoint 2010)• Les technologies SharePoint apportent :
– Un portail d’entreprise qui intègrent tous les composants de Microsoft Business Intelligence : rapports, analyses, tableaux de bord, Scorecards, feuilles Excel, …
– La BI collaborative pour agir après l’analyse.– Des fonctionnalités clés telles que la recherche, la gestion de contenu, la collaboration, la
visualisation de feuilles Excel en mode web.
Microsoft SQL Server 2012 : Denali
High Availability
EDIM
Windows Server Core Support
SSIS Server
Security & Manageability
User-Defined Server Roles
Web & Breadth
PHP Driver
Scalability and
Performance
15 000 partitions/table
Business Intelligence
Unified Semantic Model
Data Lineage
Database Replay
Semantic Platform
Crescent
Application Centric Failover
Data Quality
Contained Database Authentication
LocalDBFast FileStream
UTF-16
Online Operations
Fast Full Text
Alerting
Enhanced MDS
In-memory BI for corporate
Impact AnalysisSQL StudioReliable & Integrated Failover Detection
Multiple Readable Secondaries
Audit Enhancements
Paging for result sets
Column store DataWarehouse
Win32 access to database files
HA for StreamInsight Full Globe
Spatial Support
DAC Enhancements
Sysprep for AS
Management Pack for High Availability
Backup Secondaries
ODBC for Linux
JDBC 4.0 driver
SSMS Enhancements
FileTablePowerPivot Enhancements
AlwaysOn Reporting as SharePoint Shared Service
Merci …
Unified Semantic Model
Projet Crescent : Power View
Projet Crescent : Power View