analyse comparative entre différents outils de bi ... fonctionne sur java enterprise edition et...

12
Analyse comparative entre différents outils de BI (Business Intelligence) : Réalisé par: Encadré par: NAMIR YASSINE PR. L. LAMRINI RAGUI ACHRAF

Upload: lykhuong

Post on 21-Apr-2018

216 views

Category:

Documents


3 download

TRANSCRIPT

Analyse comparative entre

différents outils de BI

(Business Intelligence) :

Réalisé par: Encadré par: NAMIR YASSINE PR. L. LAMRINI RAGUI ACHRAF

Dans le domaine d’économies des Big Data et Open Data, comment faire pour

rendre ces données analysées et présentées sous un format précis et lisible ?

Dans ce rapport, on se contentera au trois des outils les plus utilisés et qui

peuvent répondre aux exigences des entreprises: BIRT, JasperReport, Pentaho.

Mais avant de commencer notre comparaison on doit premièrement définir

c’est quoi un logiciel décisionnel ?

Définition

Informatique et Entreprises : L'informatique décisionnelle joue un rôle prépondérant dans la stratégie, le contrôle et le

pilotage de l'entreprise. Dans un contexte où l'incertitude devient de plus en plus forte,

information et connaissance sont devenues un facteur clé de compétitivité. Dès lors, les

entreprises ont progressivement mis en place des systèmes informatisés permettant d'obtenir

une représentation de l'activité de l'entreprise.

Le rôle du logiciel décisionnel : Le logiciel décisionnel va avoir pour but de regrouper les données des différentes applications

de l'entreprise. Il va représenter, de façon synthétique, une présentation des données

internes et externes. La finalité du logiciel décisionnel consiste alors à donner aux managers

et aux gestionnaires, des outils afin de suivre l'activité économique, la santé financière et la

gestion de projets. Il sert de support à la prise de décision. Par ailleurs, il faut mettre en

évidence l'environnement actuel. Aujourd'hui, le contexte dans lequel l'entreprise évolue

repose sur la richesse de l'information. En effet, la période présente que l'on pourra qualifier

par la surabondance d'informations va affecter le processus décisionnel puisque la recherche

d'une information fiable et certaine, à l'inverse d'une information obsolète ou erronée; peut

entraîner une mauvaise décision. Finalement, le logiciel décisionnel est là pour clarifier et

aider ce processus complexe et capital pour l'entreprise.

BIRT :

Définition et fonctionnalités: BIRT a été créé par l’entreprise ACTUATE, éditeur OPEN SOURCE spécialisé dans la "BUSINESS

INTELLIGENCE", ce logiciel fait partie de la famille des logiciels décisionnels. Les principaux

outils de BIRT sont représentés par un environnement de conception de rapports, de tableaux

et de graphiques basés sur l'environnement ECLIPSE et un moteur d'exécution basé sur un

serveur d’application de type J2EE, par exemple un serveur TOMCAT ou un serveur JBOSS.

Le rapport BIRT Designer dispose d'un riche ensemble de fonctionnalités, est robuste, et se

comporte bien. Son évaluation est élevée en termes de facilité d'utilisation avec son interface

utilisateur intuitive. Une différence importante avec les autres outils est le fait qu'il présente

des rapports principalement sur le Web. Il manque un vrai serveur de rapports, mais en

utilisant le Viewer sur un serveur d'applications Java, vous pouvez fournir aux utilisateurs

finaux avec une interface web à rendre et à afficher des rapports.

Si vous recherchez de l'aide, vous pouvez consulter la communauté BIRT ou le Centre des

développeurs chez Actuate. Le projet prévoit également une documentation complète et un

Wiki.

BIRT est sous licence Eclipse Public License. Ce est la plus récente 4.3.2 de libération, qui

fonctionne sur Windows, Linux et Mac, peut être téléchargé ici. Le développement actuel est

partagée à travers son plan de projet le plus récent.

JasperReport :

Définition et fonctionnalités: Jaspersoft est l'outil décisionnel le plus utilisé dans le cadre professionnel grâce à son

architecture flexible et sa gamme de fonctionnalités complètes de reporting, tableaux de

bord, requêtes et rapports ad-hoc, analyse OLAP ou encore intégration de données. Pour

chaque entreprise, il est primordial de prendre des décisions bien structurées, au bon

moment, sur les sites mêmes d’exploitation comme au sein des équipes de gestion et de

direction. Le logiciel décisionnel Jaspersoft est donc conçu pour répondre à tous les besoins

minutieux, pour tout type d’utilisateur, grâce à une vaste série de fonctionnalités de création

de requêtes, de rapports et d’analyses.

Jaspersoft apporte des éléments utiles et exploitables en fonction des besoins de l'entreprise,

de sorte qu'ils permettent à celle-ci :

De participer à la prise de décision au bon moment, notamment grâce à la mise en

place de tableaux de bord communicatifs et participatifs

D’optimiser les résultats d’activité en s’appuyant sur la simplicité d’utilisation de

l’analyse (OLAP) multidimensionnelle qui va permettre aux analystes d'effectuer

aisément des extractions sélectives et de visualiser les données selon plusieurs points

de vue

De savoir évaluer les enjeux par service ou pour toute l’entreprise grâce à des

entrepôts de données reposant sur des fonctionnalités ETL, autrement dit grâce à

l'extraction de données.

Pentaho :

Définition et fonctionnalités : Contrairement aux deux outils précédents, Pentaho (BI) Suite est une intelligence d’affaires

complètes, couvrant toute la gamme de rapports à l'extraction de données. Le Pentaho BI

Suite englobe plusieurs projets open source, dont Pentaho rapports est l'un d'entre eux.

Comme les autres outils, Pentaho rapports possède un riche ensemble de fonctionnalités, prêt

à l'emploi dans les organisations de l'entreprise. D’éditeur visuel de rapport à la plateforme

Web à rendre et à afficher des rapports aux utilisateurs finaux. Et signaler formats tels que

PDF, HTML et plus, la gestion de la sécurité et le rôle et la capacité d'envoyer des rapports aux

utilisateurs.

La suite Pentaho BI contient également le serveur Pentaho BI. C’est une application J2EE qui

fournit une infrastructure pour exécuter et afficher des rapports via une interface utilisateur

basée sur le Web. D'autres composants de la suite sont hors du champ de cet article. Ils

peuvent être consultés sur le site de Pentaho, sous le menu Projets. Pentaho est libéré que les

éditions Enterprise et communautaires.

Le projet Pentaho fournit sa communauté avec un forum, Jira bug tracker, et quelques autres

options de collaboration. La documentation peut être trouvée sur un Wiki.

Pentaho fonctionne sur Java Enterprise Edition et peut être utilisé sur Windows, Linux et Mac.

Conclusion : Tous les trois de ces outils open source de business intelligence et de reporting fournissent un

riche ensemble de fonctionnalités prêtes à l'emploi de l'entreprise. Il sera à l'utilisateur final

de faire une comparaison approfondie et sélectionnez l'un de ces outils. Des différences

importantes peuvent être trouvées dans le rapport présentations, avec un accent sur web ou

print, ou dans la disponibilité d'un serveur de rapports. Pentaho se distingue en étant plus

qu'un simple outil de reporting, avec une suite complète de composants (d'exploration de

données et l'intégration).

Donc c’est Pentaho qu’on va choisir comme le logiciel décisionnel à présenter.

Pentaho BI Suite en détail : Les composants Pentaho BI Suite permet de couvrir les domaines principaux d’un projet de

Business Intelligence et ceci au travers de différents logiciels appartenant à Pentaho ou

intégrables dans l’offre de l’éditeur. Le tableau ci-dessous liste les différents composants par

type d’activité :

Comme le montre le tableau précédent (tableau 1), Pentaho s’appuie principalement sur des

logiciels existants sur le marché Open Source. Le travail principal ayant été l’intégration de

ces outils entre eux, permettant ainsi de fournir une suite complète. Cette approche a

permis de capitaliser sur le travail déjà réalisé dans le domaine par la communauté Open

Source.

La notion de processus au cœur du système :

Le concept de base de Pentaho est la notion de solution. Une solution est un ensemble de

processus qui vont s’orchestrer pour permettre de répondre à une problématique métier. La

réponse à une telle problématique métier complexe est très fréquemment un processus

global dont la Business Intelligence fait partie. Un système de Business Intelligence orienté

processus va permettre une intégration simplifiée dans le système informatique de

l’entreprise et ainsi augmenter la valeur ajoutée d’un projet BI. Les processus sont décrits au

travers de documents XML nommés Action Sequence Document. Ces derniers permettent de

décrire quelles sont les actions (par ex. exécuter un job ETL, exécuter un rapport, envoyer un

e-mail,…) qui devront être entreprises et selon quelle séquence pour fournir une solution à

l’utilisateur final. La copie d’écran ci-dessous (Figure 1 - Pentaho Design Studio) illustre la

création d’un Action Sequence Document avec l’aide du plugin Eclipse, Pentaho Design Studio.

2. Présentation des différents composants : Après cette brève introduction à Pentaho BI Suite, voici une présentation plus détaillée des

composants de cette suite.

2.1. ETL – Pentaho Data Integrator

Pentaho Data Integrator (PDI) était connu précédemment sous le nom de Kettle. Kettle a été

fondé en 2002 et intégré dans Pentaho BI Suite en 2006. PDI se compose de différents outils :

Spoon : Interface graphique pour le développement de jobs ETL

Chef : Interface graphique pour définir l’ordonnancement des jobs ETL (chaîne ETL)

Pan : Ligne de commande pour l’exécution de jobs ETL

Kitchen : Ligne de commande pour l’exécution de chaînes ETL

Carte : Service permettant la parallélisation et l’exécution distante de jobs ETL sur

différents serveurs

2.1.1. Développement de transformations :

Spoon, l’outil de développement de transformations, contient un grand nombre

d’opérateurs permettant la réalisation de tâches ETL standards, parmi ces opérateurs on

notera :

• Connexion à n’importe quelle base de données au travers d’un driver JDBC

• Lecture et écriture dans des fichiers de type CSV, XML, XLS,…

• Opérateurs relationnels tel que : o Jointure, agrégation, déduplication, …

• Opérateurs propres au domaine du Data Warehouse tel que o Gestion des Slowly

Changing Dimensions o Tables de référence (Lookup Table)

• Exécution de SQL directe ou appel de procédures de bases de données

• Exécution de commandes sur un serveur

• …

En plus de ces opérateurs prédéfinis, il est possible de créer ses propres opérateurs. C’est

dans ce cadre que d’autres fournisseurs de logiciel Open Source ont créé leurs propres

composants. Ceci simplifiant l’accès à leurs systèmes. C’est le cas de Jedox Palo

(www.jedox.com), base de données multidimensionnelle, qui fournit des opérateurs

spécifiques pour PDI permettant la création et l’alimentation de cubes et dimensions Palo.

La copie d’écran ci-dessous (Figure 2 - Pentaho Data Integrator Spoon) présente l’interface

graphique de développement de jobs ETL

2.1.2. Développement de chaînes ETL :

Kitchen, l’outil de développement de chaînes ETL, permet d’ordonnancer les différentes

transformations développées avec Spoon. Cet outil offre un certain nombre d’opérateurs

servant à séquencer les tâches :

• Test de l’existence d’un fichier

• Démarrage conditionnel d’une étape en fonction du résultat d’une étape précédente

• FTP/SFTP

• Envoi d’e-mails

• Exécution de shell scripts

• …

2.1.3. Résumé Pentaho Data Integrator

Pentaho Data Integrator est un outil simple à utiliser et à installer, il est basé sur un

référentiel (repository) central permettant de faciliter le travail en équipe. Il permet une

installation sous forme de Cluster (module Carte) afin d’assurer une utilisation optimale des

ressources systèmes à disposition. Cependant la performance d’exécution des

transformations se trouve en deçà de nos espérances, particulièrement en comparaison à

d’autres outils présents sur le marché. Autre point négatif, les analyses d’impactes qui

peuvent être exécutées uniquement à l’intérieur d’un job et non pas au travers d’un projet

dans son entier.

2.2. Reporting :

Les outils de Reporting disponibles dans l’offre Pentaho sont multiples comme mentionné

dans le premier chapitre. Deux outils de Reporting bien intégrés dans la suite sont présentés

dans cet article. Il s’agit de Pentaho Reporting (jFree Report) et BIRT (Business Intelligence

Reporting Tools). La couche de méta données permettant la réalisation d’une représentation

métier de la base de données est aussi décrite.

2.2.1. Pentaho Reporting :

L’outil Pentaho Reporting se base sur le moteur de Reporting Java jFree Report. jFree Report

a été créé en 2002 et intégré dans Pentaho en 2006. Pentaho Reporting offre une séparation

complète entre le formatage du rapport et les données. Le développement des rapports

peut être effectué avec l’interface graphique Pentaho Report Designer ou directement avec

un éditeur XML. L’écran ci-dessous présente l’interface graphique Pentaho Report Designer

pour le développement de rapport :

Les fonctionnalités principales de Pentaho Reporting sont :

Support de sources de données multiples dans les mêmes rapports

Support de sous rapports

Support multi langues

Possibilité de définir des rapports complexes avec un formatage au pixel près

Possibilité de contrôler le formatage au moment de l’exécution du rapport

Large gamme de graphiques à disposition

Production de différents types de format de sortie (pdf, html,xml,…)

Support de Pentaho BI Metadata

Malgré un nombre de fonctionnalités importantes, il manque aujourd’hui une fonction

majeure pour un outil de Reporting BI, il s’agit des tableaux croisés. De plus, si l’interface

graphique convient bien aux développeurs, la mettre à disposition d’utilisateurs métier n’est

pas envisageable au vu de sa relative complexité (alignement, création de graphiques,

formatages,…) .

2.2.2. BI Metadata Layer :

Une des dernières fonctionnalités ajoutées dans Pentaho BI Suite est la possibilité de créer

une couche d’abstraction entre la base de données et l’utilisateur. Cette couche

d’abstraction permet de présenter une vision métier du Data Warehouse aux utilisateurs

finaux.

L’architecture du BI Metadata Layer se compose de 3 niveaux :

Couche physique : Connexion à la base de données, choix des tables faisant partie du

BI Metadata Layer

• Couche métier : Définition des relations entre les tables et des attributs de

présentation (type de données, formatage, formule,…)

• Vue Métier : Permet d’offrir des vues différentes en fonction du sujet ou secteur

d’activités par exemple

Les informations se trouvant dans différentes couches de l’architecture sont liées entre elles.

Ce qui permet un héritage du paramétrage d’une couche à l’autre. Il est possible de briser

cet héritage si nécessaire. La copie d’écran ci-dessous (Figure 5 - ) présente l’interface

graphique de développement de l’outil BI Metadata Layer :

Une fois déployée sur le serveur Pentaho, la couche d’abstraction peut être utilisée par

Pentaho Reporting. La copie d’écran ci-dessous (Figure 6 - Utilisation du BI Metadata dans

Pentaho Reporting) montre l’utilisation de cette couche, lors de la création d’une requête:

2.2.4. Résumé – Reporting

L’outil jFree Report choisi pour être complètement intégré dans Pentaho n’est

probablement pas le meilleur choix en comparaison à d’autres outils de Reporting

disponibles dans le monde de l’Open Source. Il aurait été plus judicieux de choisir BIRT qui

est un vrai outil de Reporting BI. Cependant, Pentaho continue de supporter pleinement

BIRT dans sa suite. La couche Pentaho BI Metadata est très intéressante et bien pensée au

niveau architecture, elle a malheureusement une valeur ajoutée relativement faible car il

n’existe aucun outil offrant une interface de développement suffisamment simple et

suffisamment complète pour être distribuer à des utilisateurs finaux.

2.3. Analyse OLAP – Pentaho Analysis

L’analyse interactive de données requiert l’utilisation d’outils garantissant un temps de

réponse très performant. Ils facilitent ainsi la navigation dans les données au travers de

fonctions comme le « drill-down » et permettent la création de formules analytiques plus ou

moins complexes (par ex. comparaison de valeurs par période). Pour répondre à ces besoins

la suite Pentaho met à disposition le composant Pentaho Analysis. Ce dernier est composé

d’un serveur OLAP connu sous le nom de Mondrian et d’un client permettant l’accès à ce

moteur connu sous le nom de JPivot. Une fois encore on constate que Pentaho n’a pas

développé sa propre solution mais a intégré des solutions Open Source existante dans son

offre.

2.3.1. Serveur OLAP – Mondrian

Mondrian est un serveur OLAP mémoire. Les dimensions et mesures gérées par Mondrian

sont stockées uniquement dans la base de données relationnelle. Mondrian lit ces

informations au moment où une première requête lui parvient afin de les charger en

mémoire. Il va ensuite servir les autres requêtes uniquement depuis ces informations

stockeés mémoire. Une fois le serveur stoppé les données se trouvant dans la mémoire

Mondrian disparaissent pour se retrouver uniquement dans la base de données

relationnelle. Mondrian est capable d’exécuter des requêtes MDX et de se connecter à

n’importe quelle base de données relationnelle offrant une connectivité JDBC. L’accès au

serveur Mondrian peut se faire soit via un API propre à Mondrian ou au travers de XML/A.

L’utilisation de Mondrian passe par la définition d’un ensemble de cubes, mesures,

dimensions et hiérarchies. Cette définition se fait au travers d’un fichier XML, pouvant soit

être édité via un éditeur XML soit être traité avec l’interface graphique Mondrian Schema

Workbench. Les copies d’écrans ci-dessous (Figure 7 - Exemple d'un fichier de définition de

structure Mondrian) donnent un exemple de fichier de définition de structure pour

Mondrian ainsi que l’interface graphique de Mondrian Schema Workbench

3. Conclusion

Pentaho BI Suite offre une palette très large d’outils pour couvrir les principales tâches liées

à la Business Intelligence. Malheureusement le niveau de fonctionnalités et de qualité des

interfaces graphiques n’est pas le même dans tous les domaines. Après avoir analysé la suite

dans son ensemble, en se basant sur l’expérience de différents consultants BI Trivadis, les

conclusions suivantes peuvent être tirées :

• ETL avec Pentaho Data Integrator est une alternative séduisante à bon nombres

d’outils commerciaux similaires et devrait être considérée sérieusement lors du

démarrage d’un projet BI et lors du démarrage d’un projet nécessitant un transport

de données (tel que des reprises de données, interfaçage entre systèmes,…).

• Reporting avec Pentaho Reporting n’est pas suffisamment avancé pour contrer les

outils commerciaux. Cela est principalement dû au manque d’une interface

graphique pour la réalisation rapide de rapports et l’impossibilité de créer des

requêtes type tableaux croisés. Cependant pour les cas ou il n’est pas prévu de

permettre aux utilisateurs finaux la réalisation de rapports.

• Analyse OLAP avec Mondrian et JPivot est une alternative intéressante pour la mise à

disposition de petits volumes de données à des utilisateurs ayant des besoins simples

d’analyse. L’intérêt principal de cette solution réside dans le fait que l’interface

utilisateur est très légère, simple et permettant la mise à disposition d’informations

pour un client ou un partenaire commercial via un Extranet sans besoin d’installation

de logiciel chez ce dernier. Par contre nous ne pouvons pas conseiller l’utilisation de

cette solution dès que les volumes de données à analyser deviennent importants.

Ceci en raison des efforts trop importants qu’il faudra fournir pour la mise à

disposition d’une structure performante pour Mondrian au niveau de la base de

données relationnelle.

• Tableaux de bord avec Pentaho Dashboard est une fonctionnalité encore trop peu

aboutie surtout en terme d’interface de développement pour être réellement

considérée. Une entreprise désirant démarrer avec Pentaho devra probablement se

contenter de tableaux de bord très basic avec la version actuelle de Pentaho. Dans le

cas contraire, il faudra compter avec des développements relativement coûteux.

Dans le futur nous verrons probablement l’arrivé d’un environnement de

développement graphique qui permettra de tirer pleinement partie de ce module

avec des coûts de réalisation raisonnable.

Pour conclure, la maturité des outils Open Source dans le domaine de la Business

Intelligence permet de les considérer comme une réelle alternative aux solutions

commerciales. Trivadis en tant que partenaire pour la mise en place de projets Business

Intelligence vous conseille sur l’adéquation des outils Open Source par rapport à vos besoins

pour un futur projet BI ou pour une réorientation dans votre stratégie logiciel.