introduction pdi

Upload: fadoua-aribi

Post on 14-Jan-2016

223 views

Category:

Documents


0 download

TRANSCRIPT

PRESENTATION DE PENTAHO DATA INTEGRATION (PDI)

Aot 2006

PRESENTATION DE PENTAHO DATA INTEGRATION (PDI)

Aot 2006 Version: 1.0

Auteur: Samatar HASSANPDI 2.3 http://www.pentaho.org/

PLAN3I Prsentation

31.1 Dfinition

31.2 La petite histoire

31.3 Les composants PDI

41.SPOON

52.PAN

63.CHEF

74.KITCHEN

8II Installation

82.1 Prrequis

82.2 Documentation

82.3 Participez laventure

I Prsentation

Dans ce document, nous allons prsenter trs brivement loutil ETL Open Source Pentaho Data Extraction (PDI).1.1 Dfinition Pentaho Data Integration (anciennement K.E.T.T.L.E Kettle ETTL Environment) est un E.T.T.L,

c'est--dire quil permet:

LExtraction des donnes depuis divers source (fichiers, bases de donnes)

Le Transport des donnes dune unit de stockage une autre

La Transformation des donnes

Le chargement (Loading en anglais) des donnes dans un entrept

Ce produit Open Source fournit une interface graphique pour la manipulation des donnes et cela contrairement la pluparts des autres produits non commerciaux.1.2 La petite histoire

KETTLE a t dvelopp il y a 5 ans par Matt CASTERS, un consultant en Business Intelligence (BI) indpendant, dans un premier temps pour ses propres besoins.

Le projet a t rendu open Source lanne dernire et PENTAHO la acquis au dbut de lanne 2006.

Cest ainsi que KETTLE est devenu Pentaho Data Integration (PDI).

Matt conserve le leadership sur le projet en tant que Chief Data Integration chez PENTAHO.Intressons nous maintenant au produit lui-mme.1.3 Les composants PDI

Comme nous lavons vu plus haut, PDI est un environnement qui permet dune part de dfinir des transformations sur les donnes, de les excuter et dautre part de les sauvegarder dans des fichiers ou dans un rfrentiel base de donnes.De plus, PDI permet de connecter un grand nombre de bases de donnes commerciaux ou non.

Ainsi plusieurs outils composent cet environnement:

1. SPOON est loutil qui permet grce son interface graphique de crer des transformations, les excuter et les sauvegarder. Les composants permettant la manipulation des donnes sont nomms tapes (steps en anglais).

Par exemple il existe une tape permettant dextraire des donnes de diverses bases de donnes, une autre aidant lextraction depuis des fichiers.SPOON comprend un grand nombre dtapes.

Lexemple ci-dessus a t cre grce SPOON. La ligne verte entre les tapes est un lien (Hop en anglais).Cest lui qui indique vers quelle tape est dirig le flux (matrialis par le sens de la flche).Notons ce stade que SPOON manipule des enregistrements (ou lignes) sous la forme suivante:

Colonne 1 Colonne 2 .. Colonne n

VC10 VC20 VCN0

VC11 VC21 VCN1

Grce SPOON, vous pourrez donc crer vos transformations, les tester et les sauvegarder soit dans un fichier, soit dans un rfrentiel dune base de donnes que vous aurez pralablement cre.Lcran suivant donne un aperu de linterface de SPOON. Les diffrentes tapes sont visibles dans la partie gauche de linterface.Le schma de la transformation est dans la partie droite de linterface.

Les tapes sont simplement dposes sur la partie droite (drag & drop) partir de la partie gauche.

Mais vous voulez certainement pouvoir automatiser lexcution de votre transformation des horaires de votre choix.

Cest ce niveau quintervient PAN.2. PAN et outil, trs simple dutilisation, permet dexcuter une transformation en ligne de commande. Ensuite on pourra planifier lexcution grce par exemple au planificateur de Microsoft Windows ou un Cron dans lenvironnement Unix.Lorsque vous devez alimenter un entrept de donnes, vous avez excuter plusieurs transformations (extraction des dimensions, alimentation des faits,). Ces transformations ne sont pas indpendantes les unes des autres.En effet, lalimentation des tables de faits ne doit tre ralis que si les donnes de dimension ont t insres avec succs dans lentrept, or SPOON na pas pour vocation de grer ni la squencialit des transformations, ni le fait quune transformation seffectue avec succs. Nous introduiront un autre outil: CHEF.

3. CHEF introduit une autre notion: La tche (ou Task en anglais).Une tche est une organisation qui permet dautomatiser des tches complexes de transformations.

En effet, lexcution de chaque entre ne dmarre que si lentre prcdente a t termine. De plus, on peut tre le rsultat de chaque entre. A-t-elle t excute avec succs?

Une entre peut tre une transformation ou des transformations spciales comme la rcupration de fichiers par FTP ou lexcution de fichier shell

Commentons lexemple ci-dessus.

Listons toutes les entres de la tche:

Lentre Start indique le dmarrage de la tche (on nen trouve quune seule par tche).

Lentre Get source files permet de rcuprer des fichiers depuis un serveur FTP. Les fichiers ainsi obtenus sont stocks dans un rpertoire.

Les entres Load source files, Update dimensions, Update fact tables, Update aggregates excutent des tches (sous-tches) Lentre Remove source files permet de supprimer les fichiers rcuprs.Observez maintenant les flches vertes entre les entres. Cela indique que ltape suivante ne va tre excute qui si lentre prcdente sest bien droul (elle na pas gnr derreur).La dernire entre en Send error mail. Un courriel est envoy si une entre est en chec (flche rouge).CHEF fournit une interface graphique permettant la cration, lexcution et la sauvegarde des tches.

Ainsi chef vous permettra par exemple de surveiller lexcution de vos transformations. Vous pouvez dcider denvoyer un courriel une personne si la transformation a gnr des erreurs.Limage suivante montre un aperu de linterface de CHEF.

A linstar de SPOON, un outil en ligne de commande est disponible pour CHEF.4. KITCHEN

KITCHEN permet dexcuter une tche en ligne de commande.II Installation2.1 PrrequisPour fonctionner, PDI a besoin de lenvironnement dexcution JAVA.Vous devez donc si ce nest pas encore le cas, installer la machine vituel Java 1.4 ou au dessus.Cet outil est tlchargeable gratuitement sur le site http://www.javasoft.com.

Une fois cette tape effectue avec succs, il suffit de se procurer la dernire version de PDI: 2.3 sur le site

De PENTAHO

http://prdownloads.sourceforge.net/pentaho/Kettle-2.3.0.zip?downloadLes dernires mises jour sont disponibles sur le site: http://www.javaforge.com/proj/doc.do?proj_id=318Une fois le prcieux fichier zip rcupr, il suffit de le dzipper dans le rpertoire de votre choix.

Selon votre environnement (Windows ou Unix) lacer le fichier SPOON.bat (windows) ou SPOON.sh (Unix) pour dmarrer SPOON et CHEF.bat (ou CHEF.sh) pour dmarrer CHEF.2.2 Documentation

La documentation est galement fournie (dans le rpertoire docs) certes pour linstant en anglais: La traduction en franais suivra.Nhsitez pas la consulter car elle est trs bien faite. Si toutefois vous recherchez de laide, rendez-vous sur le forum:

http://www.javaforge.com/proj/forum/browseForum.do?forum_id=12742.3 Participez laventurePDI est en perptuelle amlioration. Vous avez la possibilit de signaler des bugs ventuels ladresse suivante:http://www.javaforge.com/proj/tracker/browseTracker.do?tracker_id=1273

Vous avez une ide, nhsitez pas la partager avec les utilisateurs de loutil et postez une amlioration ladresse suivante:

http://www.javaforge.com/proj/tracker/browseTracker.do?tracker_id=1274PDI

Extraction, transport, transformation et chargement

Divers sources (Bases de donnes, Fichiers)

Divers sources (Bases de donnes, Fichiers)

Prsentation Pentaho Data Integration 2.3 Page 2 sur 8