jour 4 : publication des données sur l'internet création de réseaux d'information sur...

50
Jour 4 : Jour 4 : Publication des données Publication des données sur l'Internet sur l'Internet Création de réseaux Création de réseaux d'information sur la d'information sur la biodiversité biodiversité

Upload: jeanette-bouchet

Post on 04-Apr-2015

103 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Jour 4 :Jour 4 :

Publication des données sur Publication des données sur l'Internetl'Internet

Création de réseaux Création de réseaux d'information sur la d'information sur la

biodiversitébiodiversité

Page 2: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Sommaire

Rappel sur le XML

Présentation des standards de connexion

Page 3: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Sommaire

Présentation de l’IPT (Integrated Publishing Toolkit)

Démonstration de l’IPT

Page 4: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

XMLXML

Page 5: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Sommaire

Présentation Avantages Utilisation du XML

Page 6: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Présentation

XML : eXtensible Markup Language Format d’échange de données Méta-Langage à balises

Même principe que le HTML Information ajoutée au contenu pour marquer la

structure logique

Page 7: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Présentation<?xml version="1.0" encoding="UTF-8"?> ENTÊTE et ENCODAGE<DataSets xmlns="http://www.tdwg.org/schemas/abcd/1.2"> <DataSet> <OriginalSource> <SourceInstitutionCode>BDI</SourceInstitutionCode> ELEMENT

<SourceName>BoBO - Botanic Garden Berlin BDI Observations</SourceName> <SourceLastUpdatedDate>2004-09-27</SourceLastUpdatedDate>

</OriginalSource> <DatasetDerivations> <Units> <!– liste des unités --> COMMENTAIRE <Unit> BALISE OUVRANTE <UnitID>2</UnitID> <RecordBasis>Observation</RecordBasis> ... <HigherTaxon TaxonRank="Kingdom">animalia</HigherTaxon> ATTRIBUT </Unit> BALISE FERMANTE </Units> </DataSet></DataSets>

Page 8: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Présentation

Séparation du fond et de la forme Forme : présentation à partir de la structure (style) Fond : structure + données (contenu)

Langage multi-support

Page 9: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Avantages

Lisibilité : simple à comprendre Autodescriptif et extensible Structure arborescente Facilement déployable Intégrabilité

Page 10: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Utilisation du XML

Standardise l’information indépendamment de la structure de la base de données source

Principe de « wrapping » : permet une mise en correspondance des

colonnes et les tables d'une base de données

avec un ou plusieurs éléments d'un schéma

XML donné

Page 11: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Utilisation du XML

Au niveau du wrapper:

Standards XML : ABCD et DarwinCore

Logiciels : Biocase, TAPIR, DIGIR et IPT

Page 12: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

StandardsStandards

Page 13: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Standards

Standard : document qui fournit des règles pour des procédés et méthodes de production.

Utilisé pour la conception des collections et bases de données de gestion de l'information.

Page 14: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Standards

Standards d’échange de données :

Protocoles de transfert utilisés pour organiser et formater l’information pour échange.

ABCD et Darwin Core : standards d’échange les plus connus pour les données de collection.

Page 15: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Standards

Pourquoi des standards? Fournir le medium, les règles et les protocoles

pour échanger l’information. Permer l’interoperatibilité des données avec

d’autres données. Homogeneise l’information en vue de son

intégration à un système mondial

Page 16: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Darwin Core

Facilite l’échange d’information à propos des occurrences géographiques des espèces et l’existence des spécimens dans les collections.

Pertinent pour les collections d’histoire naturelle.

Page 17: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Darwin Core

Schéma simple, adapté aux données sur fichiers plats.

46 éléments regroupés dans 7 catégories :Record level, taxonomic, identification, locality, collecting event, biological, reference.

Liste des champs sur : http://wiki.tdwg.org/twiki/bin/view/DarwinCore/DarwinCoreDraftStandard

Page 18: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

ABCD

Projet BIOCASE

Standard d’échange de données sur les spécimens et les données d’observation.

Plus complexe que Darwin Core (1200 élements).

Site internet : http://wiki.tdwg.org/activities/ABCD

(Access to Biological Collections Data)

Page 19: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Biocase

Logiciel mettant en correspondance une source de données avec un standard choisi.

Produit : Fichier XML formaté et exploitable

Page 20: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

DémonstrationDémonstration

Page 21: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Integrated Publishing Integrated Publishing Toolkit (1.0)Toolkit (1.0)

Page 22: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Présentation générale de l’IPT

Introduction Fonction dans le réseau GBIF Resources Caractéristiques Fonctionnalités Une plate-forme pour faciliter la décentralisation

Sommaire

Page 23: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Démonstration

Configuration Publication de métadonnées Publication de données Web application, interfaces

Sommaire

Page 24: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

L’IPT est…Une web application Java open-source :

Connecter et publier 3 types de données de biodiversité :

- Données primaires

- Information sur les espèces

- Métadonnées sur les ressources À partir d’une source de données :

- Base de données

- Fichier plat Pour rendre ces données visibles sur le réseau distribué du GBIF

Page 25: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Un composant du réseau GBIF

Page 26: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Ressources Documentation et téléchargement

http://code.google.com/p/gbif-providertoolkit/

Demo sitehttp://ipt.gbif.org

Version 1.0 disponible depuis le 31/03/2009

Chef de projet :Markus Döring, Senior Software Engineer, GBIF

Page 27: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Caractéristiques Web application multilingue Contient un serveur de géolocalisation Gestion de rôles Base de données embarquée Supporte l’utilisation de fichiers texte (.csv) Utilisation de vocabulaire pour limiter les termes Utilisation d’extension pour Darwin Core Vérification de la qualité de données basique Utilisation d’identifiant unique (uuid)

Page 28: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Utilisation des wrappeurs

Scénario original

Les wrappeurs exposent les bases de données aux requêtes

Page 29: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Utilisation des wrappeurs Scénario fréquent

Une copie de base est utilisée pour la publication des données

Souvent sur une machine de moins bonne qualité (perte de performance)

Souvent non mise à jour (fraîcheur des données)

Page 30: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité
Page 31: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

‘Récolte’ avec les protocoles existants Le fournisseur a un wrappeur TAPIR

Ce wrappeur permet de récuperer 200 enregistrements par requete.Si la base contient 260,000 enregistrements à récuperer :

1300 request / responses9 heures au total

500MB de transfert XMLSeulement 32MB “utiles” à l’index

Compressées en 3MB

Page 32: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

UUne fois défini, le vocabulaire est accessible à tous les utilisateurs de l’IPT

Contrôle du vocabulaire

Page 33: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Schéma extensible

Page 34: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Page d’accueil paramétrable (1)

Page 35: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Page d’accueil paramétrable (2)

Page 36: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Gestion de rôles

Les users ne peuvent qu’explorer les données

Les managers ne gèrent que leurs données

Possibilité de partager une même instance IPT

Page 37: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

S’enregistrer au GBIF

Page 38: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Gestion des extensions

Page 39: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Gestion des vocabulaires

Page 40: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Créer des métadonnées

Page 41: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Catégories de métadonnées Basic metadata Resource originator Geographic coverage Taxonomic coverage Temporal coverage IP Rights Research project information Methods Keywords

Page 42: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Mapping

Page 43: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Chargement des données

Pendant le chargement, les données sont importées de la source

(fichier plat ou base de données) Des statistiques sont calculés

Page 44: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Vue sur les ressources disponibles

Page 45: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Exploration taxonomique

La taxonomie provient de la source de données

Un premier niveau de contrôle de qualité de données est effectué

Page 46: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Résumé statistique

Page 47: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Graphiques

Page 48: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Contrôle de la qualité de données

Page 49: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Sortie XML

Page 50: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité

Web site: http://www.gbif.org

Data portal: http://data.gbif.org

GBIF SecretariatUniversitetsparken 152100 CopenhagenDenmark

E-mail: [email protected]

Phone: +45 3532 1487

Contact