1 comprendre lévolution des catalogues et des règles de catalogage : enjeux, web de données,...
TRANSCRIPT
1
Comprendre l’évolution des catalogues et des règles de catalogage : enjeux, Web de
données, FRBR, RDAJournée d’information
Médiadix – 6 mars 2014
Marie-Line GUILLAUMEE (BIU Sorbonne) [email protected] Marie-Thérèse NISHIOKA (BSG) [email protected]
Support élaboré à partir des travaux du groupe national de formateurs RDA
2
ProgrammeI. Les enjeux
– Enjeux liés aux pratiques des utilisateurs– Enjeux liés au Web– Rappel historique
II. Participer au Web de données– Architecture du Web– Standards du Web de données : RDF, URI
III. Modèles FRBR et FRAD– Notion de modèle conceptuel– FRBR : entités, attributs et relations– FRAD : entités, attributs et relations
IV. Présentation de RDA– Objectifs et Organisation générale– Cataloguer avec RDA– Scénarios d'implémentation– Limites de RDA
V. Autour de RDAVI. RDA en France
3
I. Les enjeux
ou
Pourquoi vouloir tout changerquand tout allait si bien ?...
4
Tableau
• On avait notre ISBD…
• … nos normes AFNOR…
• … nos formats MARC…
• … notre SIGB…
• Où était le problème ?
5
Enjeux liés aux pratiques des utilisateurs
• Catalogues dans le « Web profond » il faut y aller exprès
• « Dis, Madame, comment on cherche dans ton catalogue ? »
• L’utilisateur : « Je veux tout, tout de suite, sans effort. »
Le catalogue SU : « Votre requête [charles darwin] ramène 614 réponses »
6
Recherche dans le SU « charles darwin »
7Source : Sylvain Machefert
8
Le « syndrome Google »
• On n’a plus l’habitude de chercher par index
• Les recherches par mots dans nos catalogues– ramènent trop de réponses– classées de manière plus ou moins anarchique
• Nos catalogues doivent évoluer pour mieux cibler
9
Enjeux liés au confort des utilisateurs
• Adopter les standards du Web de données– pour sortir nos catalogues du « Web invisible »,
« Web profond »
• Adopter les standards du Web de données et créer des « Données liées ouvertes »– pour que n’importe qui puisse réutiliser n’importe
lesquelles de nos données
• Modifier la structure de l’information bibliographique– pour adapter nos catalogues aux besoins des
utilisateurs et à leurs nouvelles pratiques de recherche
– pour mieux structurer les résultats d’une recherche simple
10
Enjeux liés au confort des bibliothécaires
• Adopter les standards du Web de données– pour récupérer des données produites ailleurs
• Modifier la structure de l’information bibliographique– pour ne pas avoir à répéter indéfiniment les
mêmes informations quand une œuvre est souvent éditée
– pour harmoniser l’information fournie• exemple : l’indexation matière
11
à la BnF :…
12
… et dans le SUDOC :
A priori, le même contenu
13
En fait, une indexation-matière a été recréée pour chaque notice
14 14
Et si on harmonisait tout cela à un niveau supérieur ?
15
En bref• Répondre aux attentes des utilisateurs
d’aujourd’hui– permettre à des utilisateurs extérieurs de récupérer
les infos qui les intéressent, et seulement celles-là
• Aller vers une granularité plus fine de l’information bibliographique : des « notices » aux « données »– permettre à chacun de récupérer et d’exploiter
le niveau d’information qui l’intéresse
• Mettre les données à disposition des utilisateurs…… là où sont les utilisateurs
• Participer au Web de données
16
Zoom arrière : rappel historiqueLes standards actuels sont fondés sur des principes datant des années 60 (norme
Afnor Z 44-050…) : prédominance des catalogues sur fiches et de l’imprimé. Règles caduques aujourd’hui car elles ne permettent pas d’être visible sur le Web et ne prennent pas en compte les nouvelles pratiques des utilisateurs.• Dans les années 90-2000, de nouveaux modèles émergent : FRBR (Functional requirements for bibliographic records = Fonctionnalités requises des
notices bibliographiques) : 1990-1998 FRAD (Functional requirements for authority data) : 1999-2009 PIC (Principes internationaux de catalogage) : publiés en 2009
• De nouveaux codes de catalogage aussi : REICAT (règles de catalogage italiennes) : 2009 ISBD consolidé (fusion de tous les ISBD) : 2010 RDA (Resource description and access : code de catalogage) : juin 2010
• Les bibliothèques françaises vont devoir choisir entre : retenir l’ISBD consolidé comme règle de description (publié en 2011) adopter REICAT adopter RDA qui se veut un code international et est articulé sur les FRBR
17
18
En bref
• Il faut changer…– notre manière de structurer l’information
bibliographique : FRBR, FRAD– nos règles de catalogage : RDA ??– notre format de catalogage : [là,
c’est l’inconnu]• … pour aller sur le Web de données !
– [au fait, c’est quoi, le Web de données ?...]
19http://www.flickr.com/photos/40308183@N05/5553709149/
Journées ABES -- 18 mai2011
19Philippe Le Pape -- ABES
Aujourd’hui les catalogues de bibliothèques se trouvent dans le web invisible ou web profond
Les solutions pour sortir les catalogues de bibliothèques des oubliettes :
un modèle conceptuel : FRBR (Fonctionnalités requises des notices bibliographiques)
des nouvelles règles de catalogage : RDA (Resource Description and Access ) une syntaxe : RDF (Resource Description Framework ) et l’entrée des
catalogues dans le web de données
20
II. Participer au Web de données
… en utilisant les technologies du Web sémantique
21
Architecture du Web (1)• World Wide Web : toile d’araignée de
serveurs d’informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes)
• Architecture du Web : infrastructure technologique définie par des standards
• Standardisation de l’architecture du Web assurée par un organisme, le W3C (World Wide Web Consortium) : accessibilité pour les logiciels et machines et accessibilité universelle aux contenus
22
Architecture du Web (2)Repose sur 3 technologies :• Un protocole : HTTP (Hypertext Transfer
Protocol)• Un langage : HTML (Hypertext Markup
Language)– Standard défini par le W3C pour la diffusion de documents sur le Web pour
pouvoir afficher de l'information à l'aide de balises dont le nombre est limité. Il est interprété par le navigateur
• Des identifiants Web : URI (Uniform Resource Identifier)– Une ressource : tout objet– Ressource identifiée de manière univoque par un URI : chaîne de
caractères normalisée permettant d'identifier de manière permanente une ressource abstraite ou physique, accessible ou non sur Internet (personne, organisme, lieu, évènement, concept, …)
23
Les URI
• 2 déclinaisons :– URN (Uniform Resource Name)
• URI d’identification d’une ressource par son nom unique• Utilisé pour identifier une ressource sans s’occuper de son
emplacement ou de la manière de la référencer
Exemple : urn : isbn:978-2-10-057294-6= URI de référence à une publication
– URL (Uniform Resource Locator)• URI spécifiant l'adresse physique de localisation d'une
ressource sur Internet et la méthode permettant d'y accéder = URI donnant accès à la ressource
24
Évolutions du web• Web 1.0 Web de documents
– permet aux usagers de naviguer facilement sur Internet en utilisant des liens hypertextes
• une page = un document– format : HTML (HyperText Markup Language)
• ne permet que la mise en forme
• Web 2.0 Web collaboratif– évolution du Web du point de vue des technologies employées et
des usages– Internet n’est plus simplement un media mais une plate-forme de
services et d'applications en ligne– Permet aux internautes d'interagir sur le contenu des pages et de
dialoguer entre eux • Web 3.0 Web de données ou Web
sémantique : permet aux machines de trouver et d’exploiter les données contenues dans les documents : format RDF (Resource Description Framework) qui permet de décrire et de relier des ressources
25
La recette du Web
26
Le Web de documents
Base de données
Données Documents
Base de données
Hyperlien
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
27
Limites du Web de documents• HTML : langage textuel d’échange de
documents semi-structurés• Les données sont cachées sous les pages
HTML (« web profond »)• Seules les pages HTML sont liées entre elles• Les pages HTML sont faites pour les humains• Ce que veulent les machines :
• des données structurées = utilisable directement par un ordinateur pour effectuer un calcul
– car elles se complètent les unes les autres– car les liens permettent de naviguer et de découvrir
• avec des liens qualifiés, signifiants – au-delà du « voir aussi » des hyperliens
28
Le Web de données Un Web constitué de données accessibles, structurées, dans un format
non-propriétaire, identifiées et liées entre elles sémantiquement (Définition de Tim Berners-Lee dès 1999)
Extension du Web permettant de relier non pas des documents (pages HTML) mais les données elles-mêmes, et de les rendre exploitables par des machines
Repose sur les mêmes technologies de base– HTTP : transfert des données– URI : nommage des ressources
Utilisation d’un autre langage : il ne s’agit plus d’échanger des documents destinés à être immédiatement visualisés, mais des données structurées : XML (eXtensible Markup Language) :– RDF = langage du Web de données liées
29
Le Web de données liées
Base de données
Données Documents
Base de données
Hyperlien
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Liens entre les bases de données
30
Le web de données ?• Web de données ou Linked Data ou Web of Data• Mise sur le Web de données :
– Mouvement de l’Open Data– Mise à disposition de données publiques ouvertes
librement accessibles sans restriction de copyright, licence payante, brevet, …
– Données pouvant être réutilisées, reproduites, redistribuées librement et sans discrimination (cf. http://www.opendefinition.org/okd/)
• Mise en relation des données pour construire un réseau global qui permet, à partir d’une donnée, d’accéder aux autres données liées du Web
31
Le Web de données aujourd’hui• Liens entre les données et transformation du Web en une
gigantesque base de connaissances distribuée
32
Le Web de données aujourd’hui
33
Pile des standards du Web sémantique
34
RDF = Resource Description Framework Nouveau modèle généraliste et standardisé pour
encoder, échanger et réutiliser des métadonnées structurées
• Proposé en 1999 par le W3C• Permet de décrire, représenter et relier
simplement toute ressource (= donnée) du Web :– page Web, image, vidéo, personne, objet, évènement,
produit, service, …– tout ce qui peut être identifié par un URI peut être
considéré comme une ressource• Objectif : partager les métadonnées pour des
ressources identiques par l’utilisation d’une syntaxe commune (RDF/XML)
35
RDF : un modèle conceptuel• Principe de base : toute chose peut être
décrite avec des phrases minimales composées d’un verbe, d’un sujet et d’un complément déclaration RDF
Exemple :Charles Darwin a écrit « L’origine des espèces »
Sujet : Charles DarwinVerbe : a écritComplément : L’origine des espèces
36
RDF : la notion de triplet• Un document RDF est un ensemble de triplets• Un triplet est composé de 3 éléments• L’ensemble forme une déclaration
Triplet {sujet , prédicat , objet}– sujet : représente la ressource à décrire, c’est toujours un URI– prédicat : représente un type de propriété applicable à la ressource,
c’est toujours un URI– objet : représente une ressource liée (URI) ou une caractéristique exprimée
par une chaîne de caractères (= littéral) : c’est la valeur de la propriétéExemple :Sujet (Ressource) : Charles DarwinPrédicat (Propriété) : a écritObjet (Valeur) : L’origine des espèces
37
RDF : la représentation par graphe
• La déclaration est représentée visuellement par un graphe (système de nœuds reliés par des flèches) qui permet de parcourir l'information de lien en lien
SUJET OBJETPREDICAT
Sujet :Charles Darwin
Objet :L’origine des espèces
Prédicat :A écrit
38
RDF : modèle de graphe (2)• L’objet d’un triplet peut être :
– Soit une ressource qui peut être le sujet ou l’objet d’autres déclarations– Soit un littéral = chaîne de caractères, nombre, date
Prédicat :A écrit
Prédicat :Comprend
«1809»«1809»
Prédicat :Est né
Sujet : Charles Darwin
Sujet : Charles Darwin
Objet : The origin of species
Sujet : The origin of species
Objet : An introduction on
the origin of species
39
Formalisme RDF
• Modèle permettant d’encoder toute donnée ou métadonnée
• Permet de décrire les relations entre les ressources
• Utilise le mécanisme des URI pour identifier les ressources décrites et représenter explicitement toute relation entre 2 ressources
• Permet de réaliser le Web de données :– Éclatement de l’information– Des données et pas des « documents »– Plus de souplesse pour manipuler, sélectionner…
40
RDF : souplesse• Cadre conceptuel de description des ressources
applicable à n’importe quel domaine• Permet de mélanger les vocabulaires• Un modèle abstrait à représenter avec un
langage concret• Peut être exprimé en utilisant diverses syntaxes
– RDF/XML (eXtensible Markup Language) : seule syntaxe qui fait l’objet actuellement d’une recommandation du W3C
– RDFa : syntaxe pour injecter du RDF dans une page Web…
• RDF rend les données extensibles :– Plus besoin de tout dire sur une ressource, une personne, etc.– Possibilité d’ajouter une nouvelle déclaration sur une ressource déjà
publiée pour compléter l’information
41
Un Web de données …• Modèle de données : RDF
– Modèle universel de représentation, d’échanges et d’interconnexion de métadonnées
• Langage d’interrogation : SPARQL – Simple Protocol And RDF Query Language– Langage de requête sur les graphes RDF
permettant de spécifier le type de données recherchées
– Format XML pour représenter les résultats d’une requête
– SPARQL permet d’interroger les données telles qu’on les a modélisées
• Première phase du déploiement du web sémantique
42
… et un Web sémantique• Objectif : s’assurer de l’interprétation et de
l’utilisation des données• Publier avec les données leurs schémas ou
vocabulaires• Schéma (ou ontologie)
– Document formel expliquant les catégories de ressources, leurs relations, avec leur sens, la structure et les contraintes associées
– Exemples :• Foaf pour la description d’un profil utilisateur• Dublin Core pour la description (simple) d’une ressource• ISBD pour la description bibliographique
• RDF permet de raisonner sur les données, pour les enrichir ou contrôler leur cohérence
43
Web de données et Web sémantique
• Web de données : possibilité de relier et d’échanger des données au moyen d’URI
• Web sémantique : possibilité d’échanger les schémas de données et la sémantique associée– Objectif : permettre aux machines de
comprendre la sémantique, la signification de l’information sur le Web
44
Et pour les bibliothèques :Que peut apporter le Web de
données ?• Relier les catalogues des bibliothèques avec d’autres données existantes
• Ouverture à d’autres communautés (libraires, éditeurs, …)
• Plus de visibilité par les moteurs de recherche • Navigation par les utilisateurs sans avoir à connaître
les formats des bases de données et les langages de requête spécifiques
• Tirer parti des données structurées des catalogues et des référentiels
• Interopérabilité Souplesse pour la réutilisation des données
45
• Des données structurées
• Des vocabulaires normalisés– éléments de métadonnées (title, creator…)– listes de valeurs (codes pays, langues…)
• Des identifiants pérennes : URI– pour désigner les ressources– pour exprimer les relations entre les données
• Une syntaxe normalisée : RDF (Resource Description Framework)
Web de données et bibliothèques : Comment y arriver ?
46
003http://catalogue.bnf.fr/ark:/12148/cb42226398b010 $a978-2-603-01444-8$brel.100 $a20100624d2005 m y0frey50 ba1011 $afre102 $aFR105 $a||||z 00|||106 $ar2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de 500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves 210 $aParis$cDelachaux et Niestlé$dDL 2005215 $a1 vol. (311 p.)$cill.$d20 cm2252 $aˆLes ‰guides du naturaliste300 $aBibliogr. p. 301-303410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques et mémentos$2rameau676 $a595.781 39$v22700 1$312013664$aCarter$bDavid$f1943-....$4070702 1$312367696$aHargreaves$bBrian$4440801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc
http://catalogue.bnf.fr/ark:/12148/cb12367696d
http://catalogue.bnf.fr/ark:/12148/cb34235813n
http://catalogue.bnf.fr/ark:/12148/cb120136648
Des données structurées
47
Des vocabulaires normalisés
Pour exprimer les relations entre les données
200 1#$aGuide des chenilles d'Europe
700 #1$312013664$aCarter$bDavid$f1943-.... $4070
200 $a Titre propre
700 $4070 Auteur du texteDC : Creator RDA : Creator
DC : Title ISBD : Title properRDA : Title proper
RDA : Author
48
Des URI pour désigner les ressources
http://catalogue.bnf.fr/ark:/12148/cb42226398b Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves. - Paris : Delachaux et Niestlé, DL 2005
Carter, David (1943-....)
http://catalogue.bnf.fr/ark:/12148/cb120136648
http://catalogue.bnf.fr/ark:/12148/cb34235813nLes Guides du naturaliste
Hargreaves, Brian
http://catalogue.bnf.fr/ark:/12148/cb12367696d
49
Des URI pour exprimer les relations (1)
ISBD : has title proper
DC : Creator
DC : Title
RDA : Authorhttp://rdvocab.info/roles/author
http://purl.org/dc/elements/1.1/title
http://purl.org/dc/elements/1.1/creator
http://iflastandards.info/ns/isbd/elements/P1004
RDA : Title proper http://rdvocab.info/Elements/titleProper
50
Des URI pour exprimer les relations (2)
51
52
Une syntaxe normalisée
Cet ouvrage
"Guide des chenilles d'Europe"a pour titre propre
Cet ouvrage
a pour titre propre
sujetverbecomplément d’objet
"Guide des chenilles d’Europe"
prédicatobjet
sujet
Le sujet est toujours un URI
Le prédicat est toujours un URI
L’objet peut êtreun texte (« littéral »)ou un URI
2001 $aGuide des chenilles d'Europe
URI pour désigner la ressourceIdentifiant de la notice + caractère de contrôle
URI pour exprimer les relations
53
Un réseau de relations entre des données
http://catalogue.bnf.fr/ark:/12148/cb42226398b
"Guide des chenilles d’Europe"
http://catalogue.bnf.fr/ark:/12148/cb34235813n
http://catalogue.bnf.fr/ark:/12148/cb120136648
"Carter"
"David"
1943
"Les Guides du naturaliste"
http://data.bnf.fr/what-happened/date-1943
http://iflastandards.info/ns/isbd/elements/P1004
A pour titre propre
http://rdvocab.info/RDARelationshipsWEMI/containedInManifestation
Appartient à
http://iflastandards.info/ns/isbd/elements/P1033 A pour titre clé
http://xmlns.com/foaf/0.1/familyName A pour patronyme
http://xmlns.com/foaf/0.1/givenName
A pour prénomhttp://rdvocab.info/ElementsGr2/dateOfBirth
A pour date de naissance
http://rdvocab.info/roles/author
A pour auteur
5454
Les bibliothèques dans le Web de données aujourd’hui
55
Y aller … avec les bons outils
• Pour utiliser la boîte à outils du Web sémantique, il faut
– Identifier les données
– Construire un réseau de relations entre ces données
• De quel outil disposons-nous pour analyser les relations entre les données au sein des catalogues de bibliothèques ?