jabes2012 : tutoriel web de données
DESCRIPTION
Tutoriel de 30' à l'aube, le second jour des journées ABES 2012. Je vous rassure : la laideur de la page de titre est intentionnelle, à vocation pédagogique (trop long à vous expliquer).TRANSCRIPT
Vers le web de données
#tutoriel #30’ #jabes2012
Le web de données,c’est pas quoi ?
Base Web
Documents GED Le Web =Web de documents
Données Base de données Web de données
Le Web, web de documents
Base de données
Données Documents
Base de données
Hyperlien
http://fyeah-icebergs.tumblr.com/post/1063474140
Un archipel d’icebergs
• Les données sont cachées sous les pages HTML (deep web)
• Seules les pages HTML sont liées entre elles• Les pages HTML sont faites pour les humains• Ce que veulent les machines, ce sont des
données• et des données liées
– car elles se complètent les unes les autres– car les liens permettent de naviguer et de découvrir
• Et des liens qualifiés, signifiants – au-delà du « voir aussi » des hyperliens
Le web de données liées
Base de données
Données Documents
Base de données
HyperlienLiens entre les bases de données
Le web de données liées
Base de données
Données Documents
Base de données
HyperlienLiens entre les bases de données
Une base de données
DOCUMENTS
id auteur titredoi :10.3406/mefr.1959.7458 auteur_mefr_1904 Retractatio
AUTEURSid nomauteur_mefr_1904 Paul Veyne
Persée
Lien interne à la base
Une autre base de données
LIVRES
id z7XX titrepropre editeur068391307 027182800 Le Pain et le cirque Le Seuil
PERSONNESid nom personnetype027182800 Veyne, Paul (1930-…. 0
Sudoc + IdRef
Lien interne à la base
DOCUMENTSid auteur titredoi :10.3406/mefr.1959.7458
auteur_mefr_1904 Retractatio
AUTEURSid nomauteur_mefr_1904 Paul Veyne
LIVRESid z7XX titrepropre editeur068391307 027182800 Le Pain et le
cirqueLe Seuil
PERSONNESid nom personnetype027182800 Veyne, Paul (1930-…. 0
#1 Comment lierla donnée d’une baseà la donnée de l’autre base ?
#2 Comment lier deux bases qui n’ont pas le même schéma
#3 Comment qualifierla nature de ce lien ?
#4 Comment faire tout ça sur le Web, en surface ?
est la même entité que
COMMENT ARRIVER À ÇA ?
Le nuage du web de données liées
Le nuage du web de données liées
Les données ABES sur le web de données, avec IdRef pour pivot
UN MODÈLE GÉNÉRAL POUR DÉCRIRE … N’IMPORTE QUOI
RDF
doi:10.3406/mefr.1959.7458
auteur_mefr_1904
« Retractatio »
a pour auteur
a pour titre
En RDF,• une ressource (qch) est en relation avec
• soit une autre ressource
• soit un mot
« Paul Veyne »
a pour nomRDF = Graphes
qcha telle relation avec
qch
qcha telle relation avec
« mot »
doi:10.3406/mefr.1959.7458
auteur_mefr_1904
« Retractatio »
dcterms:creator
dc:title
Les relations (prédicats) ont un nom précis.Ce nom est une URL. ex : dc:title = http://purl.org/dc/elements/1.1/title
rda:title | abes:title | isbd:title
« Paul Veyne »
foaf:nameNommer les relations
Les entités (ressources) ont un nom précis.Ce nom est une URL. ex : http://dx.doi.org/doi:10.3406/mefr.1959.7458
ex : http://www.sudoc.fr/092673007/id
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »
dcterms:creator
dc:title
« Paul Veyne »
foaf:nameNommer les ressources
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »
dcterms:creator
dc:title
<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur_mefr_1904/id>.
< http://www.persee.fr/auteur_mefr_1904/id > foaf:name « Paul Veyne »
« Paul Veyne »
foaf:name
Ecrire ce graphe
Des graphes aux triplets
Triplets RDF
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »truc:subject skos:prefLabel
Deux sites en RDF peuvent parler de la même chose – explicitement ici (même nom (URL)).
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »
dcterms:creator
dc:title
« Paul Veyne »
foaf:name2 bases séparées
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »dcterm
s:creator
dc:title
« Paul Veyne »
foaf:name
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »
truc:subjectskos:prefLabel
L’agrégation des données est immédiateDeux sites en RDF peuvent parler de la même chose.Mais pas forcément de la même manière (pas de schéma ou de vocabulaire unique)
On agrège les 2 bases
Deux sites en RDF peuvent parler de la même chose – implicitement ici (deux noms différents !) Problème pour les agréger
http://www.truc.co.nz/wyz123
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »truc:subject skos:prefLabel
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »
dcterms:creator
dc:title
« Paul Veyne »
foaf:name2 bases séparées
Dire explicitement qu’il s’agit de la même entité avec owl:sameAs
http://dx.doi.org/doi:10.3406/mefr.1959.7458
owl:sameAs
http://www.truc.co.nz/wyz123
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »truc:subject skos:prefLabel
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »
dcterms:creator
dc:title
« Paul Veyne »
foaf:name2 bases séparées
http://dx.doi.org/doi:10.3406/
mefr.1959.7458
http://www.persee.fr/auteur_mefr_1904/id
« Retractatio »
dcterms:creator
dc:title
« Paul Veyne »
foaf:name
http://www.truc.co.nz/wyz123
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »truc:subject
skos:prefLabel
Grâce à owl:sameAS, la fusion est totale : tout ce qu’on dit de l’un est aussi vrai de l’autre
owl:sam
eAs
On agrège les 2 bases
owl:sameAs
owl:sameAs
truc:subjectdc:ti
tle
dcte
rms:c
reat
or
Paul Veyne dans le RDF de VIAFhttp://viaf.org/viaf/108250528/rdf.xml
Le Veyne de VIAF et le Veyne d’IdRef ne font qu’un
http://viaf.org/viaf/108250528
owl:s
ameA
s
http://www.idref.fr/027182800/id
http://www.truc.co.nz/wyz123
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »
truc:subject skos:prefLabel
Le schéma RDF ajoute des informations sur le vocabulaire utilisé (propriétés des propriétés et des classes)Ce qui permet de faire du raisonnement
On ajoute un peu de sémantique
truc:subject dcterms:subjectrdfs:subPropertyOf Schémas RDF
Ontologies
http://www.truc.co.nz/wyz123
http://id.loc.gov/authorities/subjects/sh85033856
« Credit »
truc:subject skos:prefLabel
Le raisonnement permet d’ajouter des informations (triplets).En l’occurrence, il permet d’exprimer automatiquement en Dublin Core un triplet qui utilisait un vocabulaire truc non standard
On en déduit que…
truc:subject dcterms:subjectrdfs:subPropertyOf Schémas RDF
Ontologies
http://www.truc.co.nz/wyz123
http://id.loc.gov/authorities/subjects/sh85033856
dcterms:subjectTriplets déduits
FondsCalames
Auteur IdRef
LivreSudoc
Thèsetheses.fr
AuteurVIAF
AuteurBnF
AuteurWikipedia
AuteurISNI
Aujourd’hui
owl:sameAs
owl:sameAs
FondsCalames
Auteur IdRef
LivreSudoc
Thèsetheses.fr
AuteurVIAF
AuteurBnF
AuteurWikipedia
AuteurISNI
Demain
owl:sameAs
FondsCalames
Auteur IdRef
LivreSudoc
Thèsetheses.fr
AuteurVIAF
AuteurBnF
AuteurWikipedia
AuteurISNI
Après-demain peut-être ?
owl:sameAs
owl:sameAs
AuteurHAL CCSD
ArticleHAL CCSD
LivreWorldcat
cite
a pourdérivé
owl:sameAs
Donnéesbrutes
+ brevets, projets ANR, etc.
+ CrossRef, revues, indicateurs d’usage, etc.
+ articles, éditions scientifiques, numérisation, etc.
http://www.flickr.com/photos/danbri/6233467501/
http://www.circuitdomain.com/PCB%20Prototyping/PCB.htm
ABES, charte graphique (circa 2000)
Vertu
RDF offre un modèle universel qui permet d’exprimer toute donnée, quelle que soit la norme de description.
Cela rend bien plus facile l’agrégation de données diverses
Effet
Inutile de chercher le format miracle qui marchera pour le MARC du Sudoc et d’IdRef, le TEF de STAR, l’EAD de Calames, l’ONIX de tel éditeur, le A++ de Springer (Lic. Nat.), le Bloubiboulga de tel autre, etc.
#abes #hubdedonnées #istex
RDF rend les données extensibles.
La notice d’autorité n’a pas besoin de tout stocker sur une personne.
Il vaut mieux en dire le strict nécessaire et faire des liens vers d’autres sources (ex : dictionnaires biographiques … en RDF)
Idem pour les données bibliographiques (prix, recensions, influences, etc.)
#idref #ist #wikipedia #webofdata
Vertu Effet
RDF n’impose pas de schéma unique. On peut mixer les vocabulaires
Devons-nous utiliser RDA, Dublin Core ou un vocabulaire bibliographique à nous ?
On peut faire les trois.On peut aussi utiliser un
vocabulaire dont le schéma explicite ses relations avec un vocabulaire standard
(cf. truc:subject et dcterms:subject)
#ouverturedesdonnées #hubdedonnées #istex
Vertu Effet
RDF permet de raisonner sur les données, pour les enrichir ou contrôler leur cohérence
Dans le projet SudocAD, on a essayé de déduire quelle est la bonne autorité à lier à une notice bibliographique
#hubdedonnées #sudocad #qualinca
Vertu Effet
En savoir plus
• Infos : http://punktokomo.abes.fr/tag/semantique-web/
• Outil : inspector.sindice.com
• Tutos : http://web-semantique.developpez.com/tutoriels/