opendata
TRANSCRIPT
Normes de développement WEB
Spécificités de l'OpenData
L'Open Data● disponibles en ligne librement ★● structurées et accessibles ★★● libres techniquement ★★★● identifiables et interrogeables ★★★★● liées à d'autres ressources ★★★★★
Tim Berners-Lee, 2010
Le Web de données à la rescousse
données en masse => problèmes techniques d'exploitation des données ouvertes
Mécanismes du Web de données: ● Accessibilité à travers des identifiants● Standardisation (RDF, micro-données HTML5)● Entrepôt de données (SPARQL)
=> Contrôlables et Exploitables
Qu’est-ce que le Web des données ?
Le Web de données (Linked Data) est une initiative du W3C. Tous les éléments doivent être représentés par des identifiants:● uniques● valides● lisibles● liés
W3C, standards et formats
RequêtesSPARQL
OntologieOWL
Structuration des donnéesRDF
SérialisationNotation3
IdentificationIRI
AlphabetUNICODE
Internationalized Resource Identifier
Unicité, lisibilité, validité => IRI, Identificateur de ressource internationalisé.
● adresse prenant différentes langues● Syntaxe:
IRI absolu : protocole://domaine/nœuds/../document#réf
IRI relatif :
@prefix prefixe: <IRI absolu> .prefixe:chemin .
Resource Description Framework● Un document structuré en RDF décrit les
ressources et leurs métadonnées● permet le traitement automatique des
données● Un document structuré en RDF est constitué
d'un ensemble de triplets.
Triplet RDF
Un triplet RDF est une association: (sujet, prédicat, objet)
● sujet: ressource à décrire ;● prédicat : type de propriété applicable;● objet: donnée ou une autre ressource :
valeur de la propriété.
Triplet RDF
Un triplet RDF est une association: (sujet, prédicat, objet)
● sujet: IRI ;● prédicat : IRI;● objet: valeur ou IRI.
Graphe RDFhttp://data.cder.dz/member/s.bouchaib
Samy
w3:fullName
http://www.w3.org/contact#mailbox
BOUCHAIB
w3:lastNamew3:firstName
@prefix w3: <http://www.w3.org/contact#> .@prefix cder: <http://data.cder.dz/members/>cder:s.bouchaib w3:mailbox "[email protected]"cder:s.bouchaib w3:fullName [w3: firsName"Samy" ; lastName"Bouchaib"] .
Sntaxe RDF en Notation3 (Turtle)
@prefix pref1 : <IRI1> .@prefix pref2 : <IRI2#> .
pref1:sujet1 pref2:predicat1 objet1 .
pref1:sujet2pref2:predicat1 objet2^^xsd:integer .pref2:predicat2 objet3@fr .
<IRI3> <IRI4> objet .
Le protocole SPARQL● SPARQL (SPARQL Protocol and RDF Query
Language) est un langage de requêtes pour interroger des données de type RDF.
● C'est l'une des couches pour la mise en œuvre du Web sémantique
● Trois recommandations W3C:● Langage de requête SPARQL● Formatage des donnes résultats● Protocole d'accès
Syntaxe SPARQL
Clauses:
PREFIX (Schéma de données)
SELECT … (valeurs à retourner)
FROM … (données sources)
WHERE { ... } (Schéma de donnée RDF)
Type de requêtes SPARQL● Lecture (SELECT)● Ecriture (INSERT/DELETE DATA)● Découverte prédicats et types (DESCRIBE) ● Exportation (CONSTRUCT) aux formats (N3,
JSON, XML, RDF)
Triplesores SPARQL● Un triplestore est une base de données
conçue pour le stockage et la récupération de données RDF
● contrairement à une base de données relationnelle, un triplestore ne stocke qu'un seul type de données : le triplet
● Exemple : 4store, Sesame, Jena ...
Avantages● offrir une interopérabilité non seulement au niveau des
services mais aussi au niveau des données● offre le même usage que SQL, mais en respectant les
standards du W3C● une application pourra interroger à l'avenir n'importe quel
serveur SPARQL sans se soucier du constructeur● SPARQL permet de découvrir la structure d'une base de
données pour répondre à des questions complexes