semantic web-and-public-data

57
Mise à disposition et valorisation des données publiques COEPIA – 2014-01-17 09:30/partie 2 EU F7 projet - LOD2: Le partenaire TenForce (BE) Johan De Smedt 2014-01-17 TenForce – project: LOD2 1

Upload: tenforce

Post on 21-Jun-2015

660 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Semantic web-and-public-data

TenForce – project: LOD2 1

Mise à disposition et valorisation des données publiques

COEPIA – 2014-01-17 09:30/partie 2

EU F7 projet - LOD2: Le partenaire TenForce (BE)Johan De Smedt

2014-01-17

Page 2: Semantic web-and-public-data

TenForce – project: LOD2 2

Web sémantique et web des donnéesIngénierie des connaissances

Groupe Français de l’Industrie de l’Information (GFii)

EU F7 projet - LOD2: Le partenaire TenForce (BE)Johan De Smedt

2014-01-17

Page 3: Semantic web-and-public-data

TenForce – project: LOD2 3

Introduction

2014-01-17

Page 4: Semantic web-and-public-data

4

Example – L’ internet (1/.) http://www.gfii.fr/fr/2014-01-17

TenForce – project: LOD

2

Page 5: Semantic web-and-public-data

TenForce – project: LOD2 5

Example – L’ internet (2/2)

• L'Internet comme il est familier aujourd'hui:– texte, photo, vidéo, .... – hyperliens

• URL en format: http://{domaine}/{chemin}

• Livraison lien hypertexte sur le protocole HTTP– Avec une immense infrastructure

(serveurs: DNS, proxy, gestion du cache, DHCP, ...)– Soutenir les paramètres HTTP et négociation de

contenu (type MIME/format, langue, ...)

2014-01-17

Page 6: Semantic web-and-public-data

TenForce – project: LOD2 6

Catégories d'usagers de l'Internet (1/3)

• Catégories d'usagers – Humains– Applications (logiciel)

• La manipulation de l'information– Les consommateurs– Les fournisseurs

2014-01-17

Page 7: Semantic web-and-public-data

TenForce – project: LOD2 7

Catégories d'usagers de l'Internet 2/3

• Exemples– Robots d'indexation et de recherche– Applications sur les appareils mobiles– Browsers– Fournisseurs d'information d'origine

agrégateur d'information• Portails – éditeurs scientifiques (et autres)• Prévisions météo• Circulation• Actualités • L'administration en ligne (le e-Gouvernement)• Réservation d'hôtel et de voyage• ...

2014-01-17

Page 8: Semantic web-and-public-data

TenForce – project: LOD2 8

Catégories d'usagers de l'Internet 3/3

• Au service de l'intérêt humain– les activités économiques– la curiosité– le contrôle (des procès, de la sécurité, ...)– la mise en œuvre de la politique– la circulation– ...

2014-01-17

Page 9: Semantic web-and-public-data

TenForce – project: LOD2 9

But de la technologie du web sémantique

• Fournir les outils (sémantique de la langue) pour rendre la communication entre les utilisateurs d'Internet (en particulier entre les applications) possible– Manipulation des données brutes pour produire des

informations de valeur ajoutée est un élément primordial de l'industrie des services de la connaissance

• établir– "Une compréhension commune"– "De l’interopérabilité"– "La collaboration"

2014-01-17

Page 10: Semantic web-and-public-data

TenForce – project: LOD2 10

Les éléments clés pour la construction d'une "Compréhension commune"

• Publier des dictionnaires (par domaine spécialisé)– Taxonomie, classification, Thesaurus, référentiels, registres de sujet, ...– Les édition générale, le marché du travail, la législation, la géolocalisation, les sports, la

politique, ...• Publier des vocabulaires pour exprimer des relations, des dépendances, des

valeurs= Schéma des bases de connaissances (ontologie)

– Œuvres d'art, les droits, les licences, le commerce, ...– Établir le cadre de construire (mise à jour et de maintenir) les publications ci-dessus et

de les exploiter– Contribuer à faire de l'Internet une collection croissante de bases de données liées

• Utiliser des dictionnaires et des vocabulaires de référence• Publier en formats sémantique:

– contenu (HTML/humain) ET métadonnées (RDF/applicaition)

• Éditeurs fiables et de sources fiables de publication

2014-01-17

Page 11: Semantic web-and-public-data

TenForce – project: LOD2 11

L'administration en ligne

2014-01-17

Page 12: Semantic web-and-public-data

TenForce – project: LOD2 12

Application de démonstration: CELLAR - LOD2

• C' est quoi - le CELLAR– Propriétaire: Office des publications de l'Union européenne– En ligne de publications:

• Législation de l'UE - le contenu et les métadonnées• Prochainement: Jurisprudence de l’UE et jurisprudence national - le contenu et les

métadonnées

• C' est quoi - le LOD2– LOD: données public liées (« Linked Open Data »@en)

– liées: lien hypertexte (HTTP)

• Un projet de recherche du programme-cadre européen 7e

• Participants: Industrie, éditeurs, Université, entreprise TIC

• Application de démonstration– Utilisez CELLAR comme la source d'origine dans les produits d'une

entreprise privée • (par exemple, un éditeur: Wolters Kluwer – Allemagne [WKD])

2014-01-17

Page 13: Semantic web-and-public-data

TenForce – project: LOD2 13

Cas d'utilisation de la démo (1/5)

• Législation des produits associés ou les outils utilisés par:– La rédaction des éditeurs commerciaux, – Leurs clients, – Les clients de leurs clients et – Le grand public

... obtiennent un accès direct à source primaire de l'UE en matière de contenu et métadonnées à:

– améliorer la qualité de l'information– réduire le travail éditorial– élargir les offre de produits en matière de contenu et des

métadonnées

2014-01-17

Page 14: Semantic web-and-public-data

TenForce – project: LOD2 14

Produits - sans LOD 2/5

Produits internet1 Source

Révision éditoriale de liens et de métadonnées

source unique de contenu et des métadonnées pour le produit

2014-01-17

Page 15: Semantic web-and-public-data

TenForce – project: LOD2 15

Produits - sans LOD 3/5

• Sans données public liées (LOD)– L'accès se fait par Eur-Lex, qui n'est pas la principale

source d'information, mais une publication sur son propre

• délai, la disponibilité, pas le contenu brut ou des métadonnées brut

– Informations raclée est examiné et stocké localement• tâche pour le personnel WKD de rédaction

– Produits de WKD doivent être complète et autonome• avec des capacités limitées de liaison à la source d'origine

(quand même) disponible en ligne

2014-01-17

Page 16: Semantic web-and-public-data

TenForce – project: LOD2 16

Produits - avec LOD 4/5

Produits internet3 Source

1) source brut de contenu et de métadonnées – interface application

2) source de contenu et de métadonnées - interface humain

3) source de contenu enrichi et des métadonnées enrichi

2014-01-17

Page 17: Semantic web-and-public-data

TenForce – project: LOD2 17

Produits - avec LOD 5/5

• Avec LOD il y a:– Accès direct à la source de l'information d'origine

• contenu et les métadonnées

– Aide de l'application de la liaison avec et la réutilisation du contenu et des métadonnées à partir de la source d'origine

• WKD gamme de produits est complétée par la source d'origine disponible en ligne et exposant les origines

2014-01-17

Page 18: Semantic web-and-public-data

TenForce – project: LOD2

La Démo

• Recherche avancée– vocabulaire de catalogue des ensembles de données: DCAT

• Les informations de licence sur les données liées (= LD)• Récupérer le contenu et les métadonnées CELLAR en

utilisant LD• L'intégration du EUROVOC au moyen de LD• Réutiliser les publications de CELLAR et établir la

provenance et LD

• Aller à l'URL publique– http://212.71.25.157:8080/wp9IntAppEx-1.0/

182014-01-17

Page 19: Semantic web-and-public-data

TenForce – project: LOD2

La Démo (1/.)

• Excuses: – La démo est limitée à l'allemand et l'anglais

• Combined search on CELLAR WP7 LOD DCAT– Full text = Agrarstruktur Griechenland– Title = Kommission– Issue date = [ 1986-07-05 , 2000-01-15 [– Theme = Besteuerung

192014-01-17

Page 20: Semantic web-and-public-data

TenForce – project: LOD2

La Démo (1.1/.) • plein texte = Agrarstruktur Griechenland

– rang (en: score/rank)

202014-01-17

Page 21: Semantic web-and-public-data

TenForce – project: LOD2

La Démo (1.2/.) • plein texte = Agrarstruktur Griechenland• titre = Kommission

212014-01-17

Page 22: Semantic web-and-public-data

TenForce – project: LOD2

La Démo (1.3/.)

• plein texte = Agrarstruktur Griechenland• titre = Kommission• date de publicaiton [ 1986-07-05 , 2000-01-15 [

222014-01-17

Page 23: Semantic web-and-public-data

TenForce – project: LOD2

La Démo (1.4/.)

• plein texte = Agrarstruktur Griechenland• titre = Kommission• date de publicaiton [ 1986-07-05 , 2000-01-15 [• thème = Besteuerung

232014-01-17

Page 24: Semantic web-and-public-data

TenForce – project: LOD2

La Démo (2/.)

• Informations sur la licence– Devrait être disponible dans la source d'origine– Peut être fusionné dans la source par un service

de téléchargement, adressée par des informations sur la distribution DCAT

– Référence de licence fournit• Titre de l‘œuvre• Éditeur: Office des Publications de l’UE• Déclaration de la licence• La source primaire du contenu et des métadonnées

242014-01-17

Page 25: Semantic web-and-public-data

La Démo (2.1/.)référ. de licence avec titre de la source primaire (du registre DCAT)

25

2014-01-17TenForce – project: LO

D2

Page 26: Semantic web-and-public-data

La Démo (2.2/.)Editeur trouvé dans DCAT comme données liées à la référence de la licence

26

2014-01-17TenForce – project: LO

D2

Page 27: Semantic web-and-public-data

TenForce – project: LOD2

La Démo (2.3/.)

• Déclaration de licence fourni comme une référence de données liées

272014-01-17

Page 28: Semantic web-and-public-data

La Démo (2.4/.)Document source primaire fourni comme données liées dans la référence de la

licence

28

2014-01-17TenForce – project: LO

D2

Page 29: Semantic web-and-public-data

TenForce – project: LOD2

La Démo (3/.)

• Récupérer un document d'CELLAR– n'importe quel format disponible

• La démo utilise: html, xhtml, pdf, pdfa1a, pdfa1b

• Récupérer les métadonnées de CELLAR– Le vocabulaire ELI des métadonnées (RDF/XML format)– Le vocabulaire CELLAR des métadonnées (RDF/XML format)– Le format "Notice" des métadonnées (Format XML propriétaire)

• ELI– identifiant européen de la législation

• “European Legislation Identifier”@en

– http://publications.europa.eu/resource/oj/JOC_2012_325_R_0003_01.FRA.xhtml 292014-01-17

Page 30: Semantic web-and-public-data

La Démo (3.1/.)les options de récupération sur le document source primaire

30

2014-01-17TenForce – project: LO

D2

Page 31: Semantic web-and-public-data

La Démo (3.2/.)le document source primaire

31

2014-01-17

TenForce – project: LOD2

Page 32: Semantic web-and-public-data

TenForce – project: LOD2

La Démo (3.3/.)

• les options de récupération sur les métadonnées de la source primaire– ELI (RDF/XML)– raw RDF

(RDF/XML)– Format XML

propriétaire“notice”

322014-01-17

Page 33: Semantic web-and-public-data

La Démo (3.4/.)Récupérer les métadonnées de CELLAR

33

Note: Requires proper browser XML and RDF viewing options 2014-01-17

TenForce – project: LOD2

Page 34: Semantic web-and-public-data

La Démo (4/.)• Intégration EUROVOC

34

2014-01-17TenForce – project: LO

D2

Page 35: Semantic web-and-public-data

La Démo (5/.)Établir réutilisation - Faites glisser et déposez l'élément de CELLAR sur l'élément de

WKD

35

2014-01-17TenForce – project: LO

D2

Page 36: Semantic web-and-public-data

La Démo (5.1/.)Ajouter la référence de source primaire comme données liées

36

2014-01-17TenForce – project: LO

D2

Page 37: Semantic web-and-public-data

La Démo (5.2/5)Accédez à la référence de source primaire a travers les données liées

37

2014-01-17TenForce – project: LO

D2

Page 38: Semantic web-and-public-data

TenForce – project: LOD2 38

Exemples des cas d’usage connexes

2014-01-17

Page 39: Semantic web-and-public-data

TenForce – project: LOD2

Scenario 1 – Le marché de l'emploicas d’usage: PME dans la région aixoise a une offre d'emploi pour un programmeur Javacadre: Il devient plus difficile de trouver de bons développeurs de logiciels, en particulier au-delà des centres urbains. Les candidats dans les zones proches des frontières nationales doivent relever le défi qu'ils ont besoin des informations très pratiques autour de la mobilité, qui est actuellement à peine disponibleSujets couverts EUROVOC: travail, le marché du travail, mobilité de l'emploi, les postes vacantssources impliqués: Législation européenne, Eurostat, de-stat (fr-stat?), ESCO, Open Street Map, le transport public de Aix, Agence européenne pour la sécurité et la santé au travailSolution: La CE contribue les ingrédients de base pour une plate-forme centrale pour problèmes de mobilité transnationale de l'emploi

392014-01-17

Page 40: Semantic web-and-public-data

TenForce – project: LOD2

Scenario 2 – L’ environnement

cas d’usage: Une chaîne de supermarchés allemande veut lancer une campagne d'image sur fruits de mer qui n'est pas en danger vers la surpêche dans les années à venircadre: En Allemagne, le marché des aliments biologiques est en croissance rapide comme le soutien de la durabilité. Malheureusement, l'information sur le développement durable est ainsi dispersée, qu'il n'y a aucun moyen - par exemple pour l'industrie de la publicité - de réagir correctement et sérieusement sur cette tendance des consommateursSujets couverts EUROVOC : Réserve naturelle, la politique de l'environnement, gestion des ressources, Industrie de la pêche, le poisson frais, les quotas de capturesources impliqués : Législation européenne, Eurostat, destat, la FAO, la Banque mondiale, l'Agence européenne pour l'environnementSolution: La CE contribue les ingrédients de base pour une plate-forme centrale pour la protection de l'environnement

402014-01-17

Page 41: Semantic web-and-public-data

TenForce – project: LOD2

Scenario 3 – L’ énergie

cas d’usage: Le propriétaire de la maison dans le Pays-Bas veulent construire des cellules solaires sur son toitcadre: En raison de la "transition énergétique" ("Energiewende") en Allemagne, beaucoup de connaissances sur l'énergie renouvelable, l'impact, les technologies et les fournisseurs a été créé au niveau national. Cette information est également pertinente pour les autres Etats membres de l'UE et leurs citoyensSujets couverts EUROVOC : L'industrie de l'énergie, l'énergie solaire, cellule photovoltaïquesources impliqués: Législation européenne, Eurostat, destat, Centre commun de recherche, l'Agence de coopération des régulateurs de l'énergie, de l'Agence internationale de l'énergie, Stiftung WarentestSolution: La CE contribue des ingrédients de base pour relever les défis énergétiques transnationaux

412014-01-17

Page 42: Semantic web-and-public-data

TenForce – project: LOD2 42

Prochaines étapes pour CELLAR (2014)

• Publier la législation de l’UE selon les normes ELI

• Publier jurisprudence selon les normes de ECLI• Publier le catalogue de la législation et de la

jurisprudence (éventuellement en utilisant la recommandation DCAT)

• Publier toutes les taxonomies de l'UE selon des niveaux plus élevés de normes LOD

2014-01-17

Page 43: Semantic web-and-public-data

TenForce – project: LOD2 43

ESCO

2014-01-17

Page 44: Semantic web-and-public-data

TenForce – project: LOD2 44

Le projet ESCO

• ESCO– Projet du DG emploi de l’UE– ESCO

• https://ec.europa.eu/esco/home (version 0)• Classification européenne des Aptitudes, Compétences,

Certifications et Professions– European Skills, Competences, Qualifications and Occupations

• Une taxonomie de trois piliers [sous-taxonomies] (S/C, Q et O) et le relations entre eux.

• Réutilise plusieurs autres taxonomie

2014-01-17

Page 45: Semantic web-and-public-data

ESCO Modèle de DonnéesPilier Profession

• correspondance avec– ISCO xx (Norme OIT/ONU)– ROME (Norme Française)– ...

2014-01-17 TenForce – project: LOD2 45

O [profession]

Taxonomy par secteur industrielle- Agriculture- Education- ...

NACEmarquage

ISCO08

broaderMatch

ISCO88

correspondanceexactMatch

broaderMatch

ROME

broaderMatchexactMatch

Page 46: Semantic web-and-public-data

ESCO Modèle de DonnéesPilier Profession

• relation descriptif

2014-01-17TenForce – project: LO

D2

46

Profession journaliste: =========================================================================================================

Compétences: =======================================================================================================

Qualifications: ==========================================================================================

document texte - non structurées ou semi-structurées

Occupation

à propos de(about)

Page 47: Semantic web-and-public-data

ESCO Modèle de DonnéesPilier Compétences [Skill]

• Les compétences peuvent être– transversal– spécifique au secteur

• Le genre de compétence– connaissances, les compétences, la

compétence, la capacité • Compétences et Groupe

– Compétence & Leaf Group• Compétence (membre d'un groupe)

2014-01-17

TenForce – project: LOD247

• relation profession - compétences

Description de la Profession: =======================================================================================================

Compétences: =======================================================================================================

Qualifications: ==========================================================================================

document texte - non structurées ou semi-structurées

Occupation

à propos de

skill

skill

essentiel

désirée

Page 48: Semantic web-and-public-data

ESCO Modèle de Données

• Facette d'une compétence2014-01-17 TenForce – project: LOD2 48

Expertise en langues étrangères

Facette de langues

Facet sur l'utilisation de la

langue

facette principale facette sous

compréhension

parlant

écriture

english

german

dutch

oasisLoC

EU-POskos:exactMatch

membre

membre

écoute

lecture

interaction orale

proclamer

spécifique

spécifique

(1) (1)

(2)

(4) (4)

membre

sub facet

Page 49: Semantic web-and-public-data

ESCO Modèle de DonnéesPilier Qualification

• EQF, FoET, Awarding Body

2014-01-17 TenForce – project: LOD2 49

Q-groups

ESCOQ-Pillar

Q-members

FoET

exactMatch

EQF

tagging

hasAwardingBodyDescription

AwardingBody

tagging

description

Page 50: Semantic web-and-public-data

Profession journaliste: =========================================================================================================

Compétences: =======================================================================================================

Qualifications: ==========================================================================================

document texte - non structurées ou semi-structurées

Occupation

à propos de(about)

ESCO Modèle de DonnéesPilier Profession (Reprise)

• relation descriptif

2014-01-17TenForce – project: LO

D2

50

Page 51: Semantic web-and-public-data

ESCO Modèle de DonnéesPilier Profession (Reprise)

• Association: Profession - Qualification

2014-01-17TenForce – project: LO

D2

51

Description de la Profession: =======================================================================================================

Compétences: =======================================================================================================

Qualifications: ==========================================================================================

Occupation

qualification

document texte - non structurées ou semi-structurées

à propos de(about)

Page 52: Semantic web-and-public-data

ESCO Modèle de DonnéesPilier Qualification

• Qualification inclus de manière indirect ou direct

• Qualification directement inclus sont maintenues par DG-EMPL/ESCO sur une base «au besoin» ou sur la base de la pertinence– qualification internationale (hors UE)

• Etats-Unis, Chine, ...

– qualification d'entreprise• ORACLE, CISCO, Microsoft, ...

• Qualification indirectement inclus sont– Maintenu par des organisations nationales– Enregistré par la DG EAC– Transférée à la DG EMPL selon la structure XML du DG-EAC

(enseignement et culture)– Chargé dans ESCO par DG-EMPL/ESCO

2014-01-17 TenForce – project: LOD2 52

Page 53: Semantic web-and-public-data

ESCO Modèle de DonnéesPilier Qualification

• relation descriptif

2014-01-17 TenForce – project: LOD2 53

Description de la Qualification: =======================================================================================================

Compétences: =======================================================================================================

skill

skill

qualification

awarding body

compétences

organisme certificateur

à propos de(about)

document texte - non structurées ou semi-structurées

Page 54: Semantic web-and-public-data

ESCO Modèle de Données - résumé• ESCO a trois piliers (Un pilier est une classe de concepts)

– occupation– compétence– qualification

• ESCO supporte la correspondance complète ou partielle à des autre taxonomie [mappé] (la correspondance est exprimer avec les propriétés de correspondance SKOS)

– La correspondance entre ESCO et ISCO (profession ESCO et groupe de profession ISCO)– La correspondance entre ESCO ROME (professions)

... d'autres si on en a besoin (O * NET) • ESCO utilise des taxonomies de soutien

– à marquer les concepts pilier ESCO (Marquage utilise DCMI sujet de la propriété) – pour le organiser le modèle ESCO avec des facettes (Groupement de concepts)– Exemples

• Lieu (Eurostat: NUTS; ISO)• Secteur d'activité (Eurostat: NACE)• Cadre européen des certifications (EQF)• CEFR• Unesco - ISU: FoET, ISCED• Langues (PO de l'UE, Lib du Congrès, OASIS-psi, ISO 639)• ...

2014-01-17 TenForce – project: LOD2 54

Page 55: Semantic web-and-public-data

TenForce – project: LOD2 55

Outils pour Données Public Liées

2014-01-17

Page 56: Semantic web-and-public-data

TenForce – project: LOD2 56

Quelques outils pour Données Public Liées

• SPARQL end-point – Base de données type NoSQL (RDF graph, Colonne)– Virtuoso, Oracle, Allegrograph

• Cadre de développement– Jena, Sesame

• Analyser– Topbraid, Protégé

• Alignement des bases de connaissances– SILK:

• http://lod2.eu/Project/Silk.html• http://wifo5-03.informatik.uni-mannheim.de/bizer/silk/

• Les meilleures pratiques– https://dvcs.w3.org/hg/gld/raw-file/default/bp/index.html

2014-01-17

Page 57: Semantic web-and-public-data

TenForce – project: LOD2 57

Références• Projets sur web sémantique

– Eurovoc– Cellar– ESCO– LOD2 (R&D)– Wolters Kluwer– ODP (Open Data Portal)– ODS (Open Data Support)

• ISO 25964 (normalisation thésaurus)

• TenForce.com• [email protected]

2014-01-17