concevoir un outil d'analyse de réseau en ligne

31
Projet RePEc Christophe WILLAERT Nahid OULMI 25 février 2016

Upload: nahid-oulmi

Post on 16-Apr-2017

175 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Projet RePEc

Christophe WILLAERT Nahid OULMI

25 février 2016

Plan

1. Introduction

2. Éléments du web sémantique

3. Produire les triplets RDF

4. Rendre les données accessibles

5. Conclusion

Projet RePEc 2 / 31

1. Introduction

2. Éléments du web sémantique

3. Produire les triplets RDF

4. Rendre les données accessibles

5. Conclusion

Projet RePEc Introduction 3 / 31

Research Papers in Economic

Ï Crée en 1997Ï Base de données décentraliséeÏ 2 000 000 items recensés :

Ï + de 58 700 auteursÏ + de 1 220 000 articles (publiés)Ï + de 709 000 papiers (working papers)Ï + de 37 000 chapitres de livre

Ï Métadonnées au format ReDIF (Research Document Information Format)

Projet RePEc Introduction 4 / 31

Le projet

Ï Objectif : étudier les réseaux de co-auteurs en Sciences-ÉconomiquesÏ Auteurs des publications présentes dans RePEcÏ Exemples de questionnement :

Ï un auteur avec un h-index élevé est-il bien central dans la discipline ?Ï dans son champ d’études ?

Ï Mission :Ï nous approprier les jeux de donnéesÏ nous approprier les notions liées au web sémantiqueÏ concevoir un script pour la conversion des donnéesÏ mettre les données converties en base de données

Projet RePEc Introduction 5 / 31

Les étapes

Projet RePEc Introduction 6 / 31

L’accès aux métadonnées

Ï Accès à l’ensemble des données de RePEc via des accès FTP/HTTPÏ repec.org liste tous les sites (archives)Ï miroir de l’ensemble des sites mis en place pour le projetÏ accessible sur http://test.boulgour.com/repec

Ï Une archive particulièreÏ un répertoire du mirroir : remo/perÏ contient un fichier ReDIF par auteur présent dans RePEcÏ chaque fichier contient les informations sur un auteur

Ï nomÏ liste des documents auxquels il a contribué

Ï C’est à partir de ces fichiers que nous avons travaillé

Projet RePEc Introduction 7 / 31

Base de données sémantiques ?

Ï Web sémantiqueÏ un projet des fondateurs du web depuis les années 90Ï porté par le W3C

Ï IdéeÏ rendre l’information accessible aux machinesÏ lier l’information avec des données structuréesÏ faire du web une bibliothèque géante unifiée

Ï On parle désormais de web des données (Linked Data)

Projet RePEc Introduction 8 / 31

1. Introduction

2. Éléments du web sémantique

3. Produire les triplets RDF

4. Rendre les données accessibles

5. Conclusion

Projet RePEc Éléments du web sémantique 9 / 31

RDF : Resource Description Framework

Ï un cadre de travail pour publier/manipuler des donnés sur le webÏ recouvre à la fois

Ï un modèle liant un sujet à un objet via un verbeÏ notion de triplets RDF (plus petit élément de connaissance)Ï plusieurs syntaxes de représentations

Ï RDF/XML,Ï Turtle,Ï N-TriplesÏ . . .

Ï ContexteÏ récupérer les données des fichiers ReDIFÏ pour les mettre sous la forme de triplets RDFÏ afin de pouvoir analyser les relations entre auteursÏ choix de la syntaxe N-Triples pour sa simplicité

Projet RePEc Éléments du web sémantique 10 / 31

URI : l’identifiant des objets sur le web

Ï Uniform Ressource Identifier (URI)Ï un identifiant unique pour une source webÏ composant important du web sémantique

Ï Uniform Ressource Locator (URL)Ï identifie une source et permet en plus d’y accéder directement

Ï URI ne permet pas tant de retrouver la source que de la qualifier

Projet RePEc Éléments du web sémantique 11 / 31

La syntaxe N-triples

Ï La structure du RDF est une séquence (Sujet – Prédicat – Objet)Ï Utilisation de la syntaxe N-Triple pour produire cette séquence :

<Sujet> <Prédicat> <Objet> .

Ï Ne pas oublier le point !

Ï Le sujet et l’objet peuvent êtreÏ une URIÏ une URL (mieux)Ï un littéral (c’est-à-dire une chaîne de caractères non-identifiée)

Ï Le prédicat doit obligatoirement être un URI ou une URL

Projet RePEc Éléments du web sémantique 12 / 31

1. Introduction

2. Éléments du web sémantique

3. Produire les triplets RDF

4. Rendre les données accessibles

5. Conclusion

Projet RePEc Produire les triplets RDF 13 / 31

Créer un parseur de fichiers ReDIF

Ï Parser un fichier = le parcourir et en extraire les informations utilesÏ Objectif dans notre cas :

Ï NomsÏ PrénomsÏ Domaine d’activitéÏ Ensemble des documents auxquels aura participé l’auteur

Ï Pour l’ensemble des auteurs enregistrés

Projet RePEc Produire les triplets RDF 14 / 31

Notre parseur en Python

Ï Trois étapes :

1. Ranger les données dans des listes2. Concaténer ces listes pour avoir des N-Triples3. Lui faire comprendre qu’on lui fournit des fichiers en entrée

Projet RePEc Produire les triplets RDF 15 / 31

Prendre des fichiers en argument

Ï Plus de 58 700 fichiers ReDIF à traiterÏ automatisation de la tâche nécessaire

Ï Bash : langage de programmation des systèmes UnixÏ Avec Bash et Python nous pouvons prendre en argument une infinité de fichiers

Projet RePEc Produire les triplets RDF 16 / 31

Organiser l’information sous forme de N-Triples

Ï Souvenez-vous des N-Triples : (Sujet – Prédicat – Objet)Ï Exemple dans notre cas :

Projet RePEc Produire les triplets RDF 17 / 31

Enrichir ces données

Ï Nom/PrénomÏ Identifiant unique (URL ?)Ï Dernière connexionÏ Problème de la classification NEP/JEL

Projet RePEc Produire les triplets RDF 18 / 31

Enrichir ces données

Projet RePEc Produire les triplets RDF 19 / 31

1. Introduction

2. Éléments du web sémantique

3. Produire les triplets RDF

4. Rendre les données accessibles

5. Conclusion

Projet RePEc Rendre les données accessibles 20 / 31

Deux types de bases de données

Ï Bases de données sémantiques (triplestores)Ï logique pure / approche académiqueÏ hautement complexeÏ met l’accent sur le raisonnement

Ï notion d’inférencesÏ notion d’ontologies

Ï met l’accent sur la précision (le plus complet possible)

Ï Bases de données orientées graphesÏ pragmatismeÏ complexité intermédiaireÏ faciliter pour traverser les graphesÏ plus performant

Projet RePEc Rendre les données accessibles 21 / 31

Choix de Virtuoso

Ï Virtuoso est un triplestoreÏ Base conçue pour les données RDF . . . mais pas seulementÏ Complet . . . mais complexeÏ Installé sur le serveur test.boulgour.com

Ï Objectifs :Ï Importer nos N-Triples dans la baseÏ Effectuer des requêtes SPARQL

Projet RePEc Rendre les données accessibles 22 / 31

Utilisation de Virtuoso

Ï Accès :Ï web via l’outil Conductor

Ï interface graphique depuis un navigateur

Ï en ligne de commande via iSQLÏ commande isql-vt

Ï Syntaxe :Ï langage SQL intégréÏ langage SPARQL

Projet RePEc Rendre les données accessibles 23 / 31

SPARQL

Ï Langage de requêtes pour des données RDFÏ Equivalent au SQL mais pour le web sémantiqueÏ Standardisé par le W3C depuis 2008

Ï Permet de sélectionnerÏ le nœuds d’un graphe RDFÏ ainsi que les liens qui les composent

Projet RePEc Rendre les données accessibles 24 / 31

SPARQL : un exemple

Les coauteurs de pfa122 (Étienne FARVAQUE)

SELECT DISTINCT "pfa122" ?auteurWHERE{

?publication ?p ?auteur .FILTER(

?publication =(

SELECT ?publicationWHERE{

?publication <http://purl.org/dc/elements/1.1/creator> "pfa122"}

)&& ?auteur != "pfa122"

)};

Projet RePEc Rendre les données accessibles 25 / 31

1. Introduction

2. Éléments du web sémantique

3. Produire les triplets RDF

4. Rendre les données accessibles

5. Conclusion

Projet RePEc Conclusion 26 / 31

Point d’étape à l’issue du semestre

Projet RePEc Conclusion 27 / 31

Étapes de travail restantes

Ï Etape facultative : création d’une APIÏ Etape de visualisation des donnéesÏ Enrichir l’information (JEL/NEP ?)

Projet RePEc Conclusion 28 / 31

Ce que nous avons appris

Ï Mise en pratique de notions vu en coursÏ PythonÏ Linux / Bash

Ï Apprentissage et mise en pratique de notions nouvellesÏ MarkdownÏ SSHÏ Git / GithubÏ RDF / Virtuoso

Projet RePEc Conclusion 29 / 31

Difficultés rencontrées

Ï Compréhension des concepts liés au web sémantiqueÏ Virtuoso :

Ï difficulté de prise en main de VirtuosoÏ pas d’accès à l’interface en ligne de commandeÏ pas de feeback lors de l’exécution des requêtes

Ï Classification JEL/NEP

Projet RePEc Conclusion 30 / 31

Remarques

Ï Regarder les alternatives à VirtuosoÏ Vérifier l’intégrité des données en baseÏ Souhait de suivre/poursuivre le projet

Projet RePEc Conclusion 31 / 31