visibilité et web de données
DESCRIPTION
C’est le paradoxe des bibliothèques : l’intérêt des internautes pour leurs ressources numérisées ne cesse d’augmenter, comme en témoigne l’accroissement de la fréquentation de la bibliothèque numérique Gallica ; cependant, ces ressources, ainsi que les contenus de nos catalogues, ne sont pas ou peu accessibles depuis les moteurs de recherche du web. Aussi nos missions de médiation et de diffusion culturelle doivent-elles aujourd’hui être repensées sous l’angle du marketing du web : comment faciliter l’accès à nos ressources, toucher de nouveaux publics, favoriser les découvertes heureuses sur le web ? La visibilité des ressources de la Bibliothèque nationale sur le web est devenue une question stratégique, en particulier à travers le service http://data.bnf.fr, qui repose sur les standards du web sémantique. Trois ans après son ouverture, le site http://data.bnf.fr compte plus de 130 000 visiteurs uniques par mois, dont 80% viennent des moteurs de recherche du web, et 60% rebondissent vers les catalogues et autres bases de la BnF. Un exemple d’utilisation : un internaute cherchant« Satires, Nicolas Boileau » sur le web, trouve la page http://data.bnf.fr/12050177/nicolas_boileau_les_satires/, laquelle fournit un point d’accès unique et fiable aux nombreuses déclinaisons de cette œuvre dans les collections de la BnF, numérisées ou non, adapté aux moteurs de recherche et au parcours des internautes. À la lumière de cette expérience, nous nous interrogeons sur les rapports entre web sémantique et visibilité dans les résultats de recherche des moteurs de recherche. Au-delà de l’exposition des données en RDF ou de l’intégration de schema.org, dont nous mesurons mal l’impact effectif sur le référencement du site, trois facteurs nous paraissent essentiels: la valeur ajoutée intrinsèque des contenus, l’organisation de la masse et l’inscription dans un réseau. http://data.bnf.fr crée en effet des pages web avec du contenu et des informations à forte compétitivité par sa qualité ou sa rareté, dans le contexte d’une offre culturelle pléthorique sur le web. Deuxièmement, il organise la masse d’informations publiées par la BnF (près de 20 millions de notices de catalogues et de référentiels d’auteurs, œuvres, thèmes, ou lieux, 3 millions de documents numérisés), en s’appuyant sur des traitements automatiques d’alignement et de regroupement des informations. Enfin, l’inscription de ces ressources dans un réseau global, en s’appuyant sur des alignements à des jeux de données extérieurs, permet de développer les liens sortants et, dans une certaine mesure, de favoriser les liens entrants.TRANSCRIPT
Visibilité et web de donnéesRéflexions autour du projet
Agnès SimonSébastien Peyrard
Bibliothèque nationale de France
SemWeb.pro 2014
Connaissez-vous data.bnf.fr ?
Enjeu
Des contenus à valeur ajoutéeque la BnF souhaite diffuser sur le web.
180 000 visites/mois (octobre 2014)
Référencement naturel
Des pages HTML Des URI stables et pérennes Un peu de sémantique
<div itemscope="itemscope" itemtype="http://schema.org/Book" xmlns:v="http://rdf.data-vocabulary.org/#" typeof="v:Work"><div class="ctxtoolbar"></div><h1><strong><span itemprop="name">L'attaque du moulin</span>
Le web sémantique dans tout ça ?
Organiser la masse
Développer les liens, en interne et avec l'extérieur
Organiser la masse
Toutes les contributions d'un même auteur Toutes les éditions d'une même oeuvre
http://data.bnf.fr/ark:/12148/cb13893514m
http://data.bnf.fr/ark:/12148/cb13911746t
Edition
Auteur
Oeuvre
Alignements et clustering
Alignements et clustering : travaux en cours
Alignement simple Bibliothèque Nazca « Commence par » et
lien auteur
Perspectives : Alignements avancés :
algorithmes prédictifs (nuages de mots)
Clustering : algorithmes Minhashing, Meanshift
Créer des liens, créer des services
« Auteurs nés en 1515 »
Développer les liens
Des liens vers le web …et les institutions
culturelles
Politique d’identifiants (ISNI)
Favoriser la réutilisation des données
…
Merci de votre attention
agnes[POINT]simon[at]bnf.frsebastien[POINT]peyrard[at]bnf.fr