partenariat de la bnf avec wikimédia france - arnaud beaufort (décembre 2010)

34
Partenariat de la BnF avec Wikimédia Arnaud Beaufort Bibliothèque nationale de France Directeur général adjoint Directeur des services et des réseaux Rencontres Wikimédia 4 décembre 2010

Upload: bastien-guerry

Post on 05-Dec-2014

2.524 views

Category:

Education


4 download

DESCRIPTION

Présentation faite par Arnaud Beaufort lors des Rencontres Wikimédia 2010 (Paris)

TRANSCRIPT

Partenariat de la BnF avec Wikimédia

Arnaud BeaufortBibliothèque nationale de FranceDirecteur général adjointDirecteur des services et des réseaux

Rencontres Wikimédia4 décembre 2010

Une convention pour deux projets

Convention Signature : nov. 2009 Lancement avec le Salon du Livre 2010

1 416 documents pour Wikisource

Les autorités pour Wikipédia (infobox)Noms géographiquesNoms de personnesTitres uniformes musicauxTitres conventionnelsTitres uniformes textuels

Projet 1 :

1416 documents pour Wikisource

Et si les internautes faisaient mieux que les machines…

Alphonse Allais, Deux et deux font cinq, 1895 – Texte original

Le même texte généré par OCR (reconnaissance optique de caractères)

Le même texte corrigé par les internautes sur Wikisource

Des livres pour Wikisource

La BnF a signé une convention portant sur 1416 documents Différents taux de qualité

pour étudier l’influence du taux de qualité sur l’activité des internautes (est-il plus facile de transcrire à partir de rien qu’à partir d’un texte très fautif ?)

Y compris avec Niveau Qualité < 60 % Différentes thématiques, tout en restant à niveau

généraliste Ensembles cohérents (pas de séries dépareillées)

Quelques exemples…

Corriger le texte

Gallica Texte obtenu par OCR

Tables des matières : OCR + relecture Indexé seulement si NQ ≥ 60 %

=> perdu si NQ < 60 % Pas de correction (ni par les internautes, ni par

reCaptcha)

NB : d’autres bibliothèques proposent des systèmes de correction en ligne (http://newspapers.nla.gov.au/ndp/del/home)

Un exemple : la Bibliothèque nationale

d’Australie (presse numérisée)

Un exemple : la Bibliothèque nationale

d’Australie (presse numérisée)

Bilan d’étape (octobre 2010)

1416 livres ont été donnés dans le cadre du partenariat

1057 avaient un OCR (et 359 sans OCR)

573 310 pages cumulées

404 pages par livre en moyenne

Création d’un modèle

Création d’un modèle pour indiquer la provenance BnF

Le signalement des ouvrages et l'animation de la communauté est pris en charge par Wikimédia…

…et relayé par Gallica sur les réseaux sociaux…

…avec succès !

Répartition du corpus par page

En cours

Fini

Pas commencé

Enjeux : le collaboratif et Gallica

Enseignements à tirer des premiers mois de ce partenariat :

Importance de s’appuyer sur une base de contributeurs aguerris

Importance de l’animation de la communauté (événements, appels à contribution, réseaux sociaux et blogs…) pour attirer de nouveaux contributeurs

Depuis fin novembre 2010, mise en place de liens de Gallica vers Wikisource

Le lien est fait page à page directement. Il faudra suivre si ces liens ont un impact sur la contribution de

correcteurs qui ne sont pas des habitués de wikisource.

Et demain ?

Développer un service de correction d’OCR dans Gallica ? R&D avec Orange Labs (projet Ozalid) Projet de saisie de manuscrits (ANR) Mais importance de la fonction d’animation de communauté.

D’où l’importance de s’appuyer sur les communautés existantes.

Les prolongements du partenariat actuel La récupération du texte corrigé

Sera traitée ultérieurement, sous forme d’un marché (réinjecter le texte tout en restant compatible avec les fonctionnalités de Gallica)

Se servir de ces textes corrigés pour créer des e-books ePub…

NB : d’ores et déjà, la BnF réfléchit à mettre à disposition des contenus divers (images…) pour des partenaires (Wikimedia commons, Flick’r, WDL…) de façon à améliorer la visibilité de ses ressources pour les internautes

Projet 2 :

Structurer les données

Les données d’autorité de la BnF

Les lieux : noms géographiques (autorités GEO)

Les personnes noms de personnes (autorités PEP)

Les « œuvres » : les titres uniformes musicaux (TUM) les titres conventionnels (TIC) les titres uniformes textuels (TUT)

Soit environ 1,6 millions de noticesSoit environ 1,6 millions de notices

Exemple de lieux

L’espace… et le temps

Coordonnées géographiques

Différentes langues ou graphies

Exemple de titres uniformes musicaux

Différents titres utilisés

Fait partie de

Informations sur l’œuvre

Exemple de titres conventionnels ou textuels

Différents titres utilisés

Fait partie de

Différentes langues

Informations sur l’œuvre

Objet du partenariat

La BnF met à disposition ses notices d’autorité

Utilisation dans Wikipédia Alimentation des « infobox » Avec de l’information structurée Liens vers les notices BnF

Données structurées…-sans gestion des autorités-sans lien vers la BnF et ses ressources-avec des informations supplémentaires par rapport aux notices de la BnF

Exemple de personne

L’exemple allemandL’exemple allemand

Lien vers le catalogue de la bibliothèque nationale allemande

Des enjeux majeurs

Modifier la relation avec les internautes Améliorer nos données

à terme, possibilité de récupérer ou d’indexer le texte corrigé

Multiplier les points d’accès vers les ressources de la Bibliothèque nationale

Insérer nos données dans le web de données

Le projet de « pivot documentaire » (data.bnf.fr)

La BnF développe un projet pour mettre en œuvre ces pistes de travail

Augmenter la visibilité des ressources BnF sur le Web Proposer des pages attractives Centrées autour des notions d’œuvre et

d’auteur Nombreux liens vers des ressources BnF

et des ressources externes (dont Wikipedia)…

Romain Wenz- July 21st 2010 33

Maquette du pivot documentaire

Exemple de page « œuvre »

Une ergonomie durable qui a pour but de :

-fournir du contenu

-lier vers les ressources

-conduire aux services

Merci de votre attention

[email protected]