la numérisation des catalogues : une analyse rétrospective · la numérisation des catalogues :...

17
Document numérique. Volume 6 – n° 1-2/2002, pages 81 à 97 La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de Lausanne BFSH1, 1015 Lausanne [email protected] RÉSUMÉ. Dans le secteur des bibliothèques, toutes les activités professionnelles reposent sur la création et la gestion des catalogues. Le passage des catalogues papiers aux catalogues numériques est un projet ambitieux dont la complexité est difficile à prévoir et à gérer. Dans cet article nous nous intéressons aux problèmes posés par la mise en oeuvre pratique d’un tel projet. Nous commençons par définir les catalogues bibliographiques, puis la problématique de leur mise en réseau. Nous abordons par la suite les modalités et les difficultés de leur numérisation. Nous terminons enfin cet article par une étude de cas et une conclusion. ABSTRACT. In the sector of the library all the professional activities reset on the creation and the management of the catalogues. The digitalization of those is an ambitious project whose complexity is difficult to evaluate and to manage. In this paper we are interested with in the problems arising at the practical implementation of such a project. We start by an introduction, then we define the bibliographical catalogues, and explain the difficulties of their federation and networking. We then discuss the methodologies of their digitalization. And we finally present a case study followed by a conclusion. MOTS-CLÉS : notice bibliographique, catalogue, numérisation, normes et standards. KEYWORDS: bibliographic record, catalogues, digitalization, standards.

Upload: others

Post on 21-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

Document numérique. Volume 6 – n° 1-2/2002, pages 81 à 97

La numérisation des catalogues :une analyse rétrospective

Sarra Ben Lagha

Inforge, Ecole des HEC, Université de LausanneBFSH1, 1015 Lausanne

[email protected]

RÉSUMÉ. Dans le secteur des bibliothèques, toutes les activités professionnelles reposent surla création et la gestion des catalogues. Le passage des catalogues papiers aux cataloguesnumériques est un projet ambitieux dont la complexité est difficile à prévoir et à gérer. Danscet article nous nous intéressons aux problèmes posés par la mise en œuvre pratique d’un telprojet. Nous commençons par définir les catalogues bibliographiques, puis la problématiquede leur mise en réseau. Nous abordons par la suite les modalités et les difficultés de leurnumérisation. Nous terminons enfin cet article par une étude de cas et une conclusion.

ABSTRACT. In the sector of the library all the professional activities reset on the creation andthe management of the catalogues. The digitalization of those is an ambitious project whosecomplexity is difficult to evaluate and to manage. In this paper we are interested with in theproblems arising at the practical implementation of such a project. We start by anintroduction, then we define the bibliographical catalogues, and explain the difficulties oftheir federation and networking. We then discuss the methodologies of their digitalization.And we finally present a case study followed by a conclusion.

MOTS-CLÉS : notice bibliographique, catalogue, numérisation, normes et standards.

KEYWORDS: bibliographic record, catalogues, digitalization, standards.

Page 2: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

82 DN – 6/2002. Les dossiers numériques

1. Introduction

Chaque secteur professionnel manipule et gère des dossiers, plus ou moinsévolutifs, plus ou moins complexes et plus ou moins volumineux. Dans le secteurdes bibliothèques, on gère des périodiques et des monographies qui ont un cycle devie (acquisition, catalogage, prêt, etc.) et pour cela on utilise des « dossiers ». Maisplutôt que d’associer un dossier à chaque ouvrage, chaque étape du cycle de vie dece dernier engendre la création ou la mise à jour d’un document dans un ouplusieurs dossiers (fichier de commande, livre d’inventaire, catalogue matière,catalogue auteur, etc.). Aujourd’hui, on s’imagine mal que pour trouver un livre, ilfaut se déplacer jusqu’à la bibliothèque, chercher les fichiers (physiques), ouvrir destiroirs en acier et faire défiler des fiches cartonnées rédigées selon un format peuconvivial et classées par ordre alphabétique. Pourtant, dans la période de transitionqui caractérise actuellement la production et la diffusion de l’informationscientifique et technique, tous les pays ne se trouvent pas au même niveau (Guinchatet al., 1989).

Le passage du papier au numérique est un projet ambitieux dont la complexitéest difficile à prévoir et à gérer. Dans cet article nous nous intéressons auxproblèmes posés par la mise en œuvre pratique d’un tel projet dans le secteur desbibliothèques. Nous commençons par définir les catalogues bibliographiques, puisla problématique de leur mise en réseau. Nous abordons par la suite les modalités etles difficultés de leurs numérisation. Nous terminons enfin cet article par une étudede cas et une conclusion.

2. Les catalogues bibliographiques

Pour qu’il soit disponible pour les lecteurs, tout document doit être catalogué.Cataloguer un document consiste à créer et lui associer une notice bibliographiquedans un catalogue. Il existe des formats normalisés de structuration et dereprésentation de ces notices. Un exemple de notice bibliographique du« Dictionnaire critique de la révolution française de F. Furet », telle qu’elle figuredans le catalogue de la Bibliothèque nationale de France (BNF, 2002) selon leformat UNIMARC (BNF, 1994) est illustré par la figure 1. Si un tel format est trèsutile pour des catalogueurs professionnels, il est loin de l’être pour les lecteurs quivoudraient rechercher à un ouvrage et y accéder dans une bibliothèque. Pour cela, ilexiste un autre format plus restreint et plus lisible pour présenter une notice auxlecteurs, c’est le format ISBD (International Standard Bibliographic Description).La figure 2 illustre la même notice bibliographique que la figure 1 mais exprimée enformat ISBD. Ces deux formats justifient la gestion et la maintenance de deuxcatalogues : le catalogue professionnel et le catalogue public (destiné aux lecteurs).

Un catalogue se présente comme un ensemble de fiches classées par ordrealphabétique. Suivant le mode d’accès (titre, auteur, localisation...) on a besoin de

Page 3: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

Numérisation des catalogues 83

catalogues différents. On distingue ainsi, du côté des lecteurs, le catalogue matière,le catalogue auteur, le catalogue géographique, etc., et du côté des professionnels lecatalogue topographique (nécessaire à l’inventaire), le catalogue chronologique(classement par numéro d’entrée du document dans le fonds documentaire), etc.L’élément d’accès à la notice dans un fichier (ou catalogue) s’appelle la vedette oul’autorité. On parle alors de vedette-matière, vedette-auteur, etc.

Figure 1. Notice bibliographique au format UNIMARC

Les données bibliographiques d’une notice se répartissent en : zones descriptivespermettant d’accéder à la notice par le titre ; zones d’accès normalisé permettantd’accéder à la notice le plus souvent par l’intermédiaire de la liste de vedettes ou desautorités et zones de liens permettant de lier une notice bibliographique à une autre

Page 4: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

84 DN – 6/2002. Les dossiers numériques

notice bibliographique (pour faire référence à l’ouvrage en langue d’origine s’ils’agit d’une traduction par exemple).

Figure 2. Notice bibliographique au format ISBD

La création d’une notice se fait selon deux processus. Le premier est quasiautomatique ; il consiste à remplir les champs descriptifs de la notice tels qu’ilsfigurent sur le document à cataloguer (titre exact, auteur, maison d’édition, etc.). Lesecond consiste à décrire par un ensemble de mots, de quoi parle le document ; c’estl’indexation. L’indexation d’un document est un processus intellectuel assez délicatqui dépend fortement du catalogueur. De la compétence de ce dernier et de samaîtrise du sujet traité dépend la qualité de l’indexation et donc la facilité deretrouver le document par les utilisateurs suite à une recherche par thème ou parsujet. L’indexation consiste à associer des descripteurs au document. Cesdescripteurs peuvent être des mot-clés librement définis par le catalogueur suite auseul examen du document à indexer, ou un ensemble de termes issus de laconfrontation du document au notions déjà présentes dans un référentiel, c’est-à-direun langage documentaire (liste de vedettes-matières, thésaurus ou classification)(Aitchison et al., 2002 ; Chan, 1994 ; Markey, 1986 ; Mortimer, 1999). On parlealors d’indexation libre et d’indexation contrôlée.

La notice ainsi établie est appelée notice bibliographique. Pour gérer lesexemplaires, on crée en général des notices d’exemplaires qu’on rattache à la mêmenotice bibliographique. La notice d’exemplaire et sa notice bibliographiqueconstituent une notice catalographique. Cette dernière contient des informationsconcernant le numéro d’exemplaire, le statut (prêtable, exclus du prêt, etc.), lasituation (en reliure, en prêt, disponible, etc.), la cote qui indique l’emplacementphysique de l’ouvrage sur les rayons, etc.

En plus des notices bibliographiques, la bibliothèque gère des notices d’autorité.Les autorités définissent la forme qui fait autorité pour une entité (personnephysique, collectivité, titre uniforme, mot-matière) et qui doit être utilisée commevedette dans les notices bibliographiques. Pour donner un exemple, nous avonscherché comment s’écrit le nom de la personne la plus recherchée sur terre en cemoment, nous avons trouvé six formes différentes en écriture latine : Usama BinLaden, Osama Bin Laden, Oussama Ben Laden, Osama Ben Laden, Osama Bin

Page 5: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

Numérisation des catalogues 85

Ladin et Ussamah Bin Laden. Un accès au catalogue par auteur, doit refléter tous lesouvrages écrits (ou traduits) par un même auteur quelle que soit la transcription deson nom. Le fichier d’autorité définit pour cela la forme retenue et les formesrejetées. Comme les notices bibliographiques, les notices d’autorité ont aussi desformats normalisés. La figure 3 illustre la notice autorité-matière liée à la noticebibliographique de la figure 1 ; le symbole « < » désigne les termes exclus,« >><< » désigne les termes associés et « >> » désigne les termes spécifiques.

Figure 3. Exemple de notice d’autorité

3. La problématique de la mise en réseau

La coopération et l’échange des données et des informations sont des conceptsancrés dans l’esprit et les pratiques des professionnels des bibliothèques. D’une part,parce que dans ce domaine on a toujours été conscient du fait qu’il est impossible dese procurer, par ses propres moyens, tous les documents dont on aurait besoin, et,d’autre part chaque ouvrage étant édité en centaines d’exemplaires, pour toutdocument qui arrive dans une bibliothèque, il y a de très fortes chances qu’unexemplaire ait déjà atterri dans une autre bibliothèque et qu’il y soit déjà catalogué.Pour éviter le travail en double du côté des professionnels et rendre de meilleursservices aux lecteurs ou chercheurs, les bibliothèques s’organisent généralement enréseaux d’information. Il s’agit de réseaux et de services de diffusion, d’échange oude commercialisation de notices bibliographiques. Dans tout système de gestion debibliothèques (même manuel) on retrouve donc la notion d’import et d’export denotices. Ceci engendre deux modes de catalogages : le catalogage originel et lecatalogage dérivé. Dans le premier mode le catalogueur créé lui-même toute lanotice bibliographique alors que dans le second mode il importe (ou copie) unenotice existante (à partir d’un listing, d’un cédérom, d’une base de donnée ou d’unsite web) et l’adapte localement.

Page 6: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

86 DN – 6/2002. Les dossiers numériques

Ces réseaux nécessitent, au-delà des problèmes classiques de mise en œuvred’une infrastructure connectique, l’établissement d’une organisation intellectuelle etmatérielle basée sur le développement et le respect de standards et de normes pourchaque étape du cycle de vie d’un document. La normalisation touche notamment lastructure et la forme des notices. La première traduction informatique des normesbibliographiques remonte aux années 1960 avec l’arrivée, aux Etats-Unis du formatMARC (Machine Readable Cataloguing) (Piepenburg, 1999). Plusieurs autresformats en ont été dérivés depuis (CanMARC au Canada, USMARC aux Etats-Unis,INTERMARC en France, etc.) et on converge aujourd’hui vers un format universelqui est l’UNIMARC. Précisons que ces formats s’appliquent aux documentsimprimés (livres et périodiques) et qu’une bibliothèque peut aussi gérer d’autrestypes de documents, tels que, les documents sonores, vidéos, multimédias,électroniques, images numérisées, cartes, partitions, etc. Pour décrire ces documentsil faut créer d’autres catalogues qui font appel à d’autres standards basés sur leconcept de métadata, dont Dublin Core (DublinCore, 2002 ; NIS, 2001) et RDF(Resource Description Format) (Brickley, 2000 ; Hjelm, 2001).

Une autre norme toute aussi importante est l’ISO 239.50 mieux connue desprofessionnels sous le nom de Z39.50 (Michael, 1994NIS, 1996). Créée en 1989 etgérée par la bibliothèque du Congrès aux Etats-Unis, cette norme a pour objet defaciliter l’interconnexion entre des clients et des serveurs et ce indépendamment desdifférences entre leurs systèmes respectifs et des différences entre les bases dedonnées auxquelles le serveur donne accès. La norme définit un ensembled’attributs permettant d’organiser le lien entre le logiciel serveur Z39.50 et la basede données bibliographiques à laquelle il donne accès. En général, chaque systèmeinformatisé implémente une partie de ces attributs selon l’application qu’il met enplace. Il définit ainsi un profil et une interface spécifique qui interprète une requêteet sa réponse.

La première adaptation nécessaire pour les notices importées concerne la languede catalogage. Suivant que la langue de catalogage est le français, l’arabe,l’allemand ou l’anglais par exemple, une traduction des champs non descriptifs estnécessaire. Il est à signaler cependant que ceci nécessite d’autres niveaux denormalisation pour les systèmes de catalogages informatisés ; il s’agit du codage descaractères et de la gestion de plusieurs alphabets ou scripts. A défaut de cesfonctionnalités, les bibliothécaires se trouvent obligés de noter les champs dans unenotice par translittération et non par traduction.

Une seconde adaptation, toute aussi importante, concerne l’indexation, c’est-à-dire les descripteurs du contenu sémantique du document. L’adaptation est d’abordculturelle (un livre concernant la Méditerranée, par exemple, ne pourra jamais êtreindexé de la même manière au Canada, en Italie et en Chine). Elle concerne ensuitele langage documentaire adopté ; ainsi, des mots-clés issus d’une indexation librepar exemple doivent être transformés en descripteurs autorisés dans une indexationcontrôlée ; de même, lorsqu’on change de liste de vedette matières ou de thésaurus,les descripteurs autorisés et leur hiérarchie peuvent aussi changer. Enfin,

Page 7: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

Numérisation des catalogues 87

l’adaptation doit aussi se faire au niveau de la précision de l’indexation ; ainsi, on nepourra pas indexer un livre par le descripteur « santé » dans la bibliothèque d’unefaculté de médecine. Suivant que la bibliothèque est spécialisée ou pas il faudraparfois préciser une indexation trop encyclopédique ou généraliser une indexationtrop spécifique.

Lorsqu’il s’agit de créer une bibliothèque virtuelle par la mise en réseau deplusieurs bibliothèques, leurs catalogues respectifs sont fédérés en un seul : lecatalogue collectif. Ce mode de travail suppose une plus grande rigueur quant auxrègles de catalogage. Un même document peut être acquis par plusieursbibliothèques du réseau, cependant, à tout document, quels que soient le nombred’exemplaires disponibles et leurs localisations, doit correspondre une seule notice.Il faut alors définir des règles et des protocoles permettant de gérer les modes et laqualité du catalogage. Plusieurs scénarios sont possibles ; en général il faut se mettred’accord sur :

– la grille ou bordereau de saisie : définissant les champs considérés commeobligatoires dans une notice bibliographique ;

– le nombre minimum et maximum de descripteurs pour chaque document ;

– le langage documentaire à utiliser : l’indexation libre étant à exclure, lesmembres du réseau de bibliothèques adaptent un même outil documentaire (liste devedettes-matières, thésaurus...). Dans certaines situations, les seuls descripteursautorisés ne suffisent pas à faire une indexation précise et correcte, pour cela, unecommission est en général chargée de mettre à jour et faire évoluer le langagedocumentaire sur propositions des différents catalogueurs ;

– la qualité des notices : avant de créer une notice, le bibliothécaire consulte lecatalogue collectif, si le document a déjà été catalogué, a-t-il le droit de modifier lanotice existante ? En général, on adopte la règle de première initiative ; c’est-à-direque la première notice soumise par quelqu’un dans le catalogue collectif estimplicitement validée par tous les catalogueurs, cela dit, des réunions périodiques(annuelles ou semestrielles) sont généralement programmées pour discuter de laqualité de certaines notices et, le cas échéant, de leur rectification ;

– le niveau d’indexation : dans le cas où une bibliothèque spécialisée participe àun réseau de bibliothèques, il peut être nécessaire, voire même indispensable degérer deux niveaux d’indexation ; une indexation encyclopédique en respectant lesrègles générales du catalogue collectif et une indexation locale plus détaillée pourune recherche plus spécialisée par le public concerné.

4. Du papier au numérique

La numérisation des catalogues change l’art du possible dans le domaine desbibliothèques. En effet, elle permet la création de nouveaux services aussi bien pourles lecteurs que pour les professionnels. Cependant, le passage des cataloguespapiers aux catalogues informatisés pose le problème de la rétroconversion des

Page 8: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

88 DN – 6/2002. Les dossiers numériques

données. C’est cet aspect qui nous intéresse dans la présente section. Par« rétroconversion » nous entendons la transformation des catalogues papiers endossiers numériques et leur intégration dans un seul dossier qui représente lecatalogue collectif. Nous ne traitons ni de la transformation des noticesbibliographiques ou d’autorités d’un codage informatique à un autre, ni desproblèmes liés à la reconnaissance des images numérisées de notices tels que étudiéspar Belaïd et al. (Belaïd, 1997 ; Belaïd, 1998a ; Belaïd, 1998b ; Chenevoy, 1996).

La difficulté de la création du catalogue électronique dépend fortement de l’étatde l’existant. Selon la taille de la bibliothèque, les moyens dont elle dispose et lacompétence de son personnel, la qualité de ses catalogues peut varier aussi bien auniveau informationnel qu’au niveau des caractéristiques physiques du support.Plusieurs situations peuvent ainsi se présenter :

– une bibliothèque dispose normalement d’un catalogue pour l’accès au public(OPAC OPen Access catalogue) au format ISBD mais il arrive qu’elle ne gère pasde catalogues professionnels, au format MARC ou un de ses dérivés. Dans plusieurscas, la génération du catalogue électronique doit alors se faire à partir de l’OPAC ;

– suivant la politique de prêt, les documents peuvent être disposés dans la sallede lecture pour l’accès libre et/ou en magasin. Dans certaines petites bibliothèques(universitaires notamment), il n’existe même pas d’OPAC au vrai sens du terme.Certains bibliothécaires gèrent des fichiers Excel et éditent des catalogues papierssous forme de listings qu’ils mettent à la disposition de leurs lecteurs. Parfois, tousles documents sont en libre accès et aucune forme d’OPAC n’est disponible. Chaqueexemplaire contient alors une fiche (en général manuscrite) qui permet de gérer lesprêts ;

– les fiches cartonnées formant un OPAC peuvent avoir été éditées par untraitement de texte ou même par machine à écrire, cela explique parfois le fait quesur certaines de ces notices, le catalogueur inscrit à la main des données dans unelangue qu’il n’a pu taper avec sa machine (comme l’arabe sur certaines fiches enfrançais) ;

– quand l’OPAC existe, sa qualité informationnelle peut aussi être très différented’une bibliothèque à l’autre. Certains professionnels ne respectent pas à la lettre lesnormes de catalogage, ainsi il arrive souvent qu’ils ne prennent pas la peine dementionner l’identificateur unique standardisé qui est l’ISBN (InternationalStandard Book Number) du document dans sa notice.

La rétroconversion des notices consiste à transformer un ensemble de cataloguespapiers (fiches cartonnées) en un catalogue collectif numérisé. Pour cela, on peutprocéder à la resaisie de toutes les fiches, leur numérisation puis conversion dumode image en mode texte ou le téléchargement de notices électroniques. Engénéral, il s’agit plutôt d’une combinaison de ces trois approches. Cette constructions’inscrit dans un processus comportant un nombre relativement élevé d’étapesorganisationnelles, techniques ou « intellectuelles » et faisant appel à descompétences diversifiées. Il ne suffit pas de budgéter un tel projet, il faut aussi se

Page 9: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

Numérisation des catalogues 89

donner les moyens techniques et humains de le faire. Dans ce qui suit, nousexposons quelques choix techniques, leurs prérequis et leurs limites. Avant touteétape, il convient par ailleurs de choisir la structure des données, c’est-à-dire leformat des notices qui formeront le catalogue collectif électronique.

4.1. Numérisation/conversion

Cette méthode ne peut s’appliquer que lorsque l’OPAC existe réellement sous laforme d’un ensemble de fiches et que celle-ci sont dans un bon état. Cette méthodeest en général réalisée en sous-traitance et ce pour deux raisons essentielles. Lapremière est qu’une bibliothèque, ne peut en général se permettre d’investir dans lacréation et la gestion d’un atelier composé d’équipements souvent coûteux et vitedépassés par les évolutions technologiques rapides et qui ne peut s’amortir par lesseules activités de la bibliothèque. La deuxième raison est que pour numériser lesfiches, il ne suffit pas de les scanner, il faut par la suite transformer les « imagesnumériques » des fiches en notices au format texte ; le volume important des fichesà traiter et leur état physique et typographique nécessite alors le recrutement et laformation d’un personnel qualifié. Selon la durée prévue pour cette opération, lasolution prestataire de services peut s’avérer plus rapide et plus professionnelle quela mise en œuvre un atelier interne. Le rôle du prestataire consiste à numériser, enmode image, sur la base d’un cahier des charges très précis les fiches qui lui sontfournies. Puis de les transformer en fiches catalographiques selon le format indiquédans le cahier des charges (par un processus de reconnaissance de caractères et/oude correction de chaque fiche individuellement). Cette solution denumérisation/conversion, qu’elle soit faite en local ou outsourcée, pose plusieursproblèmes logistiques.

Une des difficultés majeures concerne précisément la définition du cahier descharges et le contrôle qualité du résultat fourni. Ce contrôle qualité, effectuésystématiquement sur toutes les fiches, mais plus souvent par échantillonnage, vu levolume important à contrôler, pose le problème de l’élaboration des critères dequalité qui sont demandés aux prestataires et qui sont ensuite repris pour juger laqualité du travail fourni. En plus, ce contrôle doit aussi toucher la complétude dutravail ; il faut vérifier que toutes les fiches du catalogue papier existent réellementdans le catalogue électronique livré. Rappelons à ce stade que tout document noncatalogué est un document inaccessible et donc définitivement perdu.

Un autre problème tout aussi important est celui de l’accès aux fiches àcataloguer. Les fiches à numériser doivent être fournies au prestataire de service(fournisseur ou atelier interne). Faut-il envoyer les fiches et arrêter l’exploitation dela bibliothèque jusqu’à la fin des travaux ou plutôt dupliquer les fiches ? S’il fautdupliquer les fiches, faut-il le faire par photocopie, photographie et que faut-ildonner au fournisseur : la copie ou l’original car de meilleure qualité ? Et s’il fautainsi manipuler les fiches une à une, pourquoi ne pas les numériser à ce moment-là ?

Page 10: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

90 DN – 6/2002. Les dossiers numériques

Si c’est le cas, qui doit faire cela, la bibliothèque ou le prestataire de service ? Et quidéfinit alors les caractéristiques techniques de la numérisation, puisque de la qualitédes images des fiches dépend, en partie, la facilité de leur traitement pour lagénération du catalogue électronique ?

4.2. Resaisie

Cette méthode consiste tout simplement à saisir les fiches du catalogue une parune lorsque l’OPAC existe réellement sous la forme d’un ensemble de fiches, ou àsaisir les différents champs à partir d’un listing édité sous la forme d’un tableauWord ou Excel. Elle peut se faire par les ressources propres de la bibliothèque ou ensous-traitance. Cette technique pose les mêmes problèmes logistiques et de contrôlesde qualité et de complétude discutés ci-dessus. Les risques d’erreur ne sont pas dusaux erreurs éventuelles de la reconnaissance de caractères, mais simplement auerreurs de frappe ou de saisie.

4.3. Téléchargement

Plutôt que de construire le catalogue électronique à partir des fiches du cataloguepapier, cette méthode consiste à importer les notices à partir d’une ou de plusieursbases bibliographiques et de les compléter en insérant les cotes. Par opposition auxdeux méthodes précédentes, la qualité des notices importées est en généralsupérieure à la qualité informationnelle du catalogue initial. Cependant elle poseencore d’autres problèmes. En effet quelle que soit la base bibliographique choisie ilest quasiment impossible qu’elle contienne toutes les notices recherchées. Se posealors le problème de la couverture de la base ; il s’agit de la proportion des noticescontenues dans la base par rapport à celles qui constituent le catalogue papier.Notons toutefois que si une base pouvait contenir toutes les notices, il y a de forteschances que ce soit celle de l’OCLC (Online Computer Library Center) (OCLC,2002), mais cette base étant uniquement en anglais, le problème de la langue decatalogage restreint son utilisation.

Ainsi, il faudra choisir plusieurs bases plutôt qu’une. Quand ces bases sontdisponibles sous la forme de cédéroms les incidences budgétaires sont moinsimportantes que lorsqu’elles ne sont disponibles qu’en ligne, et ce même si l’on nepaye que la notice que l’on télécharge, à cause du coût de la connexion. Sur le planpratique, il faut pouvoir repérer quelles sont les notices trouvées et celles qui ne lesont pas et compléter le traitement de ces dernières par une autre méthode.

Cette méthode de rétroconversion, bien qu’a priori très intéressante, carindépendante de la qualité du catalogue papier, ne peut être appliquée dans tous lescas. En effet, l’accès à une base se fait par un identifiant, c’est l’ISBN qui jouenormalement ce rôle. Or, si les fiches de l’OPAC initial ne contiennent pas l’ISBN

Page 11: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

Numérisation des catalogues 91

comment peut-on accéder aux notices de la base et être certain qu’il s’agit desnotices recherchées ? Il y a toujours moyen d’accéder par titre et auteurs parexemple, mais cela devient beaucoup plus pénible et les risques d’erreursaugmentent considérablement.

4.4. Adaptation et intégration

Ces trois méthodes sont beaucoup plus complémentaires que concurrentes pourla construction du noyau du catalogue électronique à partir d’un catalogue papier.En effet, nous parlons de noyau, car à ce niveau il reste encore les étapesd’intégration des catalogues des différentes bibliothèques pour la construction ducatalogue collectif et l’adaptation sémantique des notices.

L’intégration consiste en fait à enlever les doublons, généralement par fusion desnotices identiques afin de garantir qu’à toutes les notices traitant d’un mêmeouvrage dans les catalogues papier différents correspond une seule notice dans lecatalogue collectif. Cette notice doit faire référence à toutes les cotes contenues danschacune des notices papier initiales, généralement préfixées par un code identifiantla bibliothèque d’origine pour éviter qu’une cote se produise plus d’une fois. Lafusion des notice est une fonctionnalité offerte par la majorité des modules decatalogage des différents logiciels de gestion de bibliothèques. Il suffit donc, de sedoter d’un tel module et de faire en sorte que le noyau du catalogue électroniquerespecte bien l’une des normes de structuration de données (MARC ou ses dérivées)supportées par ce module. Par ailleurs, pour reconnaître, d’une manièreautomatique, que deux notices sont identiques, il faut aussi disposer d’une cléd’accès qui est normalement l’ISBN. A défaut de l’ISBN, il faudra gérer (fusionner)les doublons manuellement en attendant d’avoir le courage de parcourir tous lesrayons et de consulter les ouvrages un à un pour compléter cette information dans lecatalogue électronique, en faisant attention à ne pas oublier les ouvrages absents desrayons (en prêt, en reliure...).

Après l’intégration des différents catalogues et la suppression des doublons, ilfaut finalement procéder à l’adaptation de l’indexation comme décrit dans la sectionprécédente et puis éventuellement gérer le lien entre les notices bibliographiques etleurs notices d’autorités si celle-ci sont déjà disponibles dans un format électroniqueet normalisé.

Comme nous pouvons le ressentir à partir de ce qui précède, la numérisation descatalogues papiers, pour la création du « dossier numérique » qu’est le cataloguecollectif, est une opération délicate, lourde et coûteuse. Pour minimiser les coûts,surtout lorsqu’il s’agit de bibliothèques universitaires, on peut procéder à unebibliothèque par secteur, par exemple une seule faculté de médecine, une seule écoled’architecture, etc., et utiliser le noyau ainsi construit comme base bibliographiquepour la numérisation des catalogues des autres bibliothèques de la même spécialité.Une autre manière de diminuer le budget en étalant le projet dans le temps, consiste

Page 12: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

92 DN – 6/2002. Les dossiers numériques

à définir des priorités, tel le fait de sous-traiter la numérisation des notices desouvrages les plus consultés et prendre le temps d’enrichir le catalogue localementpar les notices des autres ouvrages avec une équipe plus restreinte.Malheureusement, quand on travaille uniquement en mode papier, il est difficile dedisposer de statistiques fiables et à jour pour pouvoir identifier les fondsdocumentaires les plus urgents à traiter.

5. Etude de cas

Il va sans dire que l’informatisation des bibliothèques universitaires (BU) et leurinterconnexion sont indispensables pour tirer profit de toutes les ressourcesdocumentaires et de rationaliser leur évolution. Dans cette section nous illustrons àtravers la description d’un cas réel, les étapes et les problèmes d’un tel projet.

5.1. Contexte général

Le projet que nous décrivons consiste à informatiser et interconnecter toutes lesBU d’un pays. Nous supposerons qu’une étude préalable a été réalisée pour évaluerle budget nécessaire et définir la durée ainsi que les étapes du projet, et que cetteétude a révélé les résultats suivants :

– il existe près d’une centaine de bibliothèques, une dizaine pourraient êtreconsidérées comme grandes bibliothèques, une dizaine comme moyennes et le restecomme petites bibliothèques ;

– la plus grande majorité des bibliothèques sont plus ou moins spécialisées ;

– quelques bibliothèques disposent d’un système informatisé de gestion debibliothèques (SIGB), certaines utilisent des tableurs comme outils de gestion et lesautres sont totalement manuelles ;

– aucune bibliothèque n’est raccordée à l’internet et aucun réseau physique n’estencore installé à cet effet ;

– la gestion des acquisitions est réalisée d’une manière autonome d’unebibliothèque à l’autre ;

– les collections de revues sont rarement complètes, certains abonnements nesont pas renouvelés, certains numéros sont perdus ;

– le personnel est assez souvent formé sur le tas, peu de bibliothèques disposentde documentalistes ou conservateurs diplômés ;

– le personnel (diplômé ou non) ne maîtrise pas les nouvelles technologies del’information et de la communication ;

– dans la plupart des cas, le nombre d’ouvrages disponibles est au-dessous duminimum nécessaire par rapport au nombre des étudiants de chaque établissement.

Page 13: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

Numérisation des catalogues 93

Nous supposerons par ailleurs, que nous nous trouvons dans un contexte où lesBU sont gérées uniquement et directement par les établissements d’enseignementsupérieur (écoles, instituts, facultés, etc.) auxquels elles sont rattachées et où elles setrouvent physiquement et que ces établissements sont sous la tutelle d’un ministèrede l’enseignement supérieur (MES). Ainsi, suite à cette étude, le MES lance unprojet (appelons-le BIRU pour bibliothèques informatisées pour la recherche etl’université) pour l’informatisation et l’interconnexion des BU.

L’étude préalable, qui a duré deux ans, a estimé le budget nécessaire au projet àquelques millions d’euros, sa durée de mise en œuvre à trois ans et l’a divisé enquatre volets : formation, connectique et matériels, fonds documentaire, logiciels,normes et standards. Un comité de pilotage a été désigné ainsi que quatre comitéstechniques, un pour chaque volet avec pour objectifs respectifs :

– comité de formation (CF) : mettre en place un DESS (diplôme d’étudessupérieures spécialisées) et un programme de formation continue pour la formationde nouveaux bibliothécaires et la mise à niveau du personnel existant ; les diplômésseront appelés « informatistes » et non pas « documentalistes » ;

– comité connectique et matériels (CCM) : définir l’architecture physique duréseau ainsi que le nombre et les configurations des serveurs et des postes de travailpour les professionnels et pour la consultation ;

– comité fonds documentaire (CFD) : harmoniser les procédures d’acquisition,proposer des scénarios et des protocoles pour la mise à niveau des ressourcesdocumentaires, les revues et les ressources électroniques et pour le prêt inter-bibliothèques ;

– comité logiciels, normes et standards (CTLNS) : définir les normes et lescaractéristiques techniques nécessaires à l’acquisition d’un logiciel de gestionintégrée d’un réseau de bibliothèques.

Trois directives principales ont été prises :

– les logiciels existants dans certaines bibliothèques ne seront ni mis à jour niinterfacés mais simplement ignorés ;

– le logiciel à acquérir sera le même pour toutes les bibliothèques qu’elles soientgrandes, moyennes ou petites, spécialisées ou généralisées ;

– à la fin des trois ans, il faut avoir dépensé tout l’argent alloué au projet.

5.2. Problèmes pratiques et bilan

Le projet BIRU allait fournir le remède à tous les maux des BU et faire ainsi lebonheur de milliers d’étudiants, de bibliothécaires de chercheurs et de professeurs.Mais sur le plan pratique, les problèmes techniques ont été maîtrisés alors queplusieurs problèmes organisationnels ont surgi tels que :

Page 14: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

94 DN – 6/2002. Les dossiers numériques

– aucune personne affectée au projet ne l’était à plein temps ; tous les membresde tous les comités étaient fonctionnaires ou enseignants et leur affectation au projetn’a été accompagnée d’aucune réduction de leurs charges professionnelles ; laplupart des intervenants étaient donc des consultants ;

– le chef de projet, un de ces principaux initiateurs, qui par ses qualitésprofessionnelles et sa notoriété pouvait assurer le trait d’union entre le technique etl’administratif a quitté le comité de pilotage peu après le démarrage du projet ;

– la coordination entre les différents comités était quasi inexistante ; le comité depilotage, essentiellement formé par des hauts fonctionnaires du MES responsablesdu suivi budgétaire, pensait que les travaux des uns et des autres étaientindépendants et de ce fait, personne ne s’est occupé du problème des données ;

– la définition des fichiers d’autorité matière, auteur, etc., à utiliser à l’échelle detout un pays relève normalement des activités de sa bibliothèque nationale (BN). LaBN n’ayant pas été directement impliquée dans le projet BIRU, aucune ressourcen’a pu être récupérée, d’autant plus que les bibliothèques publiques n’étaient pasinformatisées et que leurs collections documentaires n’étaient ni aussi importantes niaussi techniques et spécialisées que le fonds documentaire des BU ;

– la définition de l’architecture du réseau et sa mise en œuvre physique relèvedes activités du ministère des communications. Ce dernier n’étant pas directementimpliqué dans le projet BIRU, la coordination a été très difficile et les contraintes dedélais n’ont pu être maîtrisées.

L’acquisition d’un seul logiciel pour tout un pays est une opération très délicate ;le CTLNS avait bien conscience de la nécessité de disposer d’un noyau du cataloguecollectif pour choisir les sources bibliographiques, pour estimer le pourcentage derecouvrement des fonds documentaires, pour tester les différents logiciels étudiéspendant la phase de rédaction du cahier des charges. En réponse à l’une de sesrequêtes, le comité de pilotage a demandé à chaque bibliothèque de lui fournir unfichier au format XML, contenant un échantillon de 1 000 (ISBN, cote) ; ces fichiersdevaient être fusionnés et servir pour le téléchargement des notices correspondantes.Aucune suite n’a pu être donnée à cette idée puisque l’équipe de 20 contractuels, lasalle et les postes de travail que le MES proposait de mettre à disposition du projetn’ont jamais vu le jour. De plus, pendant la période d’étude et de développement duprojet BIRU, le MES a gelé toutes les acquisitions informatiques (matériels etlogiciels) dans les BU, il était alors impossible de demander aux responsables desdifférentes bibliothèques, déjà à court de personnel, de participer par un moyen ouun autre à la construction du noyau du catalogue collectif national.

Pour définir un cahier des charges qui tienne compte de toutes les contraintestechniques évoquées dans les sections précédentes, le CTLNS a mis deux ans. Il arédigé un document sous la forme de 2 800 questions pour lesquelles chaquesoumissionnaire devait présenter des réponses nettes et précises précédés d’une sériede 25 questions à réponses booléennes qui concernaient l’implémentation desnormes et standards requis et qui traduisaient donc des critères éliminatoires. Unappel d’offres a été lancé et une commission de dépouillement a été désignée. Les

Page 15: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

Numérisation des catalogues 95

principaux fournisseurs de logiciels mondiaux étaient représentés par les offresreçues, mais les critères éliminatoires étaient tellement stricts qu’une seule offre aété retenue sur le plan technique ; le dépouillement financier n’était alors queformel.

Après la rédaction des contrats et information du fournisseur, retenu quelquessemaines avant la fin du délai de trois ans, la situation était telle que :

– un seul logiciel semblait répondre à tous les critères demandés, mais suffit-ilde croire sur parole le fournisseur ? Il fallait bien évidemment tester le produit, maisqui allait le faire, avec quelles données et sur quelle configuration ?

– sur le plan de la formation, les étudiants n’ont pas spécialement été formé pource logiciel-là et le MES ne pouvait pas encore les recruter…

– sur le plan de la connectique, les liaisons n’étaient pas encore mises en place etsur le plan matériel on ne savait pas combien est-ce qu’il fallait acquérir de postesde consultation : fallait-il comptabiliser en fonction de la taille du fondsdocumentaire existant (or on sait qu’il est largement inférieur au standard et quel’un des volets du projet BIRU était justement de le mettre à jour) ou du nombred’étudiants ? Et puis à quoi bon acquérir des PC qui seront largement dépassés dansquelques mois alors qu’il n’y a même pas d’OPAC à consulter ?

– sur le plan des modalités de la fédération des bibliothèques (protocoles deprêts, règles de catalogages, commissions de validation...) le CFD avait, semble-t-il,rendu un rapport au comité de pilotage ; on n’en saura pas plus !

Quelques jours plus tard, le fournisseur retenu a été informé que le marché a étéannulé pour vice de procédure. Le dernier chef de projet, dans un moment depanique ou d’inspiration, avait découvert qu’un membre du CTLNS, n’ayant tout demême pas participé au dépouillement, avait des relations professionnelles avec lefournisseur en question. Ce dernier pouvant avoir bénéficié d’informationssupplémentaires, il y avait un risque de non-respect des règles de la concurrence…

En dépit des raisons déclarées de l’arrêt du projet, il y a des chances que lesresponsables administratifs aient enfin pris conscience de l’ampleur du projet etqu’ils aient réalisé que sans données ni réseau, il n’y avait pas moyen de tester lelogiciel choisi ni d’espérer que tous les problèmes de configuration et d’exploitationsoient résolus avant la fin de la période de garantie et que sans budget pour lamaintenance du système il était insensé d’embarquer dans une telle aventure.

Aujourd’hui on ne parle plus de BIRU, les budgets ne sont plus disponibles maison ne sait pas si le projet a été annulé ou reporté. S’il fallait le refaire pensera-t-onsuffisamment à l’avance que le cœur d’un réseau de bibliothèques est un « dossiernumérique » et que sa création est un projet à part entière ?

Page 16: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

96 DN – 6/2002. Les dossiers numériques

6. Conclusion

Dans cet article nous avons présenté les catalogues bibliographiques et leurimportance dans le fonctionnement d’une bibliothèque et dans un réseau debibliothèques. Nous avons évoqué leur fédération et la difficulté de leurnumérisation. Nous avons illustré enfin par une étude de cas réelle, comment,lorsqu’on ne fait pas partie de ce secteur professionnel, il est difficile se rendrecompte de l’importance de la numérisation des catalogues dans un projetd’informatisation et d’interconnexion de bibliothèques et que cela peut être fatal àtout le projet.

Le catalogue collectif d’un réseau d’information est amené à évoluer commetout dossier. Le respect des normes et des standards ainsi qu’une rigueur au niveaudes procédures de travail sont indispensables pour la bonne gestion d’un tel dossier.Suivant le niveau d’informatisation des bibliothèques, le type de services rendus aulecteurs ainsi que les types de collections et de documentations gérées dans plusieursdossiers numériques (des catalogues différents) peuvent s’avérer nécessaires. Dansce cas, les nouvelles technologies de l’information et le développement de modulesspécifiques peuvent aider à mieux exploiter ces dossiers et en faciliter l’utilisation.

7. Bibliographie

AFNOR, Description bibliographique internationale normalisée des monographies, Paris,AFNOR, 1987.

Aitchison J., Gilchrist A., Bawden D., Thesaurus Construction and Use: a Practical Manual,Fitzroy Dearborn Publishers, 2002.

Belaïd A., Future trends in Retrospective Document Conversion, Brazilian Symposium onDocument Image Analysis (BSDIA), LNCS, p. 111-128 Curitiba, Brasil, November1997.

Belaïd A., Retrospective Conversion of Old Bibliographic Catalogues, Six DELOSWorkshop, Preservation of Digital Information, Tomar, Portugal, June, 1998.

Belaïd A., Retrospective Document Conversion: Application to the Library Domain,International Journal on Document Analysis and Recognition, vol. 1, 125-146, 1998.

BNF, UNIMARC Manual bibliographic format, Paris, KG Saur, 1994.

BNF, http://catalogues.bnf.fr, accédé le 15 mai 2002.

Brickley D., RDF Specifications, World Wide Web Consortium, 2000.

Chan L. M., Cataloging and Classification: an Introduction, McGraw-Hill HigherEducation, 1994.

Chenevoy Y. et Belaïd A., « Une approche structurelle pour la reconnaissance de noticesbobliographiques », Traitement du Signal, vol. 12, n° 6, 1996.

DublinCore, http://dublincore.org/, accédé le 15 mai 2002.

Page 17: La numérisation des catalogues : une analyse rétrospective · La numérisation des catalogues : une analyse rétrospective Sarra Ben Lagha Inforge, Ecole des HEC, Université de

Numérisation des catalogues 97

Guinchat C., Skouri Y., Alix M-P., Guide pratique des techniques documentaires, Paris,EDICEF, 1989.

Hjelm J., Creating the Semantic Web with RDF: Professional Developer’s Guide, Wiley,2001.

Markey, Dewy decimal Classification Online Project, OCLC, 1986.

Michael J. J., Hinnebusch M., From A to Z39.50: a Networking Primer, National InformationStandards, US, 1994.

Mortimer M., Learn Dewey Decimal Classification, Scarecrow Press, 1999.

NIS, Information Retrieval (z39.50): Application Service Definition and ProtocolSpecification, National Information Standards Series, US, 1996.

NIS, The Dublin Core Metadata Element Set: An American National Standard, NationalInformation Standards Series, US, 2001.

OCLC, http://www.oclc.org/home/, accédé le 15 mai 2002.

Piepenburg S., Easy Marc: a Simplified Guide to Creating Catalog Records for LibraryAutomation Systems Incorporating Format Integration, Hi Willow Research & Pub,1999.