maitrise en documentation et information …cds.cern.ch/record/798725/files/sis-2004-386.pdf ·...

103
Institut Universitaire Professionnalisé de Documentation et Information Scientifiques et Techniques Université Claude Bernard Lyon I MAITRISE EN DOCUMENTATION ET INFORMATION SCIENTIFIQUES ET TECHNIQUES Rapport de stage AUTOMATISATION DU PROCESSUS D’IMPORT DES METADONNEES INIS DANS LES BASES DE DONNEES BIBLIOGRAPHIQUES DU CERN Réalisé par Romain BAUDIC Sous le tutorat de Ingrid PICCHIOLI CERN CH-1211 Genève 23 Suisse Durée du stage : 5 mois Année 2003-2004 SIS-2004-386 2004

Upload: vanbao

Post on 16-Sep-2018

228 views

Category:

Documents


2 download

TRANSCRIPT

SIS-

2004

-386

Institut Universitaire Professionnaliséde Documentation et Information Scientifiques et Techniques

MAITRISE EN DOCUMENTATION ET INFORM

SCIENTIFIQUES ET TECHNIQUES

Rapport de stage

AUTOMATISATION DU PROCESSUS D’IMPOMETADONNEES INIS DANS LES BASES DE DO

BIBLIOGRAPHIQUES DU CERN

Réalisé par Romain BAUDIC

Sous le tutorat de Ingrid PICCHIOLI

CERN CH-1211 Genève 23

Suisse

Durée du stage : 5 mois Année 2003-2004

2004

Université Claude Bernard Lyon I

ATION

RT DES NNEES

AUTOMATISATION DU PROCESSUS D’IMPORT DES METADONNEES INIS DANS LES BASES DE DONNEES

BIBLIOGRAPHIQUES DU CERN

Romain BAUDIC

Sous la direction de Madame Ingrid PICCHIOLI

Résumé : Ce travail présente la mission que j’ai eu à accomplir pendant mon stage de fin d’étude au Service d’Information Scientifique du CERN. Il s’agissait de participer à l’activité d’importation automatique de documents provenant de la base de données INIS au sein de la base de données locale. Ce processus est possible grâce au programme de transformation de données Uploader. Ce mémoire tente de montrer quelle a été la méthode suivie : l’analyse de la source à exploiter et l’importation de ces données. Mots-clefs : Stage Importation automatique Base de données Méthode Littérature grise Transfert de données Transformation de données Uploader Abstract : This work presents my activities during my training period in the Scientific Information Service at CERN. During this period, I worked on the automatic method to import the metadata of INIS with a program called Uploader. This report explains what my method was: the analysis of the INIS database and the importation of those metadata. Keywords : Training period Automatic importation Database Process Grey litterature Meta datas Transfer Meta datas transformation Uploader

2

Remerciements Je tiens à remercier tout particulièrement Corrado Pettenatti, chef de groupe du Service d’Information Scientifique et Ingrid Picchioli, responsable de la section de la Gestion des Documents pour m’avoir permis d’effectuer mon stage au sein de leur équipe.

Je remercie tout aussi vivement Jocelyne Jerdelet pour son aide précieuse et ses conseils pendant mon travail. Merci, également, à toute l’équipe du SIS qui m’a accueilli si chaleureusement pendant ces cinq mois.

3

Avertissement au lecteur Afin de respecter le droit d’auteur, le Service d’Information Scientifique du CERN informe les organismes producteurs de bases de données de la perspective d’importation de certaines de leurs notices bibliographiques et du texte intégral les accompagnant. Sans cet accord écrit, basé dans la plupart des cas sur une rémunération ou sur le principe d’échanges de données, l’importation ne peut avoir lieu. Dans le cas d’INIS cette autorisation a été obtenue.

4

Sommaire Préface............................................................................................................................6 1. Présentation et contexte du stage ...........................................................................7

1.1 Le CERN........................................................................................................7 1.1.1 Historique...............................................................................................7 1.1.2 Organisation et Structure .......................................................................8 1.1.3 Objectifs.................................................................................................9 1.1.4 Le Budget.............................................................................................10 1.1.5 Le Service d’Information Scientifiques (S.I.S.)...................................10 1.1.6 Composition du Service.......................................................................11 1.1.7 Le Budget du Service...........................................................................11 1.1.8 Le Fonds Documentaire.......................................................................12 1.1.9 Les Utilisateurs ....................................................................................12 1.1.10 Les Services Offerts .............................................................................12

1.2 Contexte du stage et mission........................................................................13 1.2.1 Contexte du stage.................................................................................13 1.2.2 La Mission ...........................................................................................14

2. Importation semi-automatique des métadonnées de la base INIS .......................15

2.1 Analyse de la Source d’entrée......................................................................15 2.1.1 Présentation de la base .........................................................................15 2.1.2 Comparaison de la base en ligne et sur CD-Rom ................................16 2.1.3 Présentation du logiciel Winspirs 5.0 ..................................................17 2.1.4 Présentation des Champs .....................................................................17 2.1.5 Les CD-Rom NCL (Non Conventionnal Litterature) ..........................21 2.1.6 Statistiques ...........................................................................................22

2.2 Analyse de la Base d’accueil .......................................................................22 2.2.1 Présentation du logiciel documentaire : ALEPH 500 ..........................22 2.2.2 Structure générale de la Base...............................................................23 2.2.3 Recherche documentaire......................................................................24

2.3 Le programme Uploader ..............................................................................24 2.3.1 Présentation..........................................................................................24 2.3.2 Mode de fonctionnement .....................................................................25 2.3.3 Elaboration de la configuration............................................................26 2.3.4 Bilan sur l’utilisation de l’Uploader ....................................................32

2.4 Méthode .......................................................................................................33 2.4.1 Schéma général ....................................................................................33 2.4.2 Sélection des documents ......................................................................33 2.4.3 Sauvegarde des résultats ......................................................................36 2.4.4 Mise à jour des KB et traitement Uploader .........................................36 2.4.5 Contrôle automatique et visuel ............................................................37 2.4.6 Lien vers le full-text.............................................................................37 2.4.7 Résultats...............................................................................................39

Conclusion ...................................................................................................................39 Références....................................................................................................................40 Annexes........................................................................................................................41

5

Préface Dans un souci d'offrir un accès unique à ses chercheurs en physique des

particules, la Bibliothèque du CERN tente d'intégrer dans ses bases de données le plus grand nombre de documents, couvrant le domaine de la recherche de la physique des hautes énergies et des domaines voisins et provenant des instituts de recherche et banque de données du monde entier. Pour cela nous utilisons un outil d'importation de données, le Uploader. Nous avons confié à Romain Baudic le projet de l'importation de notices bibliographiques de la base de données en énergie INIS-IAEA (Agence Internationale pour l'Energie Atomique, Vienne).

Cette étude impliquait la définition des sujets couverts, leur recouvrement, une analyse approfondie qualitative et quantitative des métadata (type de documents, champs bibliographiques, contenu, mise en valeur de l'information), une proposition d'extraction des données (filtres, profiles, équations de recherche), la définition d'une configuration (description des paramètres, tables de conversion),l'importation des méta datas dans les bases de données de la bibliothèque selon le format MARC21, en utilisant l’éditeur de textes XEmacs, et de la programmation avancée sous UNIX.

La source à importer était disponible sur CD-ROM et en ligne. A première vue

il était normal d'interroger cette dernière, vue les mises à jour régulières, depuis sa version en ligne. Romain Baudic a néanmoins analysé les deux supports pour conclure que le CD-ROM permettait de poser une équation de recherche beaucoup plus longue et fine, amenant ainsi des résultats plus pertinents. Il a su nous présenter les différents avantages qui nous étaient offerts avec la version sur CD-ROM. Il a organisé l'extraction des notices par année de publications, en partant de l'année la plus récente vers la plus ancienne de manière à collecter en premier les dernières mises à jour des documents. Pour chaque type de documents, il a analysé un échantillon de 500 notices afin de déterminer leur pertinence par rapport aux domaines couverts. Sa capacité d’analyse, son organisation, sa méthodologie et son aisance avec les nouvelles technologies ont permis à Romain Baudic d’avancer en trois mois son étude jusque dans la phase tests et prototype. Elle constituera dans l’avenir un excellent outil de travail pour notre bibliothèque. En plus de cette mission, Romain Baudic à participer activement au travail quotidien de la bibliothèque.

Après avoir présenté l’organisme CERN et précisé le contexte du stage, l’auteur décrit le déroulement de l’action qui lui a été confiée. Il donne le point de vue du documentaliste au sujet de l’organisation de la base documentaire et propose des voies d’amélioration quant à la méthode d’importation avec les programmes Uploader et Bibconvert. Les annexes nombreuses et bien illustrées contiennent des renseignements précieux qui serviront de guide pour les opérations futures.

Romain Baudic a su s’intégrer parfaitement dans notre équipe par sa

disponibilité, sa discrétion et sa gentillesse. Nous souhaitons à l’auteur de poursuivre avec succès les études qu’il a entreprises dans le domaine de la documentation scientifiques et techniques.

Dr. Ingrid PICCHIOLI Scientific Information Service

(Document Management Section)

6

1. Présentation et contexte du stage

1.1 Le CERN

Le CERN, Laboratoire européen pour la physique des particules, est le plus grand centre mondial de recherche en physique des particules. Fondé en 1954, il est une des premières collaborations européennes scientifiques et représente un exemple brillant de coopération internationale. Situé de part et d’autre de la frontière franco-suisse, le CERN compte aujourd'hui 20 états membres (Allemagne, Autriche, Belgique, Bulgarie, Danemark, Espagne, Finlande, France, Grèce, Hongrie, Italie, Norvège, Pays-Bas, Pologne, Portugal, République Slovaque, République Tchèque, Royaume-Uni, Suède, Suisse). Le CERN emploie environ 2500 personnes qui couvrent un large éventail de compétences et de métiers : physiciens, ingénieurs, programmeurs, administrateurs, techniciens, ouvriers qualifiés. A ce chiffre il faut ajouter 7000 scientifiques, soit la moitié des physiciens des particules du monde, qui utilisent les installations du CERN.

1.1.1 Historique

1949 Pour rétablir l'équilibre et redonner du prestige à la science européenne, le

physicien français, lauréat du Prix Nobel, Louis de Broglie propose la création d'un laboratoire scientifique européen à l'occasion de la Conférence Européenne de la Culture à Lausanne.

1954 Naissance de l’Organisation Européenne pour la Recherche Nucléaire après

ratification de la convention par les douze Etats Membres fondateurs : la République Fédérale d'Allemagne, la Belgique, le Danemark, la France, la Grèce, l'Italie, la Norvège, les Pays-Bas, le Royaume-Uni, la Suède, la Suisse, et la Yougoslavie. Cette dernière quitte le CERN en 1961.

1957 Le premier accélérateur du CERN, un Synchro-Cyclotron (SC) à protons de

600 MeV, est mis en service. L'une des premières réussites expérimentales est l'observation, attendue depuis si longtemps, de la désintégration d'un pion en un électron et un neutrino.

7

1959 Mise en service de la première grande machine du CERN, le Synchrotron à Protons (PS) de 28 GeV, accélérateur ayant eu pour un temps l'énergie la plus élevée au monde.

1968 L'invention des chambres proportionnelles multifils et des chambres à dérive révolutionne le domaine de la détection électronique des particules. Ce travail est finalement récompensé par l'attribution du Prix Nobel de Physique à Georges Charpak en 1992.

1983 Découverte historique des bosons W (janvier) et du boson Z (mai) - les véhicules, tant recherchés, de la force faible - confirmant ainsi la théorie électrofaible qui unifie la force faible et la force électromagnétique. Prix Nobel pour Carlo Rubia et Simon van der Meer en 1984.

1989 Deux mois seulement après les premières collisions dans le LEP, des mesures d'une extrême finesse de la particule Z sont réalisées et montrent que les briques fondamentales, à partir desquelles toute la matière est faite, sont constituées de trois, et seulement trois, familles de particules.

1990 Tim Berners-Lee invente le World Wide Web.

1999 La construction du grand collisionneur de hardrons (LHC) débute.

2000 Création d’un nouvel état de la matière, le plasma de quarks et de gluons.

2007 Mise en service prévue du LHC.

1.1.2 Organisation et Structure

Comme toute organisation interétatique, le CERN est fondé sur une convention qui l’institue et définit ses objectifs, ses structures et son mode de fonctionnement. Cette convention est conçue de sorte que l’initiative parte des milieux scientifiques, c'est-à-dire que les programmes d’activité soumis à l’approbation des états membres correspondent bien aux besoins réels de la « base ».

Le Conseil est l’autorité suprême. Il porte la responsabilité finale de toutes les

décisions importantes touchant à l’institution et à ses activités. Dans ce conseil, chaque Etat membre est représenté par deux délégués. L’un de ces délégués représente l’Etat lui-même et le second est un scientifique. La structure du CERN repose sur deux entités principales : le Conseil et la Direction Générale.

Le conseil est assisté dans sa tâche par deux organes subsidiaires : un Comité

des Finances et un Comité des Directives Scientifiques. Le premier de ces comités réunit les représentants des administrations nationales et traite de toutes les questions relatives aux contributions financières des Etats membres ainsi que du budget et des dépenses du Laboratoire. Le second conseil étudie les options qui s’offrent à la physique des particules et fait des recommandations quant aux programmes d’activité du Laboratoire.

8

Le Directeur Général est nommé par le conseil pour une durée de cinq ans. Il dirige le laboratoire et a pouvoir pour agir au nom de l’organisation. Par tradition, le Directeur général est un scientifique. Il est assisté par un directoire composé de deux directeurs dont il propose la nomination au Conseil, mais il reste seul responsable devant les Etats membres.

1.1.3 Objectifs

De quoi notre Univers est-il fait ? D’où vient-il ? Comment s’explique son comportement ? Pour répondre à ces questions, les chercheurs du CERN explorent à l’aide d’accélérateurs (SPS SuperProton Synchrotron, LEP Large Electron-Positron collida, LHC Large Hardrons Collider) les particules les plus fondamentales et les forces qui interagissent entre-elles (Gravitationnelle, Faible, Electromagnétique, Forte). Dans le domaine de la physique théorique et dans les domaines qui lui sont connexes comme l’informatique, la médecine, les sciences des matériaux, la

9

microélectronique, l’imagerie, la cryogénie et l’optique, le CERN a fait de nombreuses découvertes. Parmi ces créations qui ont aujourd’hui des applications pratiques nous pouvons citer le World Wilde Web, les grilles de calcul, le tomographe par émission de positons TEP (pour l’imagerie médicale), la thérapie hadronique, etc.

1.1.4 Le Budget

En 2003, le budget total du CERN s’élevait 835 000 000 Euros. Il est, pour l’essentiel, financé par les contributions des Etats membres au prorata de leurs revenus nationaux respectifs. Le montant de ces contributions est régulièrement recalculé pour tenir compte de l’évolution de la situation économique de chaque Etat membre. Quatre grands pays (Allemagne, France, Italie et Royaume-Uni), assument du fait de leur poids économique, environ les deux tiers du budget, les autres Etats membres couvrant naturellement le reste.

1.1.5 Le Service d’Information Scientifiques (S.I.S.)

Le Service d’Information Scientifique se compose d’une bibliothèque centrale, de cinq bibliothèques satellites et des archives historiques et scientifiques. Fondé en 1954, ce service est aujourd’hui rattaché à la Division ETT (Education Technology Transfert), division qui est en charge de la communication des résultats scientifiques réalisés au CERN. Le SIS a pour mission première, la gestion de la bibliothèque. Pour cela, il doit mettre en place une politique d’acquisition qui répond au mieux aux besoins de ses usagers, gérer le fonds documentaire dont il dispose, l’organiser et enfin le rendre accessible de façon simple et pratique à la communauté scientifique du CERN. A côté de cette mission principale, le SIS se doit d’assurer la distribution des publications du CERN tel que les rapports, les preprints soumis par les chercheurs mais aussi de gérer les Archives historiques et scientifiques du CERN.

10

1.1.6 Composition du Service

Pour accomplir au mieux les missions qui lui ont été confiées le Service d’Information Scientifique comprend quatre sections :

- La Section Gestion des Documents - La Section Utilisateur - La Section des Archives Historiques et Scientifiques - La section Gestions des Périodiques

La Section Gestion des Documents est divisée en deux sous unités : l’unité Livre et l’unité Preprint (lieu de mon stage). La fonction essentielle de ce groupe est la collecte des documents, le catalogage de ces derniers et leur mise à jour dans les bases appropriées du CERN. La Section Utilisateur gère quant à elle le Prêt Entre Bibliothèques (PEB), la construction des pages Web du CDS (CERN Document Server), le module d’interrogation depuis ces pages, l’aide à la recherche documentaire et enfin la distribution des publications CERN. En ce qui concerne la Section des Archives Historiques et Scientifiques, celle-ci gère le Patrimoine de l’organisation. Depuis sa création en 1980, cette section a pour mission principale la remise en état des documents du fonds ancien qu’elle administre et leur mise à disposition pour les usagers. Enfin, la Section Gestion des Périodiques s’occupe de l’acquisition, la gestion et la mise à disposition des revues papiers et électroniques. Comme dans de nombreux Centre de Documentation, le SIS s’oriente résolument aujourd’hui vers une politique d’acquisition du tout électronique.

1.1.7 Le Budget du Service

En comparaison avec le budget total du CERN, le budget alloué à la bibliothèque représente moins de 0,1% du budget total; ce qui, en rapport avec le volume d’information traité, ne peut que nous étonner. La répartition de ce financement est consacrée à 50% pour les périodiques et 9% aux achats et à la restauration de monographies.

11

1.1.8 Le Fonds Documentaire

Le fonds documentaire de la bibliothèque du CERN se compose de: Monographies La bibliothèque gère 30000 livres et en achète environ 3000 par an

Périodiques Le CERN est abonné à environ 600 journaux scientifiques en version

imprimée (sans compter les collections de périodiques qui ont cessées de paraître et celles auxquelles la bibliothèque n’est désormais plus abonnée). De plus, la bibliothèque est abonnée à 1100 titres en version électroniques.

Littérature grise Il s’agit tout particulièrement de prepints, de rapports et de thèses. Au total on compte 350000 documents dont la version intégrale est disponible sous forme de microfiches (environ 15000), sous forme papier et/ou sous forme électronique. Depuis l’année 2001, plus de 50 000 prépublications (preprints) sont versées chaque année dans la base de données, avec un accès au texte intégral.

Conférences La bibliothèque compte 40000 titres et comptes rendus de conférence

1.1.9 Les Utilisateurs

On peut distinguer plusieurs catégories d’utilisateurs avec des besoins différents:

• Les physiciens et les expérimentateurs. • Les ingénieurs et techniciens. • Les informaticiens. • Le personnel administratif. • Les étudiants préparant une thèse.

1.1.10 Les Services Offerts

La politique du service est d’offrir aux différents types d’utilisateurs des services appropriés, faciles d’accès et pratiques. La plupart de ces services sont réunis sur le portail du CERN Scientific Information Service afin de favoriser l’implantation et le développement d’une bibliothèque virtuelle. Ce portail est un point d’accès mondial à l’information et à la documentation dans le domaine de la physique des hautes énergies. Il propose un accès, grâce à une interface unique (CERN Document Serveur), à des bases de données locales : preprints, rapports, articles, revues, normes, thèses, archives scientifiques, vidéo de conférence, annuaire des instituts de physique, photographies, coupures de presse, etc. Par le biais de cette interface, l’utilisateur du CDS peut définir une équation de recherche, consulter les notices bibliographiques correspondant à cette recherche et visualiser grâce aux liens hypertexte et aux technologies de type CrossRef1 ou Go Direct, le document dans sa version intégrale.

1 http://www.crossref.org

12

Par l’interface du portail SIS, d’autres services sont accessibles comme :

• La consultation en ligne de dictionnaires et d’encyclopédies. • L’accès aux bases de données suivantes (INSPEC, Medline, INIS, etc.). • La consultation et la suggestion de nouvelles acquisitions. • La réservation d’un document en vue d’un emprunt. • L’accès aux cyberlibrairies pour connaître les dernières publications. • La demande de Prêt Entre Bibliothèques (service gratuit et illimité). • La soumission de documents (preprints, thèses…) par son auteur. • Les « personal shelves » (sauvegarde des historiques de ses recherches). • Les FAQ (Frequently Asked Questions).

1.2 Contexte du stage et mission

1.2.1 Contexte du stage

Depuis le développement d’Internet dans les années 1990, le nombre des ressources documentaires en ligne s’est accru de manière considérable. Cette augmentation est en partie due au fait que de nombreux organismes n’éditent plus pour des raisons de coût et de rapidité de littérature grise au format papier. Aujourd’hui les laboratoires de recherche privilégient le format électronique. Ils invitent ainsi les bibliothèques scientifiques et les chercheurs à consulter leurs pages Web et leurs banques de données. Face à cette évolution, les politiques d’acquisitions des bibliothèques et centre de documentation ont dû être reconsidérés, modernisés ; elles ont dû s’adapter à ce nouveau schéma de circulation de l’information. Dans cette optique et en réponse à une croissance exponentielle de la production d’information, le Service de l’Information Scientifique et plus particulièrement la section Document Management (Gestion documentaire), a orienté progressivement ses choix vers le traitement informatisé de ces ressources électroniques.

Dans ce nouveau contexte le demandeur d’information (chercheurs,

ingénieurs, techniciens, étudiants) se voit proposer une multitude de sources différentes qu’il doit sélectionner et interroger en ayant connaissance dans chacun des cas de leurs contenus, de leur mode de fonctionnement, et de leur mode d’interrogation. Afin de faciliter cette recherche documentaire à ses usagers internes comme externes, le Service d’Information Scientifique a décidé d’importer de manière systématique dans ses bases de données, le plus grand nombre de notices bibliographiques et documents électroniques en rapport avec l’activité du CERN (physique des particules, accélérateurs de particules, etc.).

Pour se faire, le service informatique du CERN a mis au point un programme

baptisé Uploader. Celui-ci permet d’importer de manière semi-automatique dans les bases de données locales du CERN, les notices bibliographiques et les textes intégraux de documents provenant de diverses sources sur Internet (pages Web, bases de données en ligne). L’utilisation de cet outil est double puisqu’il permet de récupérer de manière automatique des informations concernant les domaines d’activités du CERN et d’enrichir ainsi très rapidement le catalogue interne de la bibliothèque. Il permet aussi de mettre à jour (corrections, ajout de nouvelles entrées)

13

les notices bibliographiques déjà référencées dans le CDS. Sans cet outil il serait impossible au SIS de réaliser son œuvre ; c'est-à-dire proposer à ses usagers en leur simplifiant l’accès, des données provenant d’origines diverses que l’on peut facilement consulter au moyen d’une interface unique.

1.2.2 La Mission

Ma mission au sein de l’unité de Gestion des Documents a consisté dans un premier temps à analyser, contrôler, puis importer grâce au programme Uploader les notices bibliographiques de la base de données INIS (International Nuclear Information System) dans les bases de données produites par le CERN. Elle a ensuite consisté, dans un second temps, à lier ces notices aux full-text correspondants, proposées indépendamment, sur un jeu de CD-ROM. La réalisation de cette mission était incertaine et aucun test n’avait été effectué au préalable ; elle répondait seulement à l’une des volontés du SIS qui est celle de proposer à ses usagers une interface unique intégrant les données provenant d’autres bases et pour lesquelles des accords concernant les droits ont été conclus. Par ailleurs, mon travail m’a permis de mettre en lumière les éléments qui étaient à améliorer dans le programme, mais aussi dans sa nouvelle version. J’ai donc travaillé en collaboration avec le service informatique pour développer de nouvelles fonctions sur l’Uploader et Bibconvert2.

2 Bibconvert est la nouvelle version de l’Uploader. Le service informatique m’a demandé dans un premier temps de réaliser mes configurations à l’aide de ce programme. Malheureusement ce programme ne permet toujours pas d’importer des notices. Mes remarques sur les problèmes posés par cette nouvelle version ont été remises au Service Informatique. A ce jour aucune solution n’a été proposée.

14

2. Importation semi-automatique des métadonnées de la base INIS

2.1 Analyse de la Source d’entrée

2.1.1 Présentation de la base

La base de données INIS (International Nuclear Information System) couvre

depuis 1970 la littérature scientifique mondiale sur les usages pacifiques des sciences et technologies nucléaires. Depuis 1992 elle intègre des aspects nouveaux comme l’économie, le droit, et l’environnement. Actuellement on compte plus de 2,4 millions de notices bibliographiques qui référencent aussi bien des articles parus dans des journaux scientifiques, que des thèses, des rapports de recherche ou de développement, des comptes rendus de conférence, des livres, des brevets, des lois, des règlements et des norme

La base INIS, produite par l’IAEA (International Atomic Energy Agency), est

basée sur un processus de collaboration internationale entre 110 états membres et 19 organisations internationales. Chaque pays et organisation possède un officier de liaison qui collecte les documents, élabore ensuite selon des normes précises les notices bibliographiques de ces documents, puis les soumet au secrétariat d’INIS à Vienne qui se charge lui, en retour, de fournir aux états membre et organisations, les normes de rédaction, les produits et services nécessaire à la consultation des données ainsi que les documents numérisés pour la littérature non conventionnelle.

15

Ce mode de fonctionnement basé sur la décentralisation, la répartition des tâches et des coûts est efficace. Il démontre son efficacité par le nombre de notices que contient la base de données (2,4 Millions de notices), le nombre important de nouvelles notices importées chaques années (80000 entrées), le nombre d’abonnés dans le monde (110 états membres et 19 organisations internationales dont le CERN), et la collection de rapports, thèses, brevets au format électronique (550000 documents).

2.1.2 Comparaison de la base en ligne et sur CD-Rom

L’accès aux données bibliographiques de la base de données INIS se fait de deux manières. L’une consiste à interroger directement via une connexion Internet la base de données en ligne, l’autre, plus archaïque mais non moins intéressante, consiste à interroger au moyen de l’interface Winspirs, la base de données contenue sur un jeu de neuf CD-Rom. Comme de nombreuses structures le CERN privilégie, en raison d’un accès plus rapide et de mises à jour plus fréquentes, l’accès à la base en ligne. Cependant, après avoir étudié et testé ces deux produits, je me suis aperçu que la base de données sur CD-Rom offrait des avantages bien plus intéressants que ceux présentés par la base en ligne. Parmi ces points forts nous pouvons souligner le fait que la Base sur CD-Rom possède un mode d’interrogation plus complexe et plus performant qui amène des résultats plus pertinents. Elle propose de surcroît un grand nombre d’options en ce qui concerne la présentation des résultats ainsi qu’un format de sauvegarde de ces derniers (.txt) beaucoup plus propre que le format HTML fourni par l’interrogation en ligne (problème de balises et de rédaction du code). L’utilisation d’un programme tel que l’Uploader rend ces deux derniers aspects fondamentaux. Nous verrons ultérieurement comment ces deux points réduisent de manière considérable les performances d’un programme d’importation automatique de données.

16

2.1.3 Présentation du logiciel Winspirs 5.0

Pour consulter la base de données INIS disponible sur CD-Rom, il est nécessaire de se munir d’un système de recherche documentaire. Pour se faire INIS utilise le logiciel Winspirs 5.0 développé par SilverPlatter. Ce logiciel offre à ses utilisateurs de nombreuses possibilités dont l’une des plus importantes est celle de pouvoir formuler une équation de recherche complexe qui utilise de nombreux outils comme les opérateurs booléens (and, or, not, with, near), la troncature, les champs limités ou encore, le thesaurus, l’index et la table des matières. Pour ce qui est de la présentation, des résultats et l’enregistrement des données, là encore le nombre d’options possibles est considérable. Parmi ces options on peut citer la possibilité de sélectionner les champs que l’on souhaite consulter ou enregistrer, le tri des résultats, l’affichage ou la suppression des tags et des numéros des enregistrements, le choix du caractère de séparation des enregistrements et l’affichage ou non de l’historique des recherches. Au regard des tests réalisés entre la base de données sur CD-Rom et celle en ligne, il est important de souligner ici que, pour des recherches similaires, les résultats obtenus avec le module de recherche Winspirs se sont avérés être beaucoup plus pertinents. Le logiciel Winspirs 5.0 est donc l’une des raisons qui m’a poussé à utiliser la base sur CD-Rom. (annexe Plaquette pour la recherche)

2.1.4 Présentation des Champs

La mise en place de configuration pour l’Uploader nécessite une bonne visualisation au préalable du contenu des champs mais aussi une bonne connaissance de leur degré d’obligation, des normes et des formats utilisés lors de leurs indexations

17

dans la base de données INIS. Ce paragraphe vise donc à présenter de la manière la plus succincte les caractéristiques propres des différents champs présents dans les notices bibliographiques.

Abstract (AB). Le champ AB contient un résumé en anglais du document

original. 93% des documents référencés par la base contiennent un résumé. Ce champ, limité à 6000 caractères, est dans une grande majorité des cas fourni par l’auteur. En fin de résumé il est possible de retrouver le nombre de références, de figures, tableaux et autres illustrations. Le champ AB est de type alphanumérique et l’utilisation de limites lors de son interrogation est donc impossible.

INIS Accession Number and Related Record (AN). Le champ AN contient

un numéro unique attribué par INIS pour chaque enregistrement. C’est une clé unique qui permet de faire le lien aisément avec les documents numérisés sur les CD-Rom NCL (Non Conventionnal Litterature). Le numéro se compose de deux parties. La première, à gauche du tiret, représente le numéro de volume de l’année en cours. La deuxième partie, à droite du tiret, représente le numéro attribué au document lors de son enregistrement (ex : 32-068389). C’est un champ de type texte et l’utilisation de limites lors de son interrogation est donc impossible. Si l’enregistrement correspond à une mise à jour, un remplacement ou s’il relate simplement un autre enregistrement, le numéro d’enregistrement auquel il fait allusion est fourni dans ce même champ.

Author(s) (AU). Tous les documents introduits dans la base de données

possèdent un auteur s’il s’agit d’une thèse et un ou plusieurs auteurs s’il s’agit d’un article, d’un rapport de recherche, d’un rapport de développement, d’un preprint, etc. Toutes les personnes responsables du document que ce soit les éditeurs, les compilateurs ou les inventeurs pour un brevet peuvent être considérés comme des auteurs. Dans les cas où plusieurs auteurs sont présents, ils sont listés par ordre alphabétique et séparés par un point virgule. Chaque auteur se présente de la manière suivante :

En réalité ce format est peu respecté par les officiers de liaison et de nombreuses variantes existent. Le champ AU est très hétérogène et la rédaction des configurations utiles au programme Uploader pour récupérer les données de ce champ ne se fera pas sans poser quelques problèmes.

Primary Subject Category Code (C1). Le champ C1 contient un code

indiquant le sujet général traité par le document original. Tous les documents introduits dans la base de données INIS possèdent l’un de ces codes. Ce code est composé de la lettre S et de deux chiffres. Le nombre de codes disponible et par extension le nombre de sujets est de 45. Ils identifient chacun une partie de la physique nucléaire ou l’un des domaines lié à cette activité. Les équivalences entre le

18

code et la catégorie qu’il identifie sont fournis par le manuel : Subject categories and scope descriptions. Ce champ de type alphanumérique est limité à une seule entrée.

Corporate/Conference Author(s) (CA). Le champ CA correspond au nom et

la localisation de la corporation (organisme, laboratoire, université) responsable de la publication du document. La présence de ce champ, variable selon le type de document référencé, est de : 20% pour les articles, 94% pour les rapports et preprints, 98% pour les thèses et 100% pour les conférences. Lorsque le document correspond à une conférence il faut y ajouter, le nom, la localisation et la date de cette dernière.

All Subject Category Codes (CC). Le champ CC contient des codes

indiquant le sujet général ainsi que les sujets secondaires traités par le document. Le caractère de ponctuation utilisé pour séparer les différents codes est le point virgule. Le nombre d’entrée est variable et n’est soumis à aucune limite. Le champ CC n’est pas obligatoire.

All Subject Category Description (CD). Le champ CD fournit aux usagers la

description du champ CC, c'est-à-dire la description des sujets auxquels les codes CC font références. Ce champ n’est pas interrogeable et le caractère de séparation utilisé est le point virgule. Il n’est pas obligatoire non plus.

Country of Input (CI). Le champ CI contient le nom du pays ayant participé

à l’acquisition du document. Dans la majorité des cas il correspond bien sûr au pays de la publication. Tous les documents possèdent ce champ dont les entrées sont contrôlées à l’aide d’une liste d’autorité.

Computer-Assigned Descriptors (DEC). Le champ DEC contient les termes

génériques des descripteurs choisis dans le Thesaurus INIS pour décrire le contenu du document. Cette partie de l’indexation répond à un processus automatique. Dans la plupart des cas les notices bibliographiques présentent le champ DEC. Il est cependant théoriquement possible qu’un enregistrement n’en possède pas et c’est d’ailleurs le cas lorsque aucun des DEI choisis ne possèdent de termes génériques. Les différents descripteurs sont séparés par un point virgule

Indexer-Assigned Descriptors (DEI). Le champ DEI contient un jeu

descripteur de taille variable, sélectionné dans le Thesaurus INIS pour décrire le contenu du document original. Ces descripteurs sont contrôlés et modifiés le cas échéant, lors de l’ultime phase de traitement. Ce champ est obligatoire et le caractère de séparation utilisé est le point virgule.

International Standards Numbers (IS). Le champ IS contient les numéros

internationaux normalisés attribués aux livres (International Standard Book Number), aux collections (International Standard Serial Number) et aux brevets (International Patent Classification). La présence de ce champ est rendue obligatoire pour les documents de types articles et brevets.

Language of Text (LA). Le champ LA contient la langue dans laquelle le

document original a été publié. Tous les documents possèdent ce champ dont les entrées sont contrôlées à l’aide d’une liste d’autorité.

19

Notes (NT). Le champ NT contient des informations sur la publication comme le nombre de figures, de tableaux, de références ou encore sur le lieu d’obtention de la publication (adresse électronique et nom du journal s’il s’agit d’une revue en ligne). Le champ NT n’est pas obligatoire. Il est très hétérogène et son intégration à la configuration est donc difficile.

Publication Type (PT). Le champ PT correspond au type de publication auquel le document original fait référence. Tous les documents possèdent ce champ dont les entrées sont contrôlées à l’aide d’une liste d’autorité. Lorsqu’un même document est indexé simultanément dans plusieurs de ces classes, le caractère de séparation utilisé est le point virgule. Après avoir mené une étude toute particulière su ce champ je me suis aperçu que certain des documents que je comptais traités étaient indexés à la fois comme article, rapport et conférence.

Publication Year (PY). Le champ PY contient l’année au cours de laquelle le document a été publié. Ce champ est obligatoire pour tous les types de documents. Il est de type numérique et l’utilisation d’opérateurs (<, >, <=, >=, =, -) lors de l’interrogation est donc possible.

Report/Patent Number (RN). Le champ RN correspond au numéro de brevet

ou à des numéros d’identification internes attribués par les organismes qui émettent ou publient le document. La plupart des numéros de rapports fournis par ces organismes sont constitués de deux parties : une première alphabétique et l’autre numérique. Ce sont des numéros qui identifient de manière unique un document. Ils doivent obéir à la norme ISO DP10444 : International Standard Technical Report Number (ISRN). Lorsque les rapports sont soumis à INIS sans RN, les personnes en charge du contrôle assigneront eux-mêmes un RN en respectant la norme ISO en vigueur. Le caractère de séparation utilisé ici est le point virgule.

Source (SO). Le champ SO contient des informations concernant la

publication du document original. Les informations contenues, ainsi que le format utilisé dépendent du type de document. Pour ce qui est des articles le champ SO contient : le nom du journal non abrégé dans lequel l’article à été publié, la date de publication du journal, le volume, la livraison ou issue, le nombre de pages, de figures, de tableaux et de références. Pour ce qui est des thèses le champ SO présente : le lieu et la date de soutenance, le nombre de pages ou la taille du fichier, la ville et le pays d’origine. Enfin pour ce qui est des rapports et preprints, le champ SO contient : la date, le nombre de pages ou la taille du fichier. En réalité ces différents formats

20

sont très peu respectés par les officiers de liaison et de nombreuses variantes existent. Le champ SO est très hétérogène. La rédaction des configurations utiles au programme Uploader pour récupérer les données de ce champ ne se fera pas sans poser quelques problèmes. Le champ SO est obligatoire, de type alphanumérique et non contrôlé.

Series/Title Informations (ST). Le champ ST correspond à des notes

complémentaires sur le titre, la source ou le document lui-même. Seul 1% des documents présents dans la base de données INIS présentent une entrée pour ce champ. Le champ ST est de type texte et il est bien entendu non limité et non contrôlé.

Title (TI). Le champ TI contient le titre premier et les sous-titres du document

original. Tous les articles introduits dans la base de données INIS possèdent ce champ. Si le titre original n’est pas en anglais, une traduction en anglais sera disponible ici. C’est un champ non contrôlé, non limité, dans lequel on retrouve aussi bien des caractères alphanumériques que des signes de ponctuation.

Update Code (UD). Le champ UD correspond au code de mise à jour du

document original. Ce code est constitué de 4 chiffres dont les deux premiers correspondent au volume de l’année en cours et les deux derniers à la livraison. Le champ UD est de type numérique, contrôlé et obligatoire. Lors de l’interrogation l’utilisation de limites sur ce dernier est possible.

2.1.5 Les CD-Rom NCL (Non Conventionnal Litterature)

Depuis 1997, l’IAEA (International Atomic Energy Agency) propose à ses usagers une collection de CD-Rom contenant les textes intégraux des documents de la littérature non conventionnelle appelée aussi plus communément littérature grise (Thèses, preprints, rapports de recherche et de développement, etc.). Cette collection, constituée de 244 CD-Rom, compte près de 125 000 documents. Les formats de sauvegarde de ces documents sont le .tiff page par page pour tous les documents antérieurs à 2001 et le .pdf pour tous les documents postérieurs à cette date. En ce qui concerne les documents introduits entre 1970 et 1996 dans la base de données INIS, seule une version du texte intégrale sur microfiche est disponible.

21

Contrairement à d’autres bases en lignes, INIS ne propose pas d’accès direct, via un lien hypertexte, au full-text. Ce service, pourtant pratique pour les usagers, n’est toujours pas envisagé par les responsables de la base. Pour combler ce manque, le SIS à donc décidé d’intégrer certains documents INIS au CDS en rétablissant ce lien.

2.1.6 Statistiques

Avant tout import il est primordial de déterminer la dimension ainsi que la valeur de la source. Une base qui ne contient que quelques dizaines de documents ne nécessite pas forcément une importation automatique ; une importation manuelle sera plus rapide s’il s’agit d’une source de petite taille (100 à 150 documents). Les statistiques nous permettent de répondre aisément à ces questions. Dans le cas présent j’ai choisi de les faire porter sur le volume 32, c'est-à-dire celui correspondant aux importations au cours de l’année 2001. Ces statistiques ont été réalisées en interrogeant la base de données INIS avec des équations de recherche propres à un type de document particulier (thèses, preprints et rapports, articles, conférences). Ces dernières seront présentées ultérieurement dans la partie méthode de ce rapport.

2.2 Analyse de la Base d’accueil

2.2.1 Présentation du logiciel documentaire : ALEPH 500

ALEPH (Automated Library Expandable Program) est un logiciel de gestion de données développé au sein de l’Hebrew University à Jérusalem en Israël. Il est produit par Ex-Libris, société israélienne spécialisée dans le domaine de l'informatisation de médiathèques. Le système ALEPH est utilisé par 3 millions de personnes sur 560 sites dans 44 pays. Il a été choisi en France et en Suisse par de nombreux établissements prestigieux. Parmi ces établissements nous pourrions citer à titre d’exemple les écoles Polytechniques de France et de Suisse ainsi que de nombreux établissements universitaires du monde entier.

La version initiale a été créée il y a 20 ans. Depuis, plusieurs versions ont été

mises au point en fonction des besoins émis par les divers bibliothèques ou centre de documentation du monde entier. La dernière en date, ALEPH 500, est utilisée au CERN depuis un an. Le passage entre cette ultime version et la précédente n’a pas été facile car la version ALEPH 300 avait été configurée spécialement pour les besoins du

22

SIS. Les grands centres de documentation n’utilisent généralement pas ALEPH car ce gestionnaire de bases de données ne possède pas de véritable thesaurus et les modules offerts ne sont pas pratiques pour la gestion des tâches courantes (commandes, budgets, prêts…). ALEPH présente cependant l’avantage d’être très flexible au niveau de la gestion et la structuration des données. L’utilisateur peut en effet définir ici ses propres critères comme le nombre de champs, la longueur de ces champs et le format d’entrée.

2.2.2 Structure générale de la Base

La base de données du CERN est en fait constituée de plusieurs bases indépendantes les unes des autres. Chaque base possède une structure particulière. Cette structure varie en fonction des documents qui y sont renfermés. Les deux principales bases que l’on retrouve au CERN sont les bases « ARC » pour les archives et « CER » pour le reste. Ces dernières sont elles aussi divisées en « sous-bases ». Ainsi la base CER compte quatre « sous-bases »: la 11 pour les preprints, la 12 pour les conférences, la 13 pour les articles et la 19 pour les rapports. En ce qui concerne le catalogage, celui-ci utilise le format MARC 21 et est spécifique lui aussi à chaque type de document. Ces deux derniers aspects m’ont amené à rédiger des configurations qui sont chacune caractéristique d’un type de document. Les résultats qui en découlent se sont révélés par la suite être bien meilleurs que ceux obtenus normalement avec une configuration classique.

23

2.2.3 Recherche documentaire

Une recherche documentaire sous Aleph 500 peut s’effectuer depuis deux interfaces : l’interface Web pour les utilisateurs et l’interface qui va de pair avec le logiciel. Cette dernière n’est accessible qu’au documentaliste en charge de la gestion de la base. Pour ce qui est de l’interface Web, l’accès à la recherche se fait depuis le portail du CDS. L’utilisateur peut ici effectuer une recherche simple sur tous les champs ou plus spécifiquement, sur le titre, l’auteur, le résumé, l’année de publication et les numéros CERN. Il peut aussi combiner les champs de recherche en utilisant les différents opérateurs booléens (ET, OU, SAUF) disponibles depuis le mode de recherche avancée. Enfin l’utilisateur peut s’il le souhaite n’interroger que certaines bases. Cette fonction toute particulière est très utilisée par les utilisateurs internes car elle leur permet de ne sélectionner ainsi que certains types de documents (preprints, thèses, rapports) ou tout simplement de ne visualiser que les documents produits en interne par les chercheurs du CERN (yellow reports, press cuttings, notes internes, preprints du CERN, etc.). Pour ce qui est de l’autre interface deux modes d’interrogation sont possibles : la recherche par index ou le mode « Browse » pour lequel l’utilisateur doit définir le champ qu’il souhaite interroger et la recherche par mot-clef ou le mode « Find » avec lequel l’utilisateur peut rechercher le tout ou une partie d’un ou plusieurs champs.

2.3 Le programme Uploader

2.3.1 Présentation

Afin d’optimiser au maximum l’automatisation du traitement des notices, le SIS en collaboration avec le service informatique du CERN, a développé le programme Uploader. Ce système, crée il y a maintenant quatre ans par un informaticien du CERN, Martin Vesely, permet d‘importer automatiquement dans le catalogue de la bibliothèque du CERN des notices bibliographiques et le texte intégral de documents provenant de différentes sources aussi bien en ligne que sur CD-Rom. A partir d’un fichier source de données, le programme Uploader va formater les notices et les adapter ainsi au catalogue de la bibliothèque du CERN.

24

Pour chaque nouvelle source importée, des fichiers de configuration sont créés. Ces fichiers permettent la mise en forme des champs des notices d’origine au format MARC 21 utilisé par la base du CERN. Chacune de ces configurations est caractérisée par trois fichiers principaux. Deux d’entre eux permettent de définir le balisage et la structure des champs de la notice d’origine. Le troisième, le plus complexe à réaliser, sert à créer, à partir des données d’origines, la nouvelle notice avec les champs adéquats.

Le programme Uploader propose également, en plus de tous ce qui a été décrit

précédemment, d’autres fonctionnalités, comme la mise à jour de notices existantes, leurs corrections et la recherche de doublons. Cette toute dernière fonction permet bien entendu de refuser tout nouvel import d’une notice déjà existante dans le CDS.

2.3.2 Mode de fonctionnement

La procédure de l’Uploader se décompose en plusieurs étapes :

• Analyse des données bibliographiques de la source • Sélection d’une chaîne de caractère indiquant la séparation des notices • Séparation des notices bibliographiques • Balisage des champs à importer • Extraction des champs à importer • Définition du format de la structure d’accueil (MARC 21) • Transcription et codage selon format de la structure d’accueil • Vérification et recherche de doublons • Importation, mise à jour ou rejet de la notice bibliographique

Une fois les données transformées dans le format de la base locale, cette

dernière est interrogée. Trois cas sont alors possibles. Dans le premier cas la notice n’est pas trouvée dans la base d’accueil, elle donc importée et possède dès lors un numéro de système dans la base ALEPH. Dans le deuxième cas le système repère dans la base une occurrence de la notice, elle est alors considérée comme modifiée (matched). Les champs existants peuvent alors être corrigés grâce à la fonction « correct » et les champs nouveaux peuvent être ajoutés à la notice existante grâce à la fonction « append ». Enfin dans le troisième cas, le système trouve plus d’une occurrence de la notice dans la base, la notice est alors considérée comme litigieuse (non confident) et elle est alors placée dans un fichier de sauvegarde en attendant d’être contrôlée visuellement.

Toutes ces opérations décrites ci-dessus sont contrôlées par les trois fichiers

constituants la configuration. Il est donc important de rappeler ici que pour chaque nouvelle source que l’on souhaite importer, une configuration spécifique doit être créée car, ce sont les fichiers *.extract, *.tpl et *aleph.tpl qui établissent la structure de la notice initiale ainsi que les fonctions permettant la transcription de celle-ci au format adéquat. Il est important aussi de rappeler ici que l’Uploader ne fonctionne que sous Unix. Son utilisation nécessite donc une bonne connaissance de ce système (apprentissage pour ma part) ainsi que des éditeurs de textes tels que Xemacs.

25

2.3.3 Elaboration de la configuration

2.3.3.1 La séparation des notices

Le fichier d’origine, obtenu après interrogation de la base INIS, se compose

d’un ensemble de notices, placées les unes à la suite des autres. Ce fichier est de type *.txt et ne contient donc pas de signes cachés de tabulation ou d’autres marqueurs caractéristiques comme les balises html. La première chose à faire ici est de déterminer une chaîne de caractères spécifiques qui permettent de séparer les notices afin de pouvoir les traiter une par une. Il faut donc trouver ici un élément du fichier qui puisse remplir cette fonction et dont on soit sûre de ne trouver aucune occurrence à l’intérieur d’une notice. Ce choix est d’une importance capitale et il détermine la première étape de l’extraction.

Les deux notices ci-dessus proviennent d’un fichier source sauvegardé au format .txt. Comme nous pouvons le voir sur cet exemple les notices sont séparées les unes des autres par trois lignes. Une de ces lignes contient le numéro d’enregistrement de la notice en cours ainsi que le nom du CD-Rom interrogé ; les deux autres ne contiennent aucune information, ce sont des lignes vides. Chaque notice est donc précédée par une même chaîne de caractère et c’est donc cette même chaîne : INIS 2001-2003/12 que j’ai choisi de retenir comme séparateur. Parfois, il n’est pas aussi simple de trouver un séparateur dont on est sûr qu’il ne présente aucune occurrence dans le corps des notices. Cette remarque est d’autant plus vraie lorsque l’on utilise un fichier source de type html.

2.3.3.2 Mise en place de la configuration Chaque source que l’on souhaite importer possède normalement sa propre

configuration. Pour ma part j’ai choisi de confectionner quatre configurations différentes qui répondent chacune aux besoins spécifiques d’un type de document. Ce choix est dû en particulier à l’organisation de la base (base des rapports, base des thèses, base des articles), la structuration de ces bases d’accueil (champs caractéristiques) mais aussi au fait qu’il m’a été possible de séparer, lors de

26

l’interrogation de la base, les notices bibliographiques en fonction, du type de document.

Une configuration pour l’Uploader est constituée de trois fichiers. Ces trois fichiers écrits selon une syntaxe particulière, se nomment : *.extract, *.tpl et *aleph.tpl. Pour exemple, les fichiers nécessaires à l’importation des thèses de la base INIS ont pour nom : INISTHESE.extract, INISTHESE.tpl et INISTHESEaleph.tpl.

- Le fichier d’extraction des données : *.extract

Ce fichier constitue la première étape dans l’élaboration de la configuration. Le contenu du fichier *.extract permet au programme de séparer les uns des autres les différents champs constituant la notice initiale. Il définit donc le nom des champs ainsi que les balises de début et de fin qui délimitent chaque champ.

Dans le fichier INISTHESE.extract, les champs sont décrits ainsi :

A ce stade l’information est définie et extraite champ par champ.

27

- Le fichier d’encodage des données : *.tpl

Ce fichier décrit la structure interne de chacun des champs constituant la notice bibliographique. Contrairement au premier fichier qui ne fait que définir et délimiter les différents champs, celui-ci permet au programme Uploader de morceler grâce à des séparateurs spécifiques, l’information contenue dans un seul et même champ. Ainsi pour le champ Auteur on peut définir ici que ce dernier est constitué de deux sous champs : le nom et le prénom et qu’il sont séparés l’un de l’autre par une virgule et un tiret

Dans le fichier INISTHESE.tpl, les champs sont décrits ainsi :

- Le fichier de structuration de la notice finale : *aleph.tpl

Le fichier *aleph.tpl structure les données contenus dans les sous champs selon les formats retenus par la base d’accueil. Ce fichier qui constitue la dernière étape dans l’élaboration de la configuration permet d’obtenir une notice finale respectant les normes choisies par le SIS. Pour arriver à cet état de nombreuses commandes dont voici quelques exemples sont mises à la disposition de l’usager :

28

La mise en place du fichier *aleph.tpl est la plus longue à réaliser. Ce temps de travail s’explique par le fait que la syntaxe et les caractéristiques de chaque commande doivent être connues de l’utilisateur, mais aussi par le fait que le fichier *aleph.tpl doit prévoir tous les cas de figures possibles. En effet il est rare que toutes les notices d’une source soient structurées de la même façon. Il faut donc, par le biais d’une analyse antérieure, prévoir et envisager toutes les erreurs faites par les responsables du catalogage des notices. Dans le cas d’INIS ces erreurs sont très fréquentes. Leurs nombres s’expliquent par le fait que la structure INIS est décentralisée et que ce sont donc plus de 130 personnes qui adaptent, dans le but de cataloguer les notices, les normes établies par le secrétariat INIS. Les différents cas de figures pour chacun des champs ont été recensés dans les tableaux de correspondances qui sont joints en annexe de ce rapport.

Dans le fichier INISTHESEaleph.extract, les champs sont décrits ainsi :

Pour conclure, la création de ces trois fichiers peut donc se révéler être un travail délicat. Il faut donc effectuer de nombreux tests afin de vérifier si les configurations fonctionnent correctement. Une fois la configuration terminée, il faudra ajouter les caractéristiques de la configuration au fichier main.cfg utile au démarrage du programme Uploader. On y inscrit le séparateur, le nom de la configuration et les conditions d’importation.

29

2.3.3.3 Les « Knowledges Bases »

Lorsque l’on importe des notices bibliographiques dans la base ALEPH, il est important que les informations contenues soient normalisées. A ce jour, aucune norme n’est vraiment appliquée au niveau international et chaque organisme à sa propre codification. Les Knowledges Bases ont été créées dans le but de remplir cette fonction. Ce sont des listes de références que le programme Uploader va consulter lors de son exécution. Pour ma part j’ai décidé d’utiliser au maximum ces listes de connaissances. Leurs créations m’a permis d’uniformiser et de transformer les données INIS selon les normes établies par le SIS.

La construction des ces listes de connaissances exigent beaucoup de temps, mais au regard des résultats obtenus je peux dire que cet investissement n’est pas inutile. Le nombre de Knowledges constituées au cours de ce stage est de six. Chacune de ces KB possède des fonctions qui lui sont propres. Ainsi la KB SISU-INIS-place-publisher permet au moyen du nom de l’université ou du centre de recherche de le normaliser et de retrouver le lieu d’édition, la KB SISU-INIS-issn-journal permet de retrouver et normaliser grâce au numéro ISSN le titre abrégé du périodique correspondant, la KB SISU-INIS-page permet au programme lorsque celui-ci ne trouve pas dans la notice INIS le nombre de pages de définir la valeur par défaut « mult p », la KB SISU-rnim permet elle d’établir une correspondance entre le report number et le nom et lieu de l’organisme émetteur et enfin les KB SISU-INIS-sc-inis et SISU-INIS-sc-inis-cds permettent de définir des équivalences entre le code de classification C1, son intitulé et celui utilisé par la classification du CDS.

30

Pour construire ces différentes KB, il m’a fallu lister les différentes formes

d’entrées possibles, puis les dédoubler à l’aide des commandes UNIX et de l’éditeur de texte Xemacs et enfin, trouver les équivalences de ces formes au moyen du Words of learning 2000 pour les noms et les lieux des organismes, de la liste des abréviations ISSN et de la base ISSN en ligne pour les titres des périodiques et leurs abrégés. Le tableau suivant fourni un bref aperçu de la quantité de données contenues dans ces différentes Knowledges.

2.3.3.4 Visualisation d’un résultat

Après traitement par l’Uploader voici le résultat obtenu sur la notice 96:

31

2.3.4 Bilan sur l’utilisation de l’Uploader

Intérêts de l’Uploader

Augmentation du nombre des importations. Il est évident que comparativement à l’importation manuelle de données, l’Uploader est beaucoup plus rapide et efficace. Une importation automatique avec l’Uploader peut engendrer des milliers d’enregistrements en des temps records. Les études statistiques réalisées sur la base CERN viennent renforcées cette idée. Elles montrent que le nombre de ces importations a considérablement augmenté depuis l’utilisation du programme.

Déplacement des tâches du documentaliste. En effet, la saisie manuelle est un travail qui ne demande pas de qualification précise, si ce n’est de la rigueur et de la précision. En revanche, l’utilisation de l’Uploader nécessite une connaissance approfondie de cet outil. La confection des configurations demande un apprentissage des commandes à utiliser. Contrairement à la saisie manuelle, l’intelligence et la logique du documentaliste sont mises ici à l’épreuve. Cet outil implique un changement du travail du documentaliste, il n’est plus seulement l’intermédiaire physique entre le document et l’utilisateur, il prend en charge une partie du travail de l’utilisateur.

Plus grande fiabilité. Un autre avantage indéniable de ce programme réside dans le fait que ce procédé est en partie automatisé. Il n’engendre donc, contrairement à la saisie manuelle, que très peu d’erreurs. L’intervention humaine est ici limitée et les erreurs que celui-ci commet sont donc elles aussi limitées.

Création d’une valeur ajoutée. Lors de l’importation des données, il est possible d’ajouter un certains nombres de champs. Pour exemple nous pouvons citer dans le cas des rapports ou des thèses l’ajout du champ LKR qui permet de lier la notice bibliographique au texte intégral du document original.

Changement de politique d’acquisition de la littérature grise. Le programme Uploader a permis, en outre, de mettre en place une réflexion générale sur la politique d’acquisition de la littérature grise au CERN. Avant, il n’y avait pas de choix possible, le CERN était réduit à importer dans sa base ce qu’il recevait par ses différents canaux de distribution. Aujourd’hui, c’est la démarche inverse qui s’opère : le SIS va chercher l’information là où elle se trouve, il n’est plus obligé de l’attendre.

Limites de l’Uploader

L’Uploader reste un programme d’automatisation partielle. Rappelons tout d’abord qu’il s’agit d’un outil de traitement semi-automatique du document ; la procédure de ce dernier n’est donc pas complètement automatisée. L’intervention de l’homme est, en effet, nécessaire au début et à la fin de la chaîne de traitement. Tout d’abord, pour chaque source, il faut créer une configuration différente, il faut donc à chaque fois adapter l’outil à la source à exploiter. C’est une démarche un peu longue qui ralentit donc le processus d’importation. A la fin de l’importation, une autre intervention est nécessaire puisqu’il faut obligatoirement contrôler visuellement le contenu des notices ayant tournées avec l’Uploader.

32

Une certaine rigidité du programme. Par ailleurs, on constate aussi que l’Uploader ne peut pas s’adapter à toutes les situations. Il reste fortement dépendant de la source à exploiter. C’est le cas des bases en ligne qui ne permettent généralement pas d’exploiter à fond les avantages offerts par l’Uploader. De nombreuses bases en ligne comme INIS présentent les notices sur des pages séparées, reliées entre-elles au moyen d’un lien hypertexte. L’utilisation de l’Uploader est alors complexe puisque l’utilisateur doit au préalable enregistrer une à une les différentes notices.

Limitation des entrées dans ALEPH. Enfin, il faut parler du fait que si l’Uploader permet d’importer un très grand nombre de notices, les importations dans ALEPH sont, elles, limitées. On ne peut dépasser un certain quota de lignes importées sous peine de perdre une partie des informations.

2.4 Méthode

2.4.1 Schéma général

2.4.2 Sélection des documents

Les équations de recherche que j’ai établi pour interroger la base de données INIS sur CD-Rom sont basées essentiellement sur les champs Primary Subject Catergory Scope (C1) noté C1 et All Subject Category Scope noté CC. Les champ C1 et CC définissent au moyen d’un code les sujets premiers et secondaires traités dans le document. Cette classification, propre à INIS est composée de 45 codes décrivant

33

chacun une partie de la physique nucléaire ou un domaine connexe lié à cette activité. Après en avoir discuter avec David Dallmann, physicien et documentaliste au SIS, j’ai décidé de ne retenir que les 11 catégories qui suivent.

• S07 Isotopes and Radiation Sources • S43 Particle Accelerators • S46 Instrumentation Related To Nuclear Science and Technology • S61 Radiation Protection and Dosimetry • S62 Radiology and Nuclear Medicine • S71 Classical and Quantum Mechanics, General Physics • S72 Physics of Elementary Particles and Fields • S73 Nuclear Physics and Radiation Physics • S74 Atomic and Molecular Physics • S75 Condensed Matter Physics, Superconductivity and Superfluidity • S99 General and Miscellaneous

Pour ce qui est de la dernière catégorie, celle-ci est définie dans les équations

de recherche de manière spécifique. La catégorie S99 doit être obligatoirement croisée avec l’une des autres catégories. D’une manière générale les résultats obtenus grâce à cette sélection coïncident parfaitement au contenu de la base du CERN et à la demande des utilisateurs.

Après avoir mené une étude sur la base et après quelques tests je me suis

aperçu que l’utilisation, normalement logique, de descripteurs n’était pas conseillée ici. Cela s’explique par le fait que les officiers de liaison INIS choisissent lors de l’indexation du champ DEI des termes non spécifiques, trop génériques qui ne permettent pas un catalogage précis du document. Mais aussi par le fait que le nombre de caractères disponibles lors de l’interrogation ne suffirait pas à décrire au moyen de descripteur le contenu de notre recherche trop complexe, plus thématique que descriptive.

L’utilisation de ces deux champs m’a permis non sans difficultés, de limiter mais aussi structurer mes importations. Ces difficultés sont dues au fait que contrairement à mes espérances le champ AN n’est pas de type numérique. L’utilisation des opérateurs <,>,-,= n’est donc pas possible et il a donc fallu trouver un autre moyen pour limiter les importations. Pour cela j’ai décidé d’utiliser l’opérateur de troncature « * » qui permet d’obtenir ainsi selon l’exemple suivant : 33-*, tous les documents appartenant au volume 33. Ce numéro de volume rappelons le, correspond à tous les documents importés dans la base INIS au cours d’une année ; ici en l’occurrence l’année 2002.

D’autres difficultés concernant le champ PT ont été révélées. Ce champ qui

correspond au format original de publication, n’est pas unique. Après étude de la base INIS je me suis aperçu que certains documents étaient indexés à la fois comme rapport, thèse, conférence et article. Une telle indexation est non seulement fausse mais elle entraîne des problèmes de recoupement. Il fallu donc se limiter à n’importer, les documents ne possédant qu’un seul et même type de format de publication.

34

Les différentes équations se présentent de la manière suivante :

• Thèses (((S07 or S43 or S46 or S61 or S62 or S71 or S72 or S73 or S74 or S75) in C1) or ((S99 in C1) and ((S07 or S43 or S46 or S61 or S62 or S71 or S72 or S73 or S74 or S75) in CC))) and (34-* in AN) and (PT = "THESIS-OR-DISSERTATION") not ((PT="CONFERENCE") or (PT="SHORT") or (PT="ARTICLE") or (PT="REPORT") or (PT="PROGRESS"))

• Rapports et preprints (((S07 or S43 or S46 or S61 or S62 or S71 or S72 or S73 or S74 or S75) in C1) or ((S99 in C1) and ((S07 or S43 or S46 or S61 or S62 or S71 or S72 or S73 or S74 or S75) in CC))) and (34-* in AN) and (PT = "REPORT") not ((PT="CONFERENCE") or (PT="SHORT") or (PT="ARTICLE") or (PT="THESIS-OR-DISSERTATION") or (PT="PROGRESS") or (PT="MISCELLANEOUS")) not ((QUANT-PH* in RN) or (PHYSICS* in RN)) not ((ASTRO-PH* in RN) or (DESY* in RN) or (SLAC* in RN) or (COND-MAT* in RN) or (GR-QC* in RN) or (HEP-EX* in RN) or (HEP-LAT* in RN) or (HEP-PH* in RN) or (HEP-TH* in RN) or (MATH-PH* in RN) or (NUCL-EX* in RN) or (NUCL-TH* in RN))

• Articles ((S43 or S46 or S71 or S72 or S73 or S75) in C1) and (34-* in AN) and (PT = "ARTICLE") not (1126-6708 in IS) not ((PT="CONFERENCE") or (PT="SHORT") or (PT="REPORT") or (PT="THESIS-OR-DISSERTATION") or (PT="PROGRESS") or (PT="MISCELLANEOUS"))

• Conférences

o Articles

(((S43 or S46 or S71 or S72 or S73 or S75) in C1) and (34-* in AN) and ((PT = "CONFERENCE") and (PT="ARTICLE"))) not (1126-6708 in IS) not ((PT="SHORT") or (PT="REPORT") or (PT="THESIS-OR-DISSERTATION") or (PT="PROGRESS") or (PT="MISCELLANEOUS"))

o Rapports (((S07 or S43 or S46 or S61 or S62 or S71 or S72 or S73 or S74 or S75) in C1) or ((S99 in C1) and ((S07 or S43 or S46 or S61 or S62 or S71 or S72 or S73 or S74 or S75) in CC))) and (34-* in AN) and ((PT = "CONFERENCE") and (PT="REPORT")) not ((PT="SHORT") or (PT="ARTICLE") or (PT="THESIS-OR-DISSERTATION") or (PT="PROGRESS") or (PT="MISCELLANEOUS")) not ((QUANT-PH* in RN) or (PHYSICS* in RN)) not ((ASTRO-PH* in RN) or (DESY* in RN) or (SLAC* in RN) or (COND-MAT* in RN) or (GR-QC* in RN) or (HEP-EX* in RN) or (HEP-LAT* in RN) or (HEP-PH* in RN) or (HEP-TH* in RN) or (MATH-PH* in RN) or (NUCL-EX* in RN) or (NUCL-TH* in RN))

35

2.4.3 Sauvegarde des résultats

La sauvegarde des résultats constitue la deuxième partie de la méthode. Cette

phase est grandement facilitée par l’utilisation du logiciel Winspirs 5.0 qui propose de nombreuses options en ce qui concerne la présentation des résultats et l’enregistrement de ces derniers. Parmi ces options on peut citer la possibilité de sélectionner les champs que l’on souhaite consulter ou enregistrer, l’affichage ou la suppression des tags et des numéros des enregistrements, le choix du caractère de séparation des enregistrements, l’affichage ou non de l’historique des recherches.

Ci-dessous une image représentant le module de sauvegarde de Winspirs 5.0

2.4.4 Mise à jour des KB et traitement Uploader

Les listes de connaissances sont des listes finies que l’on doit sans cesse mettre à jour. Pour cela il convient d’extraire les champs qui utilisent ces Knowledges, puis dédoubler à l’aide des commandes UNIX et de l’éditeur de texte Xemacs les différentes formes d’entrées que l’on a recensés. Enfin il faut trouver les équivalences de ces formes en les comparant à celles déjà présentes dans la base de données du CERN et en utilisant les différents ouvrages et base en ligne comme le Words of learning 2000 pour les noms et les lieux des organismes, la liste des abréviations ISSN et la base ISSN en ligne pour les titres des périodiques et leurs abrégés. Une fois cette première tâche accomplie, les différentes configurations propres à chaque type de documents (INISTHESE, INISREPORT, INISARTICLE, INISCONFREPORT, INISCONF ARTICLE) peuvent alors être lancées grâce à la commande UNIX : binCDSWEB/ upload22.x Nom_fichier Nom_configuration conf/mainCDSWEB.cfg.

36

2.4.5 Contrôle automatique et visuel

Chaque fichier traité à l’aide l’Uploader doit être contrôlé. Une partie de cette étape a été automatisée par le service informatique du CERN qui a développé des programmes sous UNIX comme Chkenc qui contrôle la conformité des accents, ou Check_format500 qui lui contrôle, selon les règles établies par le SIS, le format de chacun des champs composants les notices CDS. Mais la majeure partie de ces contrôles ne peut être automatisée ; ils sont pour l’essentiel manuels et consistent à vérifier de manière systématique les champs les plus problématiques pour lesquels la configuration n’a pu être totalement efficace. Pour ma part les champs les moins respectueux des normes établies par INIS étaient les champs Authors (AU), Source (SO), et Corporate/Conference Author(s) (CA) et c’est au niveau de ces trois champs que les officiers de liaison INIS commettent le plus d’erreurs de catalogage. Les détails et la méthode utilisée pour contrôler ces différents champs sont fournis dans le guide d’utilisation situé en annexe de ce rapport.

2.4.6 Lien vers le full-text

2.4.6.1 Les articles Pour les notices d’articles le lien vers l’article se fait automatiquement grâce

aux mécanismes de type Go Direct, développés en 1997 au CERN. Ce système permet aux utilisateurs de la base de données du CDS d’accéder via la notice bibliographique à l’article dans sa version intégrale. La technologie Go Direct repose sur trois paramètres essentiels qui sont le titre du périodique, le volume et la pagination de l’article. Ces trois éléments, sous condition d’être abonné, permettent d’établir un lien entre la notice et l’article en ligne publié dans un journal électronique. Ce cas suppose bien entendu que l’éditeur scientifique du journal en ligne est adopté la technologie de type Go Direct. Avec INIS il m’a été possible de récupérer dans le champ Source (SO) les éléments nécessaires à l’élaboration de ce lien. Les notices bibliographiques correspondant à des articles publiés dans des journaux en ligne et pour lesquels le CERN possède un abonnement ont donc été liées automatiquement au document original dans sa version électronique.

2.4.6.2 Les thèses et rapports

Pour les thèses, les rapports et autres documents appartenant à la littérature grise le cas était différent. Comme j’ai pu le dire précédemment, les concepteurs de la base INIS ne proposent pas de lien depuis leur base en ligne vers le texte intégral. Seul un jeu de CD-Rom, appelé NCL et contenant le texte intégral des rapports, des preprints et des thèses, est fourni aux utilisateurs. Les documents y sont enregistrés au format .pdf ou format .tiff page par page et sont identifiés à l’aide de l’INIS Accession Number. Afin de lier ces full-text aux notices bibliographiques, différentes phases sont nécessaires. La première de ces phases consiste à récupérer, dans le but de créer le Batchfile, la liste des numéros INIS correspondant au document que l’on souhaite importer. Une fois que ce fichier a été créé, il ne reste plus qu’à interroger à l’aide du logiciel Inisir, les différents CD-Rom NCL de l’année à traiter. Le logiciel Inisir, fourni avec le jeu de CD-Rom, permet de décharger sur le Disque Dur de l’ordinateur les documents correspondants aux numéros INIS contenus dans le BATCH file. La

37

deuxième phase de traitement consiste à transformer, le cas échéant, le full-text au format .tiff page par page en un fichier concaténé au format .pdf. Après avoir étudier les différents logiciels de conversion proposés sur le marché, je me suis décidé à opter pour le logiciel Image2pdf. Les raisons de ce choix sont le coût, la simplicité d’utilisation et la rapidité d’exécution du logiciel. Dans le cas ou les documents sont déjà disponibles au format .pdf, il convient d’exclure cette étape. La dernière étape consiste à copier les documents sur le serveur en charge de la gestion des documents électroniques. Là encore il m’a fallu trouver une solution qui me permette de transférer directement les documents contenus sur mon disque dur vers le serveur. Les solutions proposées par le service informatique ne correspondaient pas à une importation massive de documents sur le serveur. Elles étaient trop lentes et nécessitaient un investissement en temps considérable. La solution m’a été fournie par le logiciel WinSCP dont j’ai découvert l’existence après avoir effectué une recherche documentaire sur le WEB. L’étude du fonctionnement de ce logiciel m’a amené à découvrir que son utilisation pourrait correspondre en tous points avec mes besoins. En effet ce logiciel, par l’intermédiaire d’une interface pratique, permet le transfert après connexion de documents disponibles en locale vers le serveur correspondant à l’adresse mentionnée. Tous les détails concernant les trois étapes et les modes de fonctionnements des différents logiciels sont fournis dans le guide d’utilisation qui se trouve en annexe de ce rapport.

Le lien entre le document électronique nouvellement disponible sur le serveur

et la notice bibliographique se fait alors grâce au champ LKR. Ce champ qui fait parti de la notice génère automatiquement grâce à mes configurations une adresse électronique identique à celle du full-text correspondant. Il est donc ensuite possible pour les usagers d’avoir accès, depuis la notice, au document en ligne.

Ci-dessous la ligne de commande fournissant l’accès aux différents full-text :

38

2.4.7 Résultats

Un bref aperçu de ce que j’ai importé en cinq mois…

Conclusion

Ce stage de fin de formation, réalisé sous la direction de Mme Ingrid Picchioli, a été pour moi très formateur. Durant ces cinq mois passés au Service d’Information Scientifique du CERN, j’ai eu l’occasion de me confronter à un projet risqué, ambitieux qui nécessitait des connaissances et des compétences très diverses. Ce projet impliquait, en effet, la réalisation d’opérations diverses que le documentaliste se doit de connaître. Parmi ces tâches on peut citer ici l’analyse de sources, le catalogage de données, l’élaboration d’une recherche documentaire et d’équations de recherche, l’initiation à de nouveaux systèmes d’exploitation et logiciels documentaires, l’apprentissage de nouveaux langages de programmation, et enfin l’élaboration et la présentation d’une méthode de travail. Les résultats obtenus à l’aide de cette méthode et plus exactement à l’aide des configurations que j’ai développé sont très encourageants. A l’heure actuelle plus de 10 000 documents provenant de la base de données INIS ont été mis au format et intégrés au fonds documentaire du CERN. L’élaboration du modèle de traitement des données INIS est terminée et il ne reste plus au SIS qu’à continuer les importations. Grâce à cette méthode le Service d’Information Scientifique du CERN peut dès aujourd’hui envisager d’incorporer toutes les notices INIS et le full-text de documents en relation avec la recherche en physique des particules.

Pour conclure il m’a été demandé aussi d’analyser d’autres sources de

données, de tester et d’écrire des configurations pour la nouvelle version de l’Uploader : Bibconvert. Ces différentes tâches sont présentées en annexe de ce rapport.

39

Références [1] Chaney, Eliane ; Bulliard, Catherine ; Christiansen, Caroline / Une bibliothèque de recherche face à l’édition électronique : l’exemple du CERN. Bulletin des Bibliothèques de France, février 1999. http://www.enssib.fr/bbf/bbf-99-2/05-cressent.pdf [2] La Vega Josette, de / La communication scientifique à l'épreuve de l'Internet : l'émergence d'un nouveau modèle. Villeurbanne : Presses de l'ENSSIB, 2000. 253 p. ISBN 2-910227-29-4 [3] Line, Maurice / Accéder ou acquérir, une véritable alternative pour les bibliothèques ? Bulletin des Bibliothèques de France, 1996. http://www.enssib.fr/bbf/bbf-96-1/07-line.pdf

[4] Vigens, Jens ; Servettaz, Marie-Jeanne ; Chaney Eliane / Une offre de services adaptée aux chercheurs. Genève, CERN : 2001. http://bbf.enssib.fr/bbf/html/2001_46_2/2001-2-p66-chaney.xml.asp [5] Volland-Nail, Patricia / L'information scientifique et technique : nouveaux enjeux documentaires et éditoriaux. INRA : 1997 [6] Cart, Catherine ; Geretschläger, Ingrid / Automatisation du traitement des documents CERN. Genève : CERN, 25 Jan 1999. 6 p. http://preprints.cern.ch/archive/electronic/cern/preprints/open/open-99-068.pdf [7] Deroche, Catherine ; Geretschläger, Ingrid (dir.) ; Jerdelet Jocelyne (dir.) / Automatisation partielle du traitement de la littérature grise dans le service d'information scientifique du CERN. Genève : CERN, 1998. 59 p. http://preprints.cern.ch/archive/electronic/cern/preprints/thesis/thesis-98-019.p s.gz [8] Pignard, Nathalie ; Geretschläger, Ingrid (dir.) ; Jerdelet Jocelyne (dir.) / Le traitement informatisé des ressources électroniques - importations automatiques à l'aide du programme Uploader. Rapport confidentiel remis au Service de l'Information du CERN, octobre 2000. [9] Pignard, Nathalie ; Bouquillion, Philippe (dir.) / Les bases de données scientifiques sur Internet : la comparaison de trois bases de conférences de physique avec celle du CERN. Genève : CERN, septembre 1999. [10] Pignard, Nathalie ; Geretschläger, Ingrid ; Jerdelet, Jocelyne / Le traitement informatisé de ressources électroniques au Service de l'Information Scientifique du CERN. Le Documentaliste - Sciences de l'Information, mars 2001, vol. 38, p. 24-34. [11] Gentil-Beccot, Anne ; Geretschläger, Ingrid (dir.) ; Jerdelet Jocelyne (dir.) / Participation à l’automatisation partielle du traitement de la litterature grise au service d’information scientifique du CERN. Genève : CERN, 2002. 75 p.

40

Annexes

41

Annexe A

TABLEAU DE CORRESPONDANCE POUR LES THESES

Tag Intitulé Notes sur INIS Risques Correspondance Exemple

AB Abstract

90% des articles référencés dans INIS comporte un abstract dans la base INIS. Résumé en anglais (le plus sou-vent) ou dans une autre langue. Pré-sence parfois d'un sommaire des diffé-rentes publications citées. Mention spéciale en ce qui concerne la rédac-tion du résumé (Author, orig. etc.). Pas de problème de casse recensé.

Ce champ n'est pas limité et ne semble pas posé de pro-blème particulier. Présence de caractères alpha numéri-ques, de caractères de ponctuation classique, et d'autres caractères clas-siques tel que le /, +, -, ), (, %, &, etc. Pas de symbole $ recensé en ce qui concerne l'exemple.

A PRENDRE 520__$$a

AB: A new detection array for beta delayed neutrons was built. It includes up to 32 plastic scintillation counters 180 cm long located at 120 cm from the tar-get. Neutron energy spectra are measured by time-of-flight in the 300 keV-15 MeV range with good energy resolution. The device was tested with several known

AN INIS Accession

Number and Related Record

Numéro de référence propre à INIS. Numéro fourni lors de la création de la notice. C'est une clé unique qui per-met de faire la correspondance entre la notice et le document numérisées sur les CD-Roms NCL de la base INIS. D'après les statistiques réalisées sur les CD NCL de la base INIS, seulement 8% des thèses sont numérisés (Thèses françaises et allemande pour la plupart provenant toujours des même organismes DESY, CEA, etc. -> Thèses en ligne proposées par ces mêmes organismes). Ce numéro est composé de 8 chiffres (XX-YYYYYY). Le premier groupe de chiffre correspond au numéro du volume et chaque volume correspond à une année. Le deuxième groupe de chiffres corres-pond à l'ordre de saisie. Champ texte et non numérique

Dans ce champ il est possi-ble de rencontrer parfois 2 numéros. Le premier corres-pond à notre clé unique et le second à une indication pour l'usager. Retour à la ligne après le premier numéro. Les folders contenant les fulltexts au format tiff ou les pdf ne contiennent pas de trait d’union entre les deux groupes de chiffres. Champ de liaison entre le fulltext et la notice

A PRENDRE 035__$$9INIS$$a

Suppression du tiret pour correspondance avec les

fulltext

AN: 32-068389 See Also: 32-068287

AU Authors

Ce champ contient l’auteur principal, les auteurs secondaires, et parfois même les noms des organismes, les départements de recherche et l’adresse de l’organisme dont ils dépendent. Un champ mal défini qui contient des informations de nature différente et dont l’homogénéité laisse à désirer.

Ces données ne sont à prendre en compte que pour les thèses (présence d’un auteur unique puisqu’il s’agit d’une thèse. Manque pa-renthèse fermente, lorsque le département de recherche est fournit. Quelque pro-blème de casse (peu fré-quent).

A PRENDRE

100__$$a Un seul champ pour les thèses car l’auteur est

unique. On ne garde que les initiales (même pour les

auteurs chinois). Gruber,-Gregory-J → Gruber, C J.

Pour le cas de Nascimento,-Ana-Cristina-de-Holand on fait tourner le Check prog.

AU: Gruber,-Gregory-J AU: Margueron,-J AU: Bacri,-Ch.O AU: Palwein-Prettner,-L AU : Lucio,-O.G. AU: Nascimento,-Ana-Cristina-de-Holand AU: Fiol,-J. (Comision Nacional de Energia Atomica, Centro Atomico Bariloche(Argentina) AU: Ahmed,-Intisar-Ibrahim (College of Science and Technology, University of Elneelain, Khartoum (Su-dan) AU: Ang,-April; Chua,-Patricia; Perez,-Kristine; Rey,-April; Rivor-Kristel; San-Pablo,-Czarina; Santos,-Er-nestin

C1 Primary Subject Category

Ce champ reprend la catégorie princi-pale du champ CC. Il correspond donc à un code unique. La sélection des documents se fait en partie grâce à ce code. C1 est un champ homogène qui ne possède pas de particularité. La seule particularité c’est qu’il est sans correspondance dans ALEPH.

Format général simple.

A PRENDRE 695__$$9INIS$$aCD

650_17__$$2SzGeCERN$$aSU → traduction grâce Kb Faire une Knowledge, établir une correspondance entre la catégorie C1 et l’intitulé de cette catégorie. Faire une

knowledge entre la catégorie CD et les Subject category

du CDS. C1---Kb---CD---Kb---SU=AA

S71 S72

CA Corporate AND Conference

En ce qui concerne les thèses, ce champ correspond à l’université, au laboratoire, ou à l’école dont dépend l’auteur. Présence aussi du pays d’origine et du département lorsqu’il s’agit de la France.

Format général simple. Pb des thèses provenant de laboratoires et problème des thèses françaises qui pré-sente le code postal et voir même l’adresse du labora-toire, de l’université ou de l’école

A PRENDRE 260__$$a

Le prendre tel quel car rien n’a encore été fait sur le champ IM (peut être cet

été). Pour les thèses il est possible peut être d’utiliser

le report number qui leur est attribué et utiliser ainsi la Knowledge de Catherine

RN(088)---Kb---CA(260$$a)

CA: Aberdeen Univ. (United Kingdom) CA: Forschungszentrum Karlsruhe GmbH Technik und Umwelt (Germany). Inst. fuer Technische Physik. CA: Laboratoire d'Annecy Le Vieux de Physique des Particules, 73 - Le Bourget du Lac (France). CA: Sussex Univ., Brighton (United Kingdom) CA: Thomas Jefferson National Accelerator Facility, Newport News, VA (United States) CA: Universite Blaise Pascal, Clermont-Ferrand II, (CNRS), 63 - Aubiere (France) CA: Universite de Savoie, 73 - Le-Bourget-du-Lac (France).

CC All Subject Category Code

Ce champ comme précédemment le champs C1 correspond aux codes des différentes catégories. Le champ CC dans la base INIS permet de regrou-per les notices selon différents types de sujet. Champ homogène

Format général simple. A REJETER CC: S73 CC: S74; S73

CD Primary Subject

Category Description

Ce champ donne la description du champ CC, c.a.d. les sujets traités par le document. Champ homogène

Format général simple. A PRENDRE Cf Voir C1

CD: Atomic-and-molecular-physics; Condensed-matter-physics,-superconductivity-and-superfluidity CD: Atomic-and-molecular-physics

CI Country of Input Ce Champ son nom l’indique fourni l’origine du document. Champ homo-gène

Format général simple. A REJETER CI: France CI: Germany CI: Iran-Islamic-Republic-of

DEC Computer-assigned

descriptors

Ce champ renferme les termes géné-riques des descripteurs utilisés pour indexer le document.

Format général simple. Les mots clefs sont séparés par un ; et les mots clés compo-sés sont reliés par un trait d’union

A PRENDRE 695__$$9INIS$$aDEC

DEC: alkali-metal-compounds; body-; cameras-; ce-sium-compounds; diseases-; glands-; halides-; halo-gen-compounds; inorganic-phosphors; iodides-; io-dine-compounds; measuring-instruments; organs-; phosphors-; radiation-detectors; scintillation-counters

DEI Indexer-assigned

descriptors

Ce champ renferme les descripteurs à proprement parler, ceux qui résultent d’une indexation humaine

Format général simple. Les mots clefs sont séparés par un ; et les mots clés compo-sés sont reliés par un trait d’union.

A PRENDRE 695__$$9INIS$$aDEI

DEI: bcc-lattices; cerium-; cobalt-; copper-; fluorescence-; interfaces-; intermetallic-compounds; iron-; layers-; microstructure-; moessbauer-effect; nickel-; phase-studies; reflectivity-

IS International

standard numbers

Ce champ contient l’ISSN et l’ISBN. Champ hétérogène

Lorsque les deux cohabitent, ils sont séparés par un ; ou un espace. Le format des ISBN et ISSN n’est pas ré-gulier

A PRENDRE On ne prend que l’ISBN en ce qui concerne les thèses

020__$$aIS

IS: ISBN 3-89701-643-5; ISSN 0341-6712 IS: ISSN 0100-3984 CODEN RDBRAS IS: ISSN 0172-8741

LA Language of text

Ce champ fourni la langue dans la-quelle le document a été publié. Champ homogène.

Ce champ nécessite la créa-tion d’un fichier de transfert. Il se compose parfois de 2 langues séparées par ;

A PRENDRE Utiliser la knowledge LA---Kb---041__$$a

LA: Portuguese LA: German LA: English; French

NT Notes Notes concernant le document. Champ hétérogène sans importance Aucun intérêt pour l’import

A REJETER problème complexité champ,

on y trouve de tout 502__ THESIS:

260$$a(CA) : SO

NT: Diss. (Dr.rer.nat.) Available from TIB Hannover: RA 4254(63) NT: Thesis (Ph.D.) Available from British Library Document Supply Centre- DSC NT: Thesis (Ph.D.) Submitted to Univ. of California, Riverside, CA (US); 31032716 Available from PURL: https://www.osti.gov/servlets/purl/756634

OT Original Title Champ qui contient le titre original du document, lorsque celui-ci n’est pas en anglais à l’origine

Cf champ titre A PRENDRE 246__$$aOT

OT: Weiterentwicklung des Detektorsystems am QCLAM-Spektrometer des S-DALINAC und Untersuchung der Reaktionen sup 4 sup 8 Ca(e,e') und sup 5 sup 8 Ni(e,e') unter 180 OT: Produktion von K*- und Phi-Mesonen in pp- und PbPb-Reaktionen am CERN-SP

PT Publication Type

Ce champ correspond au type de do-cument. Il est utilisé par l’équation de recherche en phase Test. Ici différents types de documents sont différenciés.

Champ homogène avec en-trées multiples. Les diffé-rentes catégories auxquelles appartient le document sont séparées par un point vir-gule. Champ qui devient unique prenant la valeur dans le cas présent par dé-faut Thèse.

A REJETER Pour les thèses, mettre la

valeur par défaut 690_C__$$a THESIS

980__$$a THESIS

PT: I (Miscellaneous); U (Thesis-or-Dissertation) PT: R (Report); U (Thesis-or-Dissertation); N (Numerical-Data); X (Microfiche-Unavailable-from-INIS)

PY Publication Year

Ce champ correspond à la date de publication de l’article

Champ unique, numérique. Champ homogène qui ne pose aucun problème

A PRENDRE 260__$$cPY

PY: 1999 PY: 2000 PY: 2001

RN Report/Patent Number

Ce champ correspond au numéro de brevet, ou aux numéros propres attri-bués par les organismes émetteurs

Numéro le plus souvent uni-que (lorsque ce n’est pas le cas séparation par un point virgule) qui se présente sous deux versions la première avec tirets et la seconde sans et entre parenthèse

A PRENDRE 088__$$a

Remplacer les doubles tirets par un seul, supprimer ce

qu’il y a entre parenthèse → se servir de cette liste pour

la knowledge

RN: DESY-THESIS--2001-036 (DESYTHESIS2001036) RN: LBNL--47185 (LBNL47185); AC03-76SF00098 (AC0376SF00098)

SO Source

(Bibliographic Citation)

Ce champ en ce qui concerne les thè-ses contient une combinaison de plu-sieurs éléments parmi les suivants : le nbre de page, la date de la soute-nance, la ville, le pays d’origine et le lieu de soutenance (pour certaines)

Ce champ est très hétéro-gène. Pour la date il existe trois combinaisons possibles date/ mois/ année ou mois/ année ou année). Le lieu, le pays et la faculté d’origine ne sont pas tjs présents mais l’ordre de ces éléments est fixe.

A PRENDRE 502__THESIS :xxxx :date

Ne récupérer que l’année → uniformiser la date de

soutenance. Récupérer la page,

supprimer le ‘’.’’ Importer cette donner dans le champ

300__$$a

SO: Feb 2000 [vp.] SO: Aachen (Germany) Shaker 2001 114 p. SO: 1 Jun 1999 9.6 Megabytes SO: 2000 133 p. SO: Tehran (Iran, Islamic Republic of) 1999 167 p.

ST Series/Title informations

Notes complémentaires sur le titre, voir le document lui-même ou la source

Champ très minoritaire en ce qui concerne les thèses. L’utilité et la nécessité de ce champ reste à démontrer

A REJETER Inutile

TI Title

Ce champ renferme le titre dans sa version anglaise; certains caractères comme >, *, /, sont présents dans ce champ

Problème de casse sur cer-tains docs mais ils sont mi-noritaires. Pour quelques do-cuments le champ renferme le titre et le sous-titre. La syntaxe qui permet de sépa-rer ces deux sous champs n’est pas fixe. Elle varie en-tre le point, la virgule et le trait d’union.

A PRENDRE 245__$$a

Problème séparateur, importer titre et sous titre dans la même catégorie

TI: A compact, discrete CsI(Tl) scintillator/Si photodiode gamma camera for breast cancer imaging TI: Analysis of the decay K sup 0 sub L-> pi sup 0 gamma gamma with the NA48-detector

UD Update code

Ce champ correspond au code de mise à jour attribué par l’INIS, c’est un numéro interne qui ne présente aucun intérêt à être importé dans notre base.

Aucun intérêt pour l’import A REJETER Inutile

Annexe B

TABLEAU DE CORRESPONDANCE POUR LES ARTICLES

TABLEAU DE CORRESPONDANCE INIS/CDS ARTICLES

Tag Intitulé Notes sur INIS Risques Correspondance Exemple

AB

Abstract

Résumé

Tag INIS : 860

90% des articles référencés dans INIS com-portent un résumé. Ce résumé est en Anglais. C’est une présentation abrégée qui reprend l’essentiel du contenu du texte. La base de donnée sur CD-ROM ne fournit que la version anglaise du résumé. Au niveau de sa struc-ture, il se présente sous la forme d’un para-graphe unique qui ne doit pas dépasser 6000 caractères. Si le résumé est l’œuvre de l’auteur celui-ci sera suivi de la mention (au-thor) ou (authors) ou (orig.). Dans le cas où l’article serait fourni sans résumé, un abstract devra alors être rédigé par un spécialiste du domaine. Les initiales de cette personne se-ront alors annotées entre parenthèses en fin de résumé (Y.K.). En fin de résumé le nombre de références, de figures, tableaux ou autres illustrations peut être dans certains cas four-nis.

Lors du transfert des notices, le champ AB ne devrait présenter aucun risque. Présence de caractère alpha numérique, de caractère de ponctuation, et d'autres caractères classiques tel que le /, +, -,), (, %, &, etc. Mentions spéciales: (authors) (author) (orig.) etc… ref., refs. fig., figs. tab., tabs ill., ills.

Action: A prendre Equivalence: 520__$$aAB Notes: Suppression des mentions spé-ciales dans la mesure du possible

AB: The dispersion relation of the A sub 1 phonon-polariton of ferroelectric LiNbO sub 3 has been studied by the impul-sive stimulated Raman scat-tering (ISRS) experiment im-proved with optical phase masks and heterodyne detec-tion. A simple dispersion rela-tion is revealed in contrast to the previous heterodyne ISRS study where several avoided crossing points were reported. The static dielectric constant obtained from the gradient of the dispersion curve with re-spect to the wave vector shows a good agreement with the previous dielectric meas-urement. (author)

AN

INIS Accession Number And

Related Record

Numéro d’enregistrement

Tag INIS : 006

Tous les documents introduits dans la base de donnée INIS possèdent une clé unique, et l’INIS Accession Number correspond à cette clé. Ce numéro (champ non numérique) se présente de la manière suivante : vv-nnnnnn vv = Volume de l’année en cours nnnnnn = numéro d’enregistrement L’INIS Accession Number permet de faire le lien vers les full-texts de la littérature non conventionnelle (littérature grise : thèses, rap-ports) qui se trouvent sur les CD-ROM NCL. Lorsqu’un document est révisé ou lorsque des corrections sont apportées à une notice, les responsables de la base vont créer une nou-velle entrée et l’ancienne notice est conservée (Replaces). Lorsque le document correspond à un article extrait d’une conférence la mention See Also est ajoutée.

Lors du transfert des notices, le champ AN ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères numériques et du tiret. Mentions spéciales: See Also : Replaces :

Action: A prendre Equivalence: 035__$$9INIS$$aAN Notes: Suppression du tiret, ne garder que la première ligne, se limiter en utilisant le retour à la ligne. Commencer par importer les der-nières versions des notices, puis remonter dans le temps. Les an-ciennes versions qui sont conser-vées dans la base seront alors éliminées par le check program (contrôle la présence de doublons avant import)

AN: 32-068389 See Also: 32-068287 AN : 32-089256 Replaces: 31-012511

AU

Authors

Auteurs

Tag INIS : 100

Tous les documents introduits dans la base de donnée INIS contiennent un auteur s’il s’agit d’une thèse et un auteur ou plus s’il s’agit d’un article, rapport, etc. Toutes les personnes qui sont responsables du contenu intellectuel du document sont considérées comme des au-teurs. Les auteurs sont listés par ordre alpha-bétique et séparés par un point virgule suivi d’un espace. Chaque auteur se présente de la manière suivante : N,-I.I’. N = Nom I = Initiale 1 I’ = Initiale 2 Pour les noms chinois, arabes et autres origi-nes pouvant prêter à confusion, les prénoms ne sont pas abrégés. Abd El-Azim,-Khalid-Emin Dans certain cas l’affiliation (nom et lieu d’un laboratoire, organisme ou université) ainsi que l’adresse E-mail des différents auteurs sera fournie. Celles-ci seront présentées de la ma-nière suivante : N,-I.I’. (U,V (P)). Email : E U = Nom organisme, etc. V = Ville P = Pays E = Adresse E-mail

Lors du transfert des notices, le champ AU risque de poser plusieurs problèmes. Le champ auteur est très hétérogène, les erreurs de catalogage sont nombreuses et certains centres fournisseurs de do-cuments ne se plient pas aux règles que nous avons citées précédemment. A tout cela vient s’ajouter le fait que toutes les combinaisons qui ont été décrites sont possibles. Mentions spéciales: et Al. Manque parfois une parenthèse fermente

Action: A prendre Equivalence: 100__$$a : AU 1 700__$$a : AU 2, etc. Notes: Supprimer le tiret et les points, ne garder que l’initiale de chaque prénom dans tous les cas, sup-primer les initiales dès que leur nombre est supérieur à quatre (check program), supprimer les affiliations en utilisant la paren-thèse ouvrante, utiliser le point virgule pour séparer les auteurs.

AU: Kim,-Gwi-Eon; Lim,-Ji-hoon; Suh,-Chang-Ok (Yonsei Cancer Center, Yonsei Univ., Seoul (Korea, Republic of). Dept. of Radiation Oncology AU: Won,-Mi-Sook (College of Medicine, Hallym Univ., Seoul (Korea, Republic of)); Kim,-Hak-Hee (College of Medicine, Catholic Univ., Seoul (Korea, Republic of)); Im,-Jung-Gi (College of Medi-cine, Seoul National Univ., Seoul (Korea, Republic of) AU: Sanchez,-D.R.; Bud'ko,-S.L. (Centro Brasileiro de Pes-quisas Fisicas, CBPF/CNPq, Rio de Janeiro, RJ (Brazil)); Baggio-Saitovitch,-E.M.(Centro Brasileiro de Pesquisas Fisi-cas, CBPF/CNPq, Rio de Ja-neiro, RJ (Brazil)). E-mail: elisa@cbpf

C1

Primary Subject Category

Sujet principal du

document attribué par INIS

Tag INIS : 008/1

Tous les documents introduits dans la base de donnée INIS possèdent l’un de ces codes. Ce code est composé d’une lettre et de deux chif-fres. Chacun de ces codes correspond à un sujet particulier (sujet principal traité par le document) et les équivalences entre le code et la description de la catégorie qu’il identifie sont données par le manuel : Subject categories and scope descriptions (IAEA-INIS-3). Le champ C1 reprend le code principal du champ CC.

Lors du transfert des notices, le champ C1 ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques. C’est un champ très homogène et aucune parti-cularité n’a été recensée Mentions spéciales: Pas de mention spéciale

Action: A prendre Equivalence: 695__$$9INIS$$aC1 650_17__$$2SzGeCERN$$aSU Notes: Faire une KB (Knowledge Base) C1--Kb—Subject_Categ—Kb--SU Cette Kb va permettre de faire le lien entre le code C1, la catégorie à laquelle il correspond et à celle utilisée par le CDS

C1: S71 C1: S72

CA

Corporate And Conference

Corporation et

Conférence

Tag INIS : 110

Pour ce qui est des articles, 20% seulement des résultats obtenus sont recensés au niveau de cette entrée. Le champ CA correspond au nom et la localisation de la corporation (orga-nisme, université, laboratoire) responsable de la publication du document. Le champ CA se présente de la manière suivante en ce qui concerne les articles : O, V (P) O = Organisme V = Ville ou Etat (Etats-Unis d’Amérique) P = Pays Lorsque l’article, le rapport, ou thèse est publié conjointement par deux groupes d’une même organisation le caractère de séparation utilisé est le point virgule.

Lors du transfert des notices, le champ CA ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Cependant le nom-bre d’articles indexés à l’aide de ce champ sont très minoritaires et dans la plupart des cas seul le pays est fourni. Ces données incomplètes dans 80% des cas ne nous permettent pas de retenir ce champ Mentions spéciales: (US) (United States)

Action: A rejeter Notes: Données incomplètes

CA: (United States) CA: (US) CA: Ernest Orlando Law-rence Berkeley National Labo-ratory, Berkeley, CA (United States) CA: National Natural Science Foundation of China (China); Foundation of the Chinese Academy of Sciences (China); Natural Science Foundation of Shanghai (China)

CC

All Subject

Category Code

Sujet principal et secondaires

attribués par INIS

Tag INIS : 008/1

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Contraire-ment au champ C1, CC ne contient pas un code unique mais plusieurs qui correspondent lorsque cela est le cas aux différents thèmes abordés par le document. Les différents codes sont séparés par un point virgule.

Lors du transfert des notices, le champ CC ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques. C’est un champ très homogène et aucune parti-cularité n’a été recensée. Cependant il est à noté que certains documents sont recensés dans de trop nombreuses ca-tégories. Mentions spéciales: Pas de mentions spéciales

Action: A rejeter Notes: On privilégie l’import de C1

CC: S73 CC: S74; S73

CD

Primary Subject

Category Description

Description du All Subject Category

Code

Tag INIS : 008/1

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Ce champ donne la description du champ CC, c'est-à-dire la description des sujets auxquels les co-des CC font références. Les sujets abordés par le document sont séparés les un des autres par un point virgule.

Lors du transfert des notices, le champ CC ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Format général sim-ple. Mentions spéciales: Pas de mentions spéciales

Action: A rejeter Notes: On privilégie l’import de C1

CD: Atomic-and-molecular-physics; Condensed-matter-physics,-superconductivity-and -superfluidity CD: Isotopes-and-radiation-sources; Inorganic,-organic,-physical-and-analytical-chem-istry

CI

Country of Input

Pays d’origine

Tag INIS: 008/3

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Le champ CI fournit l’origine du document.

Lors du transfert des notices, le champ CC ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques

Action: A rejeter

CI: Germany CI: Iran-Islamic-Republic-of

DEC

Computer-Assigned

Descriptors

Descripteurs

Tag INIS : 801

Indexation générique. Le système prend en compte de manière automatique, lors de l’indexation, les termes génériques des des-cripteurs fournis dans le champ DEI. Dans la plupart des cas les documents qui proviennent de la base de donnée INIS, présentent le champ DEC. Cependant il est théoriquement possible qu’un enregistrement n’en possède pas (c’est le cas lorsque aucun des DEI ne possède de termes génériques). Les différents descripteurs sont séparés les uns des autres par un point virgule

Lors du transfert des notices, le champ DEC ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ homogène. Mentions spéciales: Pas de mentions spéciales

Action: A prendre Equivalence: 695__$$9INIS$$aDEC Notes : Suppression des tirets

DEC: alkali-metal-compounds; body-; cameras-; cesium-com-pounds; diseases-; glands-; halides-; halogen-compounds; inorganic-phosphors; iodides-; iodine-compounds; measuring-instruments; organs-; phos-phors-; radiation-detectors; scintillation-counters

DEI

Indexer-Assigned

Descriptors

Descripteurs

Tag INIS : 802

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Le champ DEI correspond à un jeu de descripteurs sélectionnés dans le thesaurus d’INIS en fonction du sujet, du domaine auquel appartient l’enregistrement. Ces descripteurs sont contrôlés et modifiés si nécessaire lors de l’ultime phase de traitement. Les différents descripteurs sont séparés les uns des autres par un point virgule

Lors du transfert des notices, le champ DEI ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ homogène. Mentions spéciales: Pas de mentions spéciales

Action: A prendre Equivalence: 695__$$9INIS$$aDEI Notes : Suppression des tirets

DEI: bcc-lattices; cerium-; cobalt-; copper-; fluorescence-; interfaces-; intermetallic-com-pounds; iron-; layers-; micros-tructure-; moessbauer-effect; nickel-; phase-studies; reflecti-vity-

IS

International

Standard Numbers

Numéros

internationaux normalisés

(livres, brevets, collections)

Tag INIS : 320 Tag INIS : 321

Pour ce qui est des articles, les notices obte-nues possèdent toutes un numéro ISSN : International Standard Serial Number. Le code ISSN est composé de deux groupes de quatre chiffres reliés par un tiret. Il permet d’identifier de manière unique la publication en série au-quel l’article fait référence. Dans certains cas le dernier caractère peut être un X (chiffre romain représentant le numéro 10). L’ISSN dans certains cas peut être suivi de la chaîne de caractère suivante : CODEN XXXXXX Ce code constitué de six caractères alphabéti-ques permet d’identifier sans aucune ambi-guïté le titre d’une revue. Les cinq premiers caractères représentent le titre de la publica-tion et le dernier caractère est une clé de contrôle.

Lors du transfert des notices, le champ IS ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ homogène. Mentions spéciales: Présence du CODEN dans certains cas

Action: A prendre Equivalence: 020__$$aIS Notes : Ne garder que l’International Standard Serial Number, éliminer le CODEN en limitant le champ à ce qui est à la droite du CODEN et en supprimant par la suite la chaîne de caractères CODEN

IS: ISSN 0370-274X CODEN PZETAB IS: ISSN 0564-6162 CODEN TMFZAL IS: ISSN 0367-2921 CODEN FIPLDK IS: ISSN 1126-6708 IS: ISSN 0011-4626 IS: ISSN 1608-6686 IS: ISSN 1324-1435 IS: CODEN VANIEK IS: ISSN 0031-8949 CODEN PHSTBO IS: ISSN 0033-068X IS: ISSN 0284-1851

LA

Language of

Text

Langue originale du texte

Tag INIS : 600

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Le champ LA donne le nom de la langue dans laquelle la publication a été écrite. Lorsque deux langues sont définies elles sont séparées par un point-virgule

Lors du transfert des notices, le champ LA ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ homogène. Mentions spéciales: Pas de mentions spéciales

Action: A prendre Equivalence: 041__$$aLA Notes : Utiliser, le point virgule comme séparateur de champs, et utiliser une knowledge pour faire le lien entre le format des entrées dans INIS et celui du CDS LA--Kb—041__$$a

LA: Portuguese LA: German LA: English; French

NT

Notes

Notes

Tag INIS : 610

60% des articles référencés dans INIS com-portent un champ Notes. Ce champ contient des informations diverses concernant les articles. Ce sont des informations dans 80% qui traitent du lieu d’obtention de l’article (adresse électronique et nom du journal s’il s’agit d’une revue en ligne) mais aussi de certains éléments constitutifs d’un article comme le nombre de références, le nombre de figures, de tableaux, etc. La langue utilisée pour indexer ce champ est l’anglais.

Lors du transfert des notices, le champ NT devrait poser un grand nombre de problèmes. Ce champ n’est pas obliga-toire et il est de surcroît très hétérogène. Les informations que ce champ renferme ne sont pas d’ordre premier mais plutôt d’ordre second. Mentions spéciales: Pas de mentions spéciales

Action:

A prendre Notes : Pour ce qui est du lien vers le fulltext, celui-ci se fera automati-quement grâce au link manager (lorsque celui-ci est disponible) vers les journaux en ligne dont le CERN possède un abonnement.

NT: Country of input: Ukraine Available online at the Web site for the Journal of Physics. A, Mathematical and General (ISSN) http://www.iop.org/ NT: With 3 figs., 14 refs. NT: 7 tabs., 1 fig., 5 refs. English version can be ordered from the Nuclear Information Center Zbraslav, 156 16 Pra-gue 16 - Zbraslav, Czech Re-public (e-mail: [email protected]), at USD 10.- per standard page (1800 characters) NT: DOI: 10.1063/1.1388879; Othernumber: APPLAB00001; 026130APL

OT

Original Title

Titre original

Tag INIS : 230

11% des articles référencés dans INIS com-portent le champ OT. Ce champ correspond au titre original de l’article lors de sa publica-tion.

Lors du transfert des notices, le champ OT ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ homogène. Mentions spéciales: Pas de mentions spéciales

Action: A prendre Equivalence: 246__$$aOT Notes : Prendre tel quel

OT: Weiterentwicklung des Detektorsystems am QCLAM-Spektrometer des S-DALINAC und Untersuchung der Reak-tionen sup 4 sup 8 Ca(e,e') und sup 5 sup 8 Ni(e,e') unter 180 OT: Produktion von K*- und Phi-Mesonen in pp- und PbPb-Reaktionen am CERN-SP

PT

Publication

Type

Type de publication

Tag INIS : 008/4 Tag INIS : 008/6

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Le champ PT correspond au « type de publication ». Les différentes catégories enregistrées sont : B (Book) E (Short-communication) F (Film) I (Miscellaneous) J (Journal Article) K (Conference) N (Numerical-Data) P (Patent) Q (Legislation) R (Report) U (Thesis-or-Dissertation) V (Program) W (Standard) X (Microfiche) Y (Progress-Report) Z (Bibliography) Lorsqu’un même document est indexé simul-tanément dans plusieurs de ces classes, le caractère de séparation utilisé est le point vir-gule. Après étude il s’est avéré que certains des documents que nous allions traités sont indexés à la fois comme article, rapport et conférence ou encore comme short communi-cation, miscellaneous et conférence. Il appa-raît donc que ces catégories ne sont pas clairement identifiées.

Lors du transfert des notices, le champ LA ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ homogène. Mentions spéciales: Pas de mentions spéciales

Action: A rejeter Equivalence: 980__$$aARTICLE Notes : Prendre tel quel

PT: J (Journal-Article); N (Numerical-Data) PT: J (Journal-Article) PT: J (Journal-Article) PT: J (Journal-Article) PT: J (Journal-Article) PT: J (Journal-Article) PT: J (Journal-Article) PT: J (Journal-Article); N (Numerical-Data) PT: J (Journal-Article) PT: J (Journal-Article); N (Numerical-Data) PT: J (Journal-Article) PT: J (Journal-Article)

PY

Publication

Year

Année de publication

Tag INIS : 403

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Pour ce qui est des articles, seule l’année de publication de l’article est fournie.

Lors du transfert des notices, le champ PY ne devrait présenter aucun risque. Champ de type numérique. Présence de caractères uniquement numériques. Champ homogène. Mentions spéciales: Pas de mentions spéciales

Action: A prendre Equivalence: 260__$$cPY Notes : Prendre tel quel

PY: 1999 PY: 2000 PY: 2001 PY: 2001 PY: 2001 PY: 2001 PY: 1996 PY: 1996

RN

Report/Patent

Number

Numéro de rapport

Tag INIS :300

4% des articles référencés dans INIS com-portent le champ RN. Ce champ correspond au numéro de brevet, ou à des numéros d’identification internes attribués par les or-ganismes émettant ou publiant le document. La plupart des numéros de rapport fournis par ces organismes sont constitués de deux par-ties : une première alphabétique et une se-conde numérique. Ce sont des numéros for-matés qui obéissent à la norme ISO DP 10444 : International Standard Technical Re-port Number (ISRN). Lorsque deux numéros sont fournis, ils sont séparés par un point vir-gule.

Lors du transfert des notices, le champ RN ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de tiret. Champ homogène. Mentions spéciales: Dans certains cas le numéro de rapport est fourni dans deux formats : L’un avec des tirets et l’autre sans (numéro fourni entre parenthèse).

Action: A prendre Equivalence: 088__$$aRN Notes : Remplacer les doubles tirets par un seul et supprimer le numéro fourni entre parenthèse. Utiliser le point virgule comme séparateur de champ.

RN: FG02-97ER41041 (FG0297ER41041) RN: FG02-93DR40762 (FG0293DR40762) RN: FG02-95ER14498 (FG0295ER14498); FG03-95ER14499 (FG0395ER14499); W-7405-ENG-6 RN: FG02-93ER54215 (FG0293ER54215) RN: 00ER45852

SO

Source

(Bibliographic Citation)

Source

Tag INIS :229 Tag INIS :403 Tag INIS :500

Tous les articles introduits dans la base de donnée INIS possèdent ce champ. Le champ SO contient le nom du journal non abrégé dans lequel l’article a été publié, la date de publication du journal, le volume, la livraison (issue) et le nombre de pages. On trouve par-fois en plus de ces renseignements le nom de l’éditeur du journal ainsi que certaines don-nées concernant l’article lui-même comme le nombre de références, le nombre de tableaux, le nombre de figures, etc. D’une manière gé-nérale le champ se présente de la manière suivante : J (D) v. V(I) p. P1-P2 N ou R, F, T J = Nom du périodique D = Date de publication du journal V = Volume I = Livraison P1-P2 = pages N = Nom de l’éditeur du journal R = Nombre de références F = Nombre de figures T = Nombre de tableaux

Lors du transfert des notices, le champ SO ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ homogène. Mentions spéciales: Présence aléatoire du nom de l’éditeur du journal ou des concernant l’article (figures, tableaux, références). Format date variable : JJ/Mmm/AAAA ou Mmm/AAAA ou AAAA)

Action: A prendre Equivalence: 773__$$p J $$v V $$n I $$y D $$c P1-P2 Notes : Utiliser la knowledge SISUC-pr.kb pour faire correspondre les titres de journaux non abrégés sous INIS à ceux du CDS. Utiliser la parenthèse ouvrante, le v., le p., ref., fig., tab. comme séparateur de sous-champ. Limiter la date à l’année. Une fois la séparation faite, remplacer dans le sous-champ contenant le volume la parenthèse ouvrante par $$n et supprimer la parenthèse fer-mante : $$v V $$n I

SO: Nuclear-Medicine-Re-view (1998) v. 1(1) p. 50-57 electronic journal, available from http://www.viamedica.pl SO: Tidsskrift-for-Den-nor-ske-laegeforening (2000) v. 120(28) p. 3427-3428 SO: Journal-of-the-Korean-Radiological-Society (Feb 1997) v. 36(2) p. 295-300 26 refs., 3 figs., 2 tabs SO: Journal-of-Applied-Physics (1 Jun 2001) v. 89(11) p. 6650-6652 The American Physical Society

ST

Series/Title

informations

Information sur le titre

Tag INIS:Ø

Aucun article retenu à l’aide de notre équation de recherche ne possèdent ce champ. Le champ ST correspond à des notes complé-mentaires sur le titre, voir le document lui-même ou la source

Mentions spéciales: Pas de mentions spéciales

Action: A rejeter

TI

Title

Titre

Tag INIS:200

Tous les articles introduits dans la base de donnée INIS possèdent ce champ. Le champ TI contient le titre premier et le sous-titre. La langue utilisée pour indexer ce champ est l’anglais. Le caractère utilisé pour la sépara-tion de ces deux sous champs est le ‘’ :’’

Lors du transfert des notices, le champ TI ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ hétérogène au niveau des caractères de séparation entre titre et sous-titre : /, - Mentions spéciales: Pas de mentions spéciales

Action: A prendre Equivalence: 245__$$aTitre$$bSous-titre Notes : Remplacer le : par un $$b

TI: Low-temperature series expansions for the square lat-tice Ising model with spin s>1 TI: Multiple scattering in the presence of absorption: a theoretical treatment for quasi one-dimensional systems TI: 1D Schroedinger equa-tions with Coulomb-type po-tentials

UD

Update code

Code de mise à

jour

Tag INIS:Ø

Tous les articles possèdent ce champ. Le champ UD correspond au code de mise à jour des documents

Lors du transfert des notices, le champ UD ne devrait présenter aucun risque. Champ de type numérique. Mentions spéciales: Pas de mentions spéciales

Action: A rejeter

UD: 3217 UD: 3216 UD: 3215

Annexe C

TABLEAU DE CORRESPONDANCE POUR LES REPORTS

TABLEAU DE CORRESPONDANCE INIS/CDS REPORTS/PREPRINTS

Tag Intitulé Notes sur INIS Risques Correspondance Exemple

AB

Abstract

Résumé

Tag INIS : 860

100% des reports référencés dans INIS com-portent un résumé. Ce résumé est en Anglais. C’est une présentation abrégée qui reprend l’essentiel du contenu du texte. La base de donnée sur CD-ROM ne fournit que la version anglaise du résumé. Au niveau de sa struc-ture, il se présente sous la forme d’un para-graphe unique qui ne doit pas dépasser 6000 caractères. Si le résumé est l’œuvre de l’auteur celui-ci sera suivi de la mention (au-thor) ou (authors) ou (orig.). Dans le cas où l’article serait fourni sans résumé, un abstract devra alors être rédigé par un spécialiste du domaine. Les initiales de cette personnes se-ront alors annotées entre parenthèses en fin de résumé (Y.K.). En fin de résumé le nombre de références, de figures, tableaux ou autres illustrations peut être dans certains cas fournis.

Lors du transfert des notices, le champ AB ne devrait présenter aucun risque. Présence de caractères alphanumérique, de caractères de ponctuation, et d'autres caractères classiques tel que le /, +, -,), (, %, &, etc. Mentions spéciales: (authors) (author) (orig.) etc… ref., refs. fig., figs. tab., tabs ill., ills.

Action: A prendre Equivalence: 520__$$aAB Notes: Suppression des mentions spé-ciales dans la mesure du possible

AB: The dispersion relation of the A sub 1 phonon-polariton of ferroelectric LiNbO sub 3 has been studied by the impul-sive stimulated Raman scat-tering (ISRS) experiment im-proved with optical phase masks and heterodyne detec-tion. A simple dispersion rela-tion is revealed in contrast to the previous heterodyne ISRS study where several avoided crossing points were reported. The static dielectric constant obtained from the gradient of the dispersion curve with re-spect to the wave vector shows a good agreement with the previous measurement.

AN

INIS Accession Number And

Related Record

Numéro d’enregistrement

Tag INIS : 006

Tous les documents introduits dans la base de donnée INIS possèdent une clé unique, et l’INIS Accession Number correspond à cette clé. Ce numéro (champ non numérique) se présente de la manière suivante : vv-nnnnnn vv = Volume de l’année en cours nnnnnn = numéro d’enregistrement L’INIS Accession Number permet de faire le lien vers les full-texts de la littérature non conventionnelle (littérature grise : thèses, rap-port) qui se trouvent sur les CD-ROM NCL. Lorsqu’un document est révisé ou lorsque des corrections sont apportées à une notice, les responsables de la base vont créer une nou-velle entrée et l’ancienne notice est conservée (Replaces). Lorsque le document correspond à un article extrait d’une conférence la mention See Also est ajoutée.

Lors du transfert des notices, le champ AN ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères numériques et du tiret. Mentions spéciales: See Also : Replaces :

Action: A prendre Equivalence: 035__$$9INIS$$aAN Notes: Suppression du tiret, ne garder que la première ligne, se limiter en utilisant le retour à la ligne. Commencer par importer les der-nières versions des notices, puis remonter dans le temps. Les an-ciennes versions qui sont conser-vées dans la base seront alors éliminées par le check program (contrôle la présence de doublons avant import)

AN: 32-068389 See Also: 32-068287 AN : 32-089256 Replaces: 31-012511

AU

Authors

Auteurs

Tag INIS : 100

Tous les documents introduits dans la base de donnée INIS contiennent un auteur s’il s’agit d’une thèse et un auteur ou plus s’il s’agit d’un article, rapport, etc. Toutes les personnes qui sont responsables du contenu intellectuel du document sont considérées comme des au-teurs. Les auteurs sont listés par ordre alpha-bétique et séparés par un point virgule suivi d’un espace. Chaque auteur se présente de la manière suivante : N,-I.I’. N = Nom I = Initiale 1 I’ = Initiale 2 Pour les noms chinois, arabes et autres origi-nes pouvant prêter à confusion, les prénoms ne sont pas abrégés. Abd El-Azim,-Khalid-Emin Dans certain cas l’affiliation (nom et lieu d’un laboratoire, organisme ou université) ainsi que l’adresse E-mail des différents auteurs sera fournie. Celles-ci seront présentées de la ma-nière suivante : N,-I.I’. (U,V (P)). Email : E U = Nom organisme, etc. V = Ville P = Pays E = Adresse E-mail

Lors du transfert des notices, le champ AU risque de poser plusieurs problèmes. Le champ auteur est très hétérogène (pb de casse de respect des normes), les erreurs de catalogage sont nombreuses et certains centres fournisseurs de do-cuments ne se plient pas aux règles que nous avons citées précédemment. A tout cela vient s’ajouter le fait que toutes les combinaisons qui ont été décrites sont possibles. De plus dans certains cas seul les noms des auteurs nous sont fournis dans ces notices. Il arrive aussi qu’il s’agisse d’un auteur unique Mentions spéciales: et Al. Manque parfois une parenthèse fermente

Action: A prendre Equivalence: 100__$$a : AU 1 700__$$a : AU 2, etc. Notes: Supprimer le tiret et les points, ne garder que l’initiale de chaque prénom dans tous les cas, sup-primer les initiales dès que leur nombre est supérieur à quatre (check program), supprimer les affiliations en utilisant la paren-thèse ouvrante, utiliser le point virgule pour séparer les auteurs. Utilisation de la fonction CAP pour régler les problèmes de casse.

AU: Xiao-Xuefu (China Inst. of Atomic Energy, Beijing (China)); Xiang-Ming (Wuhu Inst. of Engineering Explora-tion, Anhui (China) AU: Lahyane,-Mustapha (Ab-dus Salam International Centre for Theoretical Physics, Trieste (Italy)). E-mail: lahyanem@ic- tp.trieste.i AU: Settakorn,-Chitrlad AU: Jones,-Roxanne- AU: INSTRUMENTATION-DI-VISION-STA AU: J.-H.-BILLEN; J.-ADAM; ET-A ; L.-M.-YOUNG AU: Su-Weining; Zhao-Jing- wu (Nanjing Univ., Nanjing (China). Dept. of Physics

C1

Primary Subject Category

Sujet principal du

document attribué par INIS

Tag INIS : 008/1

Tous les documents introduits dans la base de donnée INIS possèdent l’un de ces codes. Ce code est composé d’une lettre et de deux chif-fres. Chacun de ces codes correspond à un sujet particulier (sujet principal traité par le document) et les équivalences entre le code et la description de la catégorie qu’il identifie sont données par le manuel : Subject categories and scope descriptions (IAEA-INIS-3). Le champ C1 reprend le code principal du champ CC.

Lors du transfert des notices, le champ C1 ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques. C’est un champ très homogène et aucune parti-cularité n’a été recensée Mentions spéciales: Pas de mention spéciale

Action: A prendre Equivalence: 695__$$9INIS$$aC1 650_17__$$2SzGeCERN$$aSU Notes: Faire une KB (Knowledge Base) C1--Kb—Subject_Categ—Kb--SU Cette Kb va permettre de faire le lien entre le code C1, la catégorie à laquelle il correspond et à celle utilisée par le CDS

C1: S71 C1: S72

CA

Corporate And Conference

Corporation et

Conférence

Tag INIS : 110

Pour ce qui est des rapports, 94% des résul-tats obtenus possèdent ce champ. Le champ CA correspond au nom et la localisation de la corporation (organisme, université, laboratoire) responsable de la publication du document. Le champ CA se présente de la manière suivante en ce qui concerne les articles : O, V (P) O = Organisme V = Ville ou Etat (Etats-Unis d’Amérique) P = Pays Lorsque l’article, le rapport, ou thèse est publié conjointement par deux groupes d’une même organisation le caractère de séparation utilisé est le point virgule.

Lors du transfert des notices, le champ CA va poser de nombreux problèmes, c’est un champ très hétérogène. Diffé-rentes combinaisons sont possibles et les normes imposées par INIS ne sont pas toujours respectées. Présence de caractères alphanumériques et de ca-ractères de ponctuation. De plus il est à noter que les données sont très souvent incomplètes. On utilisera donc de préfé-rence la Knowledge qui fait le lien entre report number, publisher et place. Mentions spéciales: (US) (United States)

Action: A prendre lorsque pas de RN Equivalence: 269__ $$aPlace$$bPublisher Notes: Données incomplètes. Utiliser la Knowledge lorsque cela est pos-sible. Dans le peu de cas qui reste utiliser la virgule comme séparateur de champ entre le place et le publisher et se limiter à droite grâce à la parenthèse ou-vrante.

CA: Atomic Energy Commis-sion, Damascus (Syrian Arab Republic), Dept. of Chemistry CA: Decision Science Re-search Inst., Eugene, OR (United States) CA: Department of the Envi-ronment, Transport and the Regions, London (United Kingdom). Radioactive Sub-stances Div.

CC

All Subject

Category Code

Sujet principal et secondaire

attribués par INIS

Tag INIS : 008/1

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Contraire-ment au champ C1, CC ne contient pas un code unique mais plusieurs qui correspondent lorsque cela est le cas aux différents thèmes abordés par le document. Les différents codes sont séparés par un point virgule.

Lors du transfert des notices, le champ CC ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques. C’est un champ très homogène et aucune parti-cularité n’a été recensée. Cependant il est à noter que certains documents sont recensés dans de trop nombreuses ca-tégories. Mentions spéciales: Pas de mentions spéciales

Action: A rejeter Notes: On privilégie l’import de C1

CC: S73 CC: S74

CD

Primary Subject

Category Description

Description du All Subject Category

Code

Tag INIS : 008/1

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Ce champ donne la description du champ CC, c'est-à-dire la description des sujets auxquels les co-des CC font références. Les sujets abordés par le document sont séparés les un des autre par un point virgule.

Lors du transfert des notices, le champ CC ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Format général sim-ple. Mentions spéciales: Pas de mentions spéciales

Action: A rejeter Notes: On privilégie l’import de C1

CD: Atomic-and-molecular-physics; Condensed-matter-physics,-superconductivity-and -superfluidity CD: Isotopes-and-radiation-sources; Inorganic,-organic,-physical-and-analytical-chem-istry

CI

Country of Input

Pays d’origine

Tag INIS: 008/3

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Le champ CI fournit l’origine du document.

Lors du transfert des notices, le champ CC ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques

Action: A rejeter

CI: Germany CI: France

DEC

Computer-Assigned

Descriptors

Descripteurs

Tag INIS : 801

Indexation générique. Le système prend en compte de manière automatique, lors de l’indexation, les termes génériques des des-cripteurs fournis dans le champ DEI. Dans la plupart des cas les documents qui proviennent de la base de donnée INIS, présentent le champ DEC. Cependant il est théoriquement possible qu’un enregistrement n’en possède pas (c’est le cas lorsque aucun des DEI ne possède de termes génériques). Les différents descripteurs sont séparés les uns des autres par un point virgule

Lors du transfert des notices, le champ DEC ne devrait présenter aucun risque. Champ de type texte. Présence de caractères alphanumériques et de ca-ractères de ponctuation. Champ homo-gène. Mentions spéciales: Pas de mentions spéciales

Action: A prendre Equivalence: 695__$$9INIS$$aDEC Notes : Suppression des tirets

DEC: beta-decay-radioiso-topes; beta-minus-decay-ra-dioisotopes; chemical-reac-tions; hydrogen-isotopes; iso-topes-; light-nuclei; nuclei-; odd-even-nuclei; radioiso-topes-; separation-processes; sorption-; storage-; years-liv-ing-radioisotopes

DEI

Indexer-Assigned

Descriptors

Descripteurs

Tag INIS : 802

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Le champ DEI correspond à un jeu de descripteurs sé-lectionnés dans le thesaurus d’INIS en fonc-tion du sujet, du domaine auquel appartient l’enregistrement. Ces descripteurs sont contrôlés et modifiés si nécessaire lors de l’ultime phase de traitement. Les différents descripteurs sont séparés les uns des autres par un point virgule

Lors du transfert des notices, le champ DEI ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ homogène. Mentions spéciales: Pas de mentions spéciales

Action: A prendre Equivalence: 695__$$9INIS$$aDEI Notes : Suppression des tirets

DEI: alarm-systems; back-ground-radiation; beta-do-simetry; data-processing; man-; measuring-methods; micro-computers-; surface-contami-nation-monitors; threshold-dose; whole-body-counters

IS

International

Standard Numbers

Numéros

internationaux normalisés

(livres, brevets, collections)

Tag INIS : 320 Tag INIS : 321

Pour ce qui est des reports, il n’existe que très peu de notices avec un numéro ISSN (2% des notices importées) : International Standard Se-rial Number. Le code ISSN est composé de deux groupes de quatre chiffres reliés par un tiret. Il permet d’identifier de manière unique la publication en série auquel l’article fait réfé-rence. Dans certains cas le dernier caractère peut être un X (chiffre romain représentant le numéro 10).

Lors du transfert des notices, le champ IS ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ homogène. Mentions spéciales: Le fait qu’il y est un ISSN peut être le résultat d’une mauvaise indexation. Il faut donc vérifier que ces documents n’ont pas été publiés.

Action: A rejeter Notes : En ce qui concerne les reports (preprints, rapports d’expériences, rapports internes, etc) très peu des documents sélectionnés pos-sèdent un ISSN. Seuls certains organismes publiant le rapport sous la forme d’une collection en font la demande.

IS: ISSN 1011-4289 IS: ISSN 0418-9833 IS: ISSN 0418-9833 IS: ISSN 0418-9833 IS: ISSN 0418-9833 IS: ISSN 0418-9833 IS: ISSN 0418-9833 IS: ISSN 0418-9833 IS: ISSN 0418-9833 IS: ISSN 0418-9833 IS: ISSN 0418-9833 IS: ISSN 0418-9833 IS: ISSN 0418-9833

LA

Language of

Text

Langue originale du texte

Tag INIS : 600

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Le champ LA donne le nom de la langue dans laquelle la publication a été écrite. Lorsque deux langues sont définies elles sont séparées par un point-virgule

Lors du transfert des notices, le champ LA ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ homogène. Mentions spéciales: Pas de mentions spéciales

Action: A prendre Equivalence: 041__$$aLA Notes : Utiliser, le point virgule comme séparateur de champs, et utiliser une knowledge pour faire le lien entre le format des entrées dans INIS et celui du CDS LA--Kb—041__$$a

LA: Ukrainian LA: English LA: Russian

NT

Notes

Notes

Tag INIS : 610

60% des articles référencés dans INIS com-portent un champ note. Pour ce qui est du test sur l’année 2001 100% des reports retenus possèdent le champ NT. Ce champ contient des informations diverses concernant les arti-cles. Ce sont des informations dans 80% des cas qui traitent du lieu d’obtention de l’article (adresse électronique et nom du journal s’il s’agit d’une revue en ligne) mais aussi de certains éléments constitutifs d’un article comme le nombre de références, le nombre de figures, de tableaux, etc. La langue utilisée pour indexer ce champ est l’anglais. NT est un champ important puisqu’il nous renseigne sur le fait de savoir si les documents en particulier les rapports, les preprints et les thèses sont disponibles en version électronique sur les CD-Roms NCL distribués par INIS.

Lors du transfert des notices, le champ NT devrait poser un grand nombre de problèmes. Ce champ n’est pas obliga-toire et il est de surcroît très hétérogène. Les informations que ce champ renferme ne sont pas d’ordre premier mais plutôt d’ordre second. Mentions spéciales: Pas de mentions spéciales

Action:

A rejeter Notes : Permet de vérifier s’il existe une version électronique du document sur les CD-Roms NCL

NT: Data in PDF format: Ac-robat Reader for Windows 9x; this record replaces RN: 32036035 Available from INIS in electronic form NT: Data in PDF format: Ac-robat Reader for Windows 9x; this record replaces RN: 32036032 Available from INIS in electronic form NT: Available from INIS in electronic form; Also available from OSTI as DE00012636; PURL:https://www.osti.gov/servlets/purl/12636i5aPYu/webviewable/

OT

Original Title

Titre original

Tag INIS : 230

9% des reports référencés dans INIS com-portent le champ OT. Ce champ correspond au titre original de l’article lors de sa publica-tion.

Lors du transfert des notices, le champ OT ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ homogène. Mentions spéciales: Pas de mentions spéciales

Action: A prendre Equivalence: 246__$$aOT Notes : Prendre tel quel

OT: Ueber die Moeglichkeiten zum Nachweis von su-perschweren Elementen (SHE) in der Erdkruste mit der ho-chenergetischen Synchrotron-Strahlung und mit der Mas-senspektrometrie OT: Estudio de las Prestacio-nes de un Prototipo de Bunch and Track Identifier (BTI)

PT

Publication

Type

Type de publication

Tag INIS : 008/4 Tag INIS : 008/6

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Le champ PT correspond au « type de publication ». Les différentes catégories enregistrées sont : B (Book) E (Short-communication) F (Film) I (Miscellaneous) J (Journal Article) K (Conference) N (Numerical-Data) P (Patent) Q (Legislation) R (Report) U (Thesis-or-Dissertation) V (Program) W (Standard) X (Microfiche) Y (Progress-Report) Z (Bibliography) Lorsqu’un même document est indexé simul-tanément dans plusieurs de ces classes, le caractère de séparation utilisé est le point vir-gule. Après étude il s’est avéré que certains des documents que nous allions traités sont indexés à la fois comme article, rapport et conférence ou encore comme short communi-cation, miscellaneous et conférence. Il appa-raît donc que ces catégories ne sont pas clairement identifiées. C’est d’autant plus le cas avec la catégorie Report qui contient aussi bien des documents identifiés comme des preprints que des rapports internes

Lors du transfert des notices, le champ LA ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ homogène. Mentions spéciales: Pas de mentions spéciales

Action: A rejeter Equivalence: 980__$$aPREPRINT Notes : Prendre tel quel. Il est impossible de séparer les rapports des pre-prints. Pour cette raison il a été décidé d’importer ces documents en base 11, c'est-à-dire dans la catégorie preprints.

PT: R (Report) PT: R (Report) PT: R (Report) PT: R (Report); X (Microfiche-Unavailable-from-INIS) PT: R (Report); N (Numerical-Data) PT: R (Report) PT: R (Report); N (Numerical-Data) PT: R (Report) PT: R (Report); N (Numerical-Data) PT: R (Report); N (Numerical-Data) PT: R (Report) PT: R (Report) PT: R (Report) PT: R (Report); N (Numerical-Data); X (Microfiche-Unavail-able-from-INIS) PT: R (Report); W (Standard)

PY

Publication

Year

Année de publication

Tag INIS : 403

Tous les documents introduits dans la base de donnée INIS possèdent ce champ. Pour ce qui est des reports, seule l’année de publication de l’article est fournie.

Lors du transfert des notices, le champ PY ne devrait présenter aucun risque. Champ de type numérique. Présence de caractères uniquement numériques. Champ homogène. Mentions spéciales: Pas de mentions spéciales

Action: A prendre Equivalence: 260__$$cPY Notes : Prendre tel quel

PY: 1999 PY: 2000 PY: 2001 PY: 2001 PY: 2001 PY: 2001 PY: 1996

RN

Report/Patent

Number

Numéro de rapport

Tag INIS :300

Tous les reports référencés dans INIS com-portent le champ RN. Ce champ correspond au numéro de brevet, ou à des numéros d’identification internes attribués par les orga-nismes émettant ou publiant le document. Lorsque les reports sont soumis à INIS sans RN, les personnes en charge chez INIS assi-gneront eux-mêmes un RN en respectant la norme ISO en vigueur. La plupart des numé-ros de rapport fournis par ces organismes sont constitués de deux parties : une première al-phabétique et une seconde numérique. Ce sont des numéros formatés qui obéissent à la norme ISO DP 10444 : International Standard Technical Report Number (ISRN). Lorsque deux numéros sont fournis, ils sont séparés par un point virgule.

Lors du transfert des notices, le champ RN ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de tiret. Champ homogène. Mentions spéciales: Dans certains cas le numéro de rapport est fourni dans deux formats : L’un avec des tirets et l’autre sans (numéro fourni entre parenthèse).

Action: A prendre Equivalence: 088__$$aRN Notes : Remplacer les doubles tirets par un seul et supprimer le numéro fourni entre parenthèse. Utiliser le point virgule comme séparateur de champ.

RN: LBNL--47423 (LBNL47423); AC03-76SF00098 (AC0376SF00098) RN: LBNL--47422 (LBNL47422); AC03-76SF00098 (AC0376SF00098) RN: LA-UR--01-71 (LAUR0171); W-7405-ENG-36 (W7405ENG36) RN: KIYI--01-3 (KIYI013) RN: KIYI--01-1 (KIYI011) RN: KIYI--00-4 (KIYI004)

SO

Source

(Bibliographic Citation)

Source

Tag INIS :403 Tag INIS :500

Tous les reports introduits dans la base de donnée INIS possèdent ce champ. Pour ce qui est des reports le champ SO contient dans la plupart des cas la date selon différents for-mats ainsi que le nombre de pages. En ce qui concerne la date quatre formats sont possibles jj mmm aaaa ou mmm aaaa ou aaaa ou [aaaa]. En ce qui concerne le nombre de pa-ges il peut ou ne pas être donné. Lorsqu’il est donné celui-ci peut être donné aussi sous la forme d’une taille de fichier.

Lors du transfert des notices, le champ SO devrait présenter de nombreux ris-ques car il est très hétérogène. De nom-breux cas sont possibles et les combi-naisons différentes sont multiples Champ de type texte. Présence de caractères alphanumériques et de caractères de ponctuation. Mentions spéciales: Format date variable. Annotations spéciales : [vp.] Kilobytes Megabytes

Action: A prendre Equivalence: Ne pas récupérer la date par l’intermédiaire de ce champ. Utili-ser plutôt le champ PY 300__$$aPages Notes : Récupérer le nombre de pages lorsqu’il est donné. Supprimer limiter à un mot à droite de p. puis supprimer le point. Pour les autres cas utiliser la valeur par défaut mult p.

SO: Jan 2001 49 p. SO: 13 Sep 2001 [vp.] SO: 1 Jun 2001 [vp.] SO: 1 Jul 1999 10 p. SO: 1 Jul 1999 10 p. SO: Sep 1998 23 p. SO: 1 Jun 2001 163 Kilobytes SO: 1 Nov 2000 7 p. SO: 25 May 2001 [vp.] SO: [2001] 11 p. SO: 31 May 1999 1.2 Mega-bytes SO: 25 May 1999 10 p.

ST

Series/Title

informations

Information sur le titre

Tag INIS:Ø

Moins de 1% des reports retenus à l’aide de notre équation de recherche possèdent ce champ. Le champ ST correspond à des notes complémentaires sur le titre, voir le document lui-même ou la source

Mentions spéciales: Pas de mentions spéciales

Action: A rejeter

TI

Title

Titre

Tag INIS:200

Tous les reports introduits dans la base de donnée INIS possèdent ce champ. Le champ TI contient le titre premier et le sous-titre. La langue utilisée pour indexer ce champ est l’anglais. Le caractère utilisé pour la sépara-tion de ces deux sous champs est le ‘’ :’’

Lors du transfert des notices, le champ TI ne devrait présenter aucun risque. Champ de type texte. Présence de ca-ractères alphanumériques et de caractè-res de ponctuation. Champ hétérogène au niveau des caractères de séparation entre titre et sous-titre : /, - Mentions spéciales: Pas de mentions spéciales

Action: A prendre Equivalence: 245__$$aTitre$$bSous-titre Notes : Remplacer le : par un $$b

TI: Activated sintering of high-density powder yttrium ceram-ics 123 TI: Discrete computer models of condensed media with an internal structure TI: Deformation twinning and the transition temperature of ferritic steels TI: Interatomic interaction and properties of materials under strong external effects TI: Increasing the heat resis-tance and creep strength of titanium foils by alitising

UD

Update code

Code de mise à

jour

Tag INIS:Ø

Tous les reports possèdent ce champ. Le champ UD correspond au code de mise à jour des documents

Lors du transfert des notices, le champ UD ne devrait présenter aucun risque. Champ de type numérique. Mentions spéciales: Pas de mentions spéciales

Action: A rejeter

UD: 3240 UD: 3216 UD: 3241

Annexe D

CONFIGURATION UPLOADER INISTHESE

INISTHESE.extract TI---TI: ---EOL------ OT---OT: ---EOL------ AU---AU: ---EOL---;--- CA---CA: ---EOL------ SO---SO: ---EOL------ NT---NT: ---EOL------ RN---RN: ---EOL---;--- PY---PY: ---EOL------ LA---LA: ---EOL---;--- AB---AB: ---EOL------ DEI---DEI: ---EOL---;--- DEC---DEC: ---EOL---;--- IS---IS: ---EOL------ C1---C1: ---EOL------ AN---AN: ---EOL------ INISTHESE.tpl TI---<:TI:> OT---<:OT:> AU---<:NOM:>,-<:PRENOM:> CA---<:UNIV:>, <:VILLE:> (<:INUTILE:>) SO---<:SO:> NT---<:NT:> RN---<:RN:> (<:INUTILE:>) PY---<:PY:> LA---<:LA:> AB---<:AB:> DEI---<:DEI:> DEC---<:DEC:> IS---<:IS:> C1---<:C1:> AN---<:AN:> INISTHESEaleph.tpl 003---00<:SYSNO:> 003 L SzGeCERN 008---00<:SYSNO:> 008 L ^^^^^^s^^^^^^^^^^^^^^^^r^^^^^000^0^eng^d IS::CONF(IS,ISBN,1)---00<:SYSNO:> 020 L $$a <:IS::IS::WORDS(2,L)::SUP(ALPHA)::REP(;,)::SHAPE:> AN---00<:SYSNO:> 035 L $$9 INIS $$a <:AN::AN::NUM::SHAPE:> LA---00<:SYSNO:> 041 L $$a <:LA*::LA::KB(SISUC-lang.kb)::SHAPE:> RN::CONF(RN,,0)---00<:SYSNO:> 088 L $$a <:RN::RN::REP(--,-)::SHAPE:> AU::RANGE(1,1)---00<:SYSNO:> 100 L $$a <:AU*::NOM::REP(-,*)::CAP::SUP(SPACE,)::SHAPE:: REP(*,-)::REP(Da-,Da )::REP(Dal-,Dal )::REP(Dalla-,Dalla )::REP(Dalle-,Dalle )::REP(De-,De )::REP(Degll-,Degll )::REP(Del-,Del )::REP(Den-,Den )::REP(Di-,Di )::REP(Il-,Il )::REP(Le-,Le )::REP(La-,La )::REP(Lo-,Lo )::REP(Van-,Van )::REP(Von-,Von )::REP(Zum-,Zum )::REP(Zur-,Zur )::REP(Mc-,Mc)::REP(Mac-,Mac)::SHAPE::KB(SISU-INIS-Auteurs.kb,0)::LIMW(LEFTP,R)::REP(LEFTP,)::SHAPE:> <:AU*::PRENOM: :IF(,,COMMA ):><:AU*::PRENOM::LIMW(E-mail,R)::REP(E-mail,)::LIMW(LEFTP,R)::REP(RIGHTP,):: REP(LEFTP,)::REP(-, )::REP(., )::ABR(1,)::UP::SUP(SPACE, )::SHAPE:> TI::CONF(TI,,0)---00<:SYSNO:> 245 L $$a <:TI::TI::REP(:,$$b)::SHAPE:> OT::CONF(OT,,0)---00<:SYSNO:> 246 L $$a <:OT::OT::REP(:,$$b)::SHAPE:>

RN::CONF(RN,,0)---00<:SYSNO:> 260 L <:RN::RN::UP::REP(--,-)::REP(/,-)::REP(-, )::SUP(NUM)::SHAPE ::REP( ,-)::KB(SISUC-rnim.kb,0)::LIMW(LEFTP,R)::REP(LEFTP,)::SHAPE:> $$c <:PY::PY::SHAPE:> RN::CONF(RN,,1)---00<:SYSNO:> 260 L <:CA::UNIV::KB(SISU-INIS-place-publisher.kb,0)::LIMW (LEFTP,R)::REP(LEFTP,)::SHAPE:> $$c <:PY::PY::SHAPE:> SO::CONF(SO, p.,1)---00<:SYSNO:> 300 L $$a <:SO::SO::SHAPE::REP(p.,p)::WORDS(2,R)::SHAPE:> SO::CONF(SO, p.,0)---00<:SYSNO:> 300 L $$a <:SO::SO::SHAPE::WORDS(1,R)::KB(SISU-INIS-page. kb)::SHAPE:> NT::CONF(NT,from INIS in electronic form,0)---00<:SYSNO:> 500 L $$a No fulltext NT::CONF(NT,from INIS in electronic form,0)---00<:SYSNO:> 500 L $$a Not held by the library SO::CONF(SO,,0)::CONF(RN,,1)---00<:SYSNO:> 502 L $$a Thesis : <:CA::UNIV::KB(SISU-INIS-place-publisher.kb,0)::REP($$b,)::LIMW($$a,R)::REP($$a,)::LIMW(LEFTP,R)::REP(LEFTP,)::SHAPE:> :<:SO::SO ::SUP(ALPHA)::MINL(4)::SUP(PUNCT)::SHAPE:> SO::CONF(SO,,0)::CONF(RN,,0)---00<:SYSNO:> 502 L $$a Thesis : <:RN::RN::UP::REP(--,-)::REP(/,-)::REP(-, )::SUP(NUM)::SHAPE::REP( ,-)::KB(SISUC-rnim.kb,0)::REP($$b,)::LIMW($$a,R)::REP($$a,):: LIMW(LEFTP,R)::REP(LEFTP,)::SHAPE:> : <:SO::SO::SUP(ALPHA)::MINL(4)::SUP(PUNCT)::SHAPE:> SO::CONF(SO,,1)::CONF(RN,,1)---00<:SYSNO:> 502 L $$a Thesis : <:CA::UNIV::KB(SISU-INIS-place-publisher.kb,0)::REP($$b,)::LIMW($$a,R)::REP($$a,)::LIMW(LEFTP,R)::REP(LEFTP,)::SHAPE:> : <:PY:: PY ::SHAPE:> SO::CONF(SO,,1)::CONF(RN,,0)---00<:SYSNO:> 502 L $$a Thesis : <:RN::RN::UP::REP(--,-)::REP(/,-)::REP(-, )::SUP(NUM)::SHAPE::REP( ,-)::KB(SISUC-rnim.kb,0)::REP($$b,)::LIMW($$a,R)::REP($$a,): :SHAPE:> : <:PY::PY::SHAPE:> AB::SPLIT(1500,18, $$a ,2)---00<:SYSNO:> 520 L $$a <:AB::AB::EXP(author,1)::EXP(authors,1): :EXP(orig.,1)::SHAPE:> 595---00<:SYSNO:> 595 L $$a SIS INIS<:DATE(%Y,4):> C1::CONF(C1,,0)---00<:SYSNO:> 65017 L $$a <:C1::C1::KB(SISU-INIS-sc-inis-cds.kb)::SHAPE:> $$2 SzGeCERN IN---00<:SYSNO:> 690C L $$a THESIS IR::CONF(RN,,0)---00<:SYSNO:> 690C L $$a REPORT NT::CONF(NT,from INIS in electronic form,0)---00<:SYSNO:> 690C L $$a notheld C1::CONF(C1,,0)---00<:SYSNO:> 694 L $$9 INIS $$a <:C1::C1::KB(SISU-INIS-sc-inis.kb)::SHAPE:> DEI::CONF(DEI,,0)---00<:SYSNO:> 695 L $$9 INIS $$a <:DEI*::DEI::SHAPE:> DEC::CONF(DEC,,0)---00<:SYSNO:> 695 L $$9 INIS $$a <:DEC*::DEC::SHAPE:> NT::CONF(NT,from INIS in electronic form,1)---00<:SYSNO:> 8564 L $$u http://doc.cern.ch/archive/ electronic/other/uploader/INIS/<:AN::AN::NUM::SHAPE:>.pdf $$y fulltext BA---00<:SYSNO:> BAS L $$a 14 FMT---00<:SYSNO:> FMT L BK SW---00<:SYSNO:> 916 L $$s n $$w <:DATE(%Y%V, 6):> IN---00<:SYSNO:> 980 L $$a THESIS RN::CONF(RN,,0)---00<:SYSNO:> 980 L $$b REPORT LDR---00<:SYSNO:> LDR L ^^^^^nam^^22^^^^^^a^4500 OWN---00<:SYSNO:> OWN L $$a PUBLIC

Annexe E

CONFIGURATION UPLOADER INISARTICLE

INISARTICLE.extract TI---TI: ---EOL------ OT---OT: ---EOL------ AU---AU: ---EOL---;--- CA---CA: ---EOL------ SO---SO: ---EOL------ SO2---SO: ---EOL------ NT---NT: ---EOL------ RN---RN: ---EOL---;--- PY---PY: ---EOL------ LA---LA: ---EOL---;--- AB---AB: ---EOL------ DEI---DEI: ---EOL---;--- DEC---DEC: ---EOL---;--- IS---IS: ---EOL------ C1---C1: ---EOL------ AN---AN: ---EOL------ INISARTICLE.tpl TI---<:TI:> OT---<:OT:> AU---<:NOM:>,-<:PRENOM:> SO---<:JOURNAL:> (<:DATE:>) v. <:VOLUME:> p. <:PAGES:> SO2---<:JOURNAL:> (<:DATE:>) <:NUMERO:> p. <:PAGES:> RN---<:RN:> (<:INUTILE:>) PY---<:PY:> LA---<:LA:> AB---<:AB:> DEI---<:DEI:> DEC---<:DEC:> IS---<:IS:> (<:INUTILE:>) C1---<:C1:> AN---<:AN:> INISARTICLEaleph.tpl 003---00<:SYSNO:> 003 L SzGeCERN 008---00<:SYSNO:> 008 L ^^^^^^s^^^^^^^^^^^^^^^^r^^^^^000^0^eng^d IS::CONF(IS,ISSN,1)---00<:SYSNO:> 020 L $$a <:IS::IS::WORDS(2,L)::REP(ISSN,)::SHAPE:> AN---00<:SYSNO:> 035 L $$9 INIS $$a <:AN::AN::NUM::SHAPE:> LA---00<:SYSNO:> 041 L $$a <:LA*::LA::KB(SISUC-lang.kb)::SHAPE:> AU::RANGE(1,1)---00<:SYSNO:> 100 L $$a <:AU*::NOM::REP(-,* )::CAP::SUP(SPACE,)::SHAPE::REP (*,-)::REP(Da-,Da )::REP(Dal-,Dal )::REP(Dalla-,Dalla )::REP(Dalle-,Dalle )::REP(De-,De )::REP(Degll-,Degll )::REP(Del-,Del )::REP(Den-,Den )::REP(Di-,Di )::REP(Il-,Il )::REP(Le-,Le )::REP(La-,La )::REP(Lo-,Lo )::REP(Van-,Van )::REP(Von-,Von )::REP(Zum-,Zum )::REP(Zur-,Zur )::REP(Mc-,Mc)::REP(Mac-,Mac)::SHAPE::KB(SISU-INIS-Auteurs.kb,0)::LIMW(LEFTP,R)::REP(LEFTP,)::SHAPE:><:AU*::PRENOM: :IF(,,COMMA ):><:AU*::PRENOM::LIMW(E-mail,R)::REP(E-mail,)::LIMW(LEFTP,R)::REP(RIGHTP,): :REP(LEFTP,)::REP(-, )::REP(., )::ABR(1,)::UP::SUP(SPACE, )::SHAPE:> TI::CONF(TI,,0)---00<:SYSNO:> 245 L $$a <:TI::TI::SHAPE:> OT::CONF(OT,,0)---00<:SYSNO:> 246 L $$a <:OT::OT::SHAPE:> PY::CONF(PY,,0)---00<:SYSNO:> 260 L $$c <:PY::PY::WORDS(1,L)::SUP(PUNCT)::SHAPE:>

AB::SPLIT(1500,18, $$a ,2)---00<:SYSNO:> 520 L $$a <:AB::AB::EXP(LEFTPauthorRIGHTP,1)::EXP (LEFTPauthorsRIGHTP,1)::EXP(LEFTPorig.RIGHTP,1)::EXP(LEFTPAuthorRIGHTP,1)::EXP(LEFTPAuthorsRIGHTP,1)::EXP(LEFTPOrig.RIGHTP,1)::SHAPE:> 595---00<:SYSNO:> 595 L $$a SIS INIS<:DATE(%Y,4):> TI::CONF(TI,,0)---00<:SYSNO:> 595 L $$d <:TI::TI::SHAPE:> C1::CONF(C1,,0)---00<:SYSNO:> 65017 L $$a <:C1::C1::KB(SISU-INIS-sc-inis-cds.kb)::SHAPE:> $$2 SzGeCERN C1::CONF(C1,,0)---00<:SYSNO:> 694 L $$9 INIS $$a <:C1::C1::KB(SISU-INIS-sc-inis.kb)::SHAPE:> DEI::CONF(DEI,,0)---00<:SYSNO:> 695 L $$9 INIS $$a <:DEI*::DEI::SHAPE:> DEC::CONF(DEC,,0)---00<:SYSNO:> 695 L $$9 INIS $$a <:DEC*::DEC::SHAPE:> AU2::CONF(AU,,0)::RANGE(2,MAX)---00<:SYSNO:> 700 L $$a <:AU*::NOM::REP(-,* )::CAP::SUP (SPACE,)::SHAPE::REP(*,-)::REP(Da-,Da )::REP(Dal-,Dal )::REP(Dalla-,Dalla )::REP(Dalle-,Dalle )::REP (De-,De )::REP(Degll-,Degll )::REP(Del-,Del )::REP(Den-,Den )::REP(Di-,Di )::REP(Il-,Il )::REP(Le-,Le )::REP(La-,La )::REP(Lo-,Lo )::REP(Van-,Van )::REP(Von-,Von )::REP(Zum-,Zum )::REP(Zur-,Zur )::REP(Mc-,Mc)::REP(Mac-,Mac)::SHAPE::KB(SISU-INIS-Auteurs.kb,0)::LIMW(LEFTP,R)::REP(LEFTP,): :SHAPE:><:AU*::PRENOM::IF(,,COMMA ):><:AU*::PRENOM::LIMW(E-mail,R)::REP(E-mail,)::LIMW (LEFTP,R)::REP(RIGHTP,)::REP(LEFTP,)::REP(-, )::REP(., )::ABR(1,)::UP::SUP(SPACE, )::SHAPE:> SO::CONF(SO,no.,0)---00<:SYSNO:> 773 L $$p <:IS::IS::WORDS(2,L)::REP(ISSN,)::KB(SISU-INIS-issn-journal.kb,1)::SHAPE:> $$v <:SO::VOLUME::REP(LEFTP, $$n )::REP(RIGHTP,)::SHAPE:> $$y <:SO: :DATE::WORDS(1,R)::SHAPE:> $$c <:SO::PAGES::WORDS(1,L)::REP(COMMA,)::SHAPE:> SO2::CONF(SO,no.,1)::CONF(SO2,v.,1)---00<:SYSNO:> 773 L $$p <:IS::IS::WORDS(2,L)::REP(ISSN,): :KB(SISU-INIS-issn-journal.kb)::SHAPE:> $$v <:SO2::NUMERO::REP(v.,)::LIMW(LEFTP,R)::REP(LEFTP,) ::SHAPE:> $$n <:SO2::NUMERO::LIMW(LEFTP,L)::REP(RIGHTP,)::REP(LEFTP,)::REP(no.,)::SHAPE:> $$y <:SO2::DATE::SHAPE::WORDS(1,R):> $$c <:SO2::PAGES::WORDS(1,L)::REP(COMMA,)::SHAPE:> SO2::CONF(SO,no.,1)::CONF(SO2,v.,0)---00<:SYSNO:> 773 L $$p <:IS::IS::WORDS(2,L)::REP(ISSN,): :KB(SISU-INIS-issn-journal.kb)::SHAPE:> $$v <:SO2::NUMERO::REP(no.,)::REP(RIGHTP,)::REP(LEFTP,): :SHAPE:> $$n $$y <:SO2::DATE::SHAPE::WORDS(1,R):> $$c <:SO2::PAGES::WORDS(1,L)::REP (COMMA,)::SHAPE:> BA---00<:SYSNO:> BAS L $$a 13 FMT---00<:SYSNO:> FMT L BK SW---00<:SYSNO:> 916 L $$s n $$w <:DATE(%Y%V, 6):> 980---00<:SYSNO:> 980 L $$a ARTICLE LDR---00<:SYSNO:> LDR L ^^^^^nam^^22^^^^^^a^4500 OWN---00<:SYSNO:> OWN L $$a PUBLIC

Annexe F

CONFIGURATION UPLOADER INISREPORT

INISREPORT.extract TI---TI: ---EOL------ OT---OT: ---EOL------ AU---AU: ---EOL---;--- CA---CA: ---EOL------ SO---SO: ---EOL------ NT---NT: ---EOL------ RN---RN: ---EOL---;--- PY---PY: ---EOL------ LA---LA: ---EOL---;--- AB---AB: ---EOL------ DEI---DEI: ---EOL---;--- DEC---DEC: ---EOL---;--- C1---C1: ---EOL------ AN---AN: ---EOL------ INISREPORT.tpl TI---<:TI:> OT---<:OT:> AU---<:NOM:>,-<:PRENOM:> CA---<:EDITEUR:>, <:LIEU:> (<:INUTILE:>) SO---<:SO:> NT---<:NT:> RN---<:RN:> (<:INUTILE:>) PY---<:PY:> LA---<:LA:> AB---<:AB:> DEI---<:DEI:> DEC---<:DEC:> C1---<:C1:> AN---<:AN:> INISREPORTaleph.tpl 003---00<:SYSNO:> 003 L SzGeCERN 008---00<:SYSNO:> 008 L ^^^^^^s^^^^^^^^^^^^^^^^r^^^^^000^0^eng^d AN---00<:SYSNO:> 035 L $$9 INIS $$a <:AN::AN::NUM::SHAPE:> LA---00<:SYSNO:> 041 L $$a <:LA*::LA::KB(SISUC-lang.kb)::SHAPE:> RN::CONF(RN,,0)---00<:SYSNO:> 088 L $$a <:RN::RN::REP(--,-)::REP(/,-)::REP(.,-)::SHAPE:> AU::RANGE(1,1)---00<:SYSNO:> 100 L $$a <:AU*::NOM::REP(-,* )::CAP::SUP(SPACE,)::SHAPE: :REP(*,-)::REP(Da-,Da )::REP(Dal-,Dal )::REP(Dalla-,Dalla )::REP(Dalle-,Dalle )::REP(De-,De )::REP(Degll-,Degll )::REP(Del-,Del )::REP(Den-,Den )::REP(Di-,Di )::REP(Il-,Il )::REP(Le-,Le )::REP(La-,La )::REP(Lo-,Lo )::REP(Van-,Van )::REP(Von-,Von )::REP(Zum-,Zum )::REP(Zur-,Zur )::REP(Mc-,Mc)::REP(Mac-,Mac)::SHAPE::KB(SISU-INIS-Auteurs.kb,0)::LIMW(LEFTP,R)::REP(LEFTP,)::SHAPE:><:AU*::PRENOM ::IF(,,COMMA ):><:AU*::PRENOM::LIMW(E-mail,R)::REP(E-mail,)::LIMW(LEFTP,R)::REP(RIGHTP,) ::REP(LEFTP,)::REP(-, )::REP(., )::ABR(1,)::UP::SUP(SPACE, )::SHAPE:> TI::CONF(TI,,0)---00<:SYSNO:> 245 L $$a <:TI::TI::REP(:,$$b)::SHAPE:> OT::CONF(OT,,0)---00<:SYSNO:> 246 L $$a <:OT::OT::REP(:,$$b)::SHAPE:> PY::CONF(PY,,0)---00<:SYSNO:> 260 L $$c <:PY::PY::SHAPE:> RN::CONF(RN,,0)::CONF(SO,,0)---00<:SYSNO:> 269 L <:RN::RN::LIMW(--,R)::REP(--,)::REP(/,-)::UP:: SUP(NUM)::SUP(SPACE,)::SHAPE::KB(SISUC-rnim.kb,1)::SHAPE:> $$c <:SO::SO::LIMW(2004,R)::LIMW

(2003,R)::LIMW(2002,R)::LIMW(2001,R)::LIMW(2000,R)::LIMW(1999,R)::LIMW(1998,R)::LIMW(1997,R)::LIMW(1996,R)::LIMW(1995,R)::LIMW(1994,R)::LIMW(1993,R)::LIMW(1992,R)::LIMW(1991,R)::LIMW(1990,R)::LIMW(1989,R)::LIMW(1988,R)::LIMW(1987,R)::LIMW(1986,R)::LIMW(1985,R)::LIMW(1984,R)::LIMW(1983,R)::LIMW(1982,R)::LIMW(1981,R)::LIMW(1980,R)::REP(LEFTB,)::SHAPE:> RN::CONF(RN,,1)::CONF(SO,,0)---00<:SYSNO:> 269 L $$a <:CA::LIEU::SHAPE:> $$b <:CA::EDITEUR ::SHAPE:> $$c <:SO::SO::LIMW(2004,R)::LIMW(2003,R)::LIMW(2002,R)::LIMW(2001,R)::LIMW(2000,R) ::LIMW(1999,R)::LIMW(1998,R)::LIMW(1997,R)::LIMW(1996,R)::LIMW(1995,R)::LIMW(1994,R)::LIMW(1993,R)::LIMW(1992,R)::LIMW(1991,R)::LIMW(1990,R)::LIMW(1989,R)::LIMW(1988,R)::LIMW(1987,R)::LIMW(1986,R)::LIMW(1985,R)::LIMW(1984,R)::LIMW(1983,R)::LIMW(1982,R)::LIMW(1981,R)::LIMW(1980,R)::REP(LEFTB,)::SHAPE:> RN::CONF(RN,,0)::CONF(SO,,1)---00<:SYSNO:> 269 L <:RN::RN::LIMW(--,R)::REP(--,)::REP(/, )::UP:: SUP(NUM)::SUP(SPACE,)::SHAPE::KB(SISUC-rnim.kb,1)::SHAPE:> $$c <:PY::PY::SHAPE:> RN::CONF(RN,,1)::CONF(SO,,1)---00<:SYSNO:> 269 L $$a <:CA::LIEU::SHAPE:> $$b <:CA::EDITEUR ::SHAPE:> $$c <:PY::PY::SHAPE:> SO::CONF(SO, p.,1)---00<:SYSNO:> 300 L $$a <:SO::SO::SHAPE::REP(p.,p)::WORDS(2,R)::SHAPE:> SO::CONF(SO, p.,0)---00<:SYSNO:> 300 L $$a <:SO::SO::SHAPE::WORDS(1,R)::KB(SISU-INIS-page.kb) ::SHAPE:> AB::SPLIT(1500,18, $$a ,2)---00<:SYSNO:> 520 L $$a <:AB::AB::EXP(author,1)::EXP(authors,1)::EXP (orig.,1)::SHAPE:> 595---00<:SYSNO:> 595 L $$a SIS INIS<:DATE(%Y,4):> C1::CONF(C1,,0)---00<:SYSNO:> 65017 L $$a <:C1::C1::KB(SISU-INIS-sc-inis-cds.kb)::SHAPE:> $$2 SzGeCERN IR::CONF(RN,,0)---00<:SYSNO:> 690C L $$a REPORT C1::CONF(C1,,0)---00<:SYSNO:> 694 L $$9 INIS $$a <:C1::C1::KB(SISU-INIS-sc-inis.kb)::SHAPE:> DEI::CONF(DEI,,0)---00<:SYSNO:> 695 L $$9 INIS $$a <:DEI*::DEI::SHAPE:> DEC::CONF(DEC,,0)---00<:SYSNO:> 695 L $$9 INIS $$a <:DEC*::DEC::SHAPE:> AU2::CONF(AU,,0)::RANGE(2,MAX)---00<:SYSNO:> 700 L $$a <:AU*::NOM::REP(-,* )::CAP::SUP(SPACE,)::SHAPE::REP(*,-)::REP(Da-,Da )::REP(Dal-,Dal )::REP(Dalla-,Dalla )::REP(Dalle-,Dalle )::REP(De-,De )::REP(Degll-,Degll )::REP(Del-,Del )::REP(Den-,Den )::REP(Di-,Di )::REP(Il-,Il )::REP (Le-,Le )::REP(La-,La )::REP(Lo-,Lo )::REP(Van-,Van )::REP(Von-,Von )::REP(Zum-,Zum )::REP(Zur-,Zur )::REP(Mc-,Mc)::REP(Mac-,Mac)::SHAPE::KB(SISU-INIS-Auteurs.kb,0)::LIMW(LEFTP,R)::REP(LEFTP,) ::SHAPE:><:AU*::PRENOM::IF(,,COMMA ):><:AU*::PRENOM::LIMW(E-mail,R)::REP(E-mail,)::LIMW (LEFTP,R)::REP(RIGHTP,)::REP(LEFTP,)::REP(-, )::REP(., )::ABR(1,)::UP::SUP(SPACE, )::SHAPE:> NT::CONF(NT,from INIS in electronic form,1)---00<:SYSNO:> 8564 L $$u http://doc.cern.ch/archive /electronic/other/uploader/INIS/<:AN::AN::NUM::SHAPE:>.pdf $$y fulltext BA---00<:SYSNO:> BAS L $$a19 FMT---00<:SYSNO:> FMT L BK IN---00<:SYSNO:> 980 L $$aREPORT SW---00<:SYSNO:> 916 L $$s n $$w <:DATE(%Y%V, 6):> LDR---00<:SYSNO:> LDR L ^^^^^nam^^22^^^^^^a^4500 OWN---00<:SYSNO:> OWN L $$aPUBLIC

Annexe G

GUIDE D’UTLISATION

GUIDE D’UTILISATION

Importation des notices INIS avec lien vers le fulltext

LES 10 COMMANDEMENTS

Année 2004

1. EQUATION DE RECHERCHE

a- D : Base de données INIS sur CD-Rom (jeu de 9 CD-Rom) b- Démarrer le logiciel WinSPIRS 5.0 c- Saisir l’équation de recherche

Equation de recherche basée :

- sur le Type de Publication : PUBLICATION TYPE noté PT. Thesis-Or-Dissertation Article Report Conference - sur les Catégories INIS : PRIMARY SUBJECT CATEGORY CODES noté C1 et ALL

SUBJECT CATEGORY CODES noté CC. Les énoncés des catégories retenus sont les suivants :

S07 Isotopes And Radiation Sources S43 Particle Accelerators S46 Instrumentation Related To Nuclear Science And Technology S61 Radiation Protection And Dosimetry S62 Radiology And Nuclear Medicine S71 Classical And Quantum Mechanics, General Physics S72 Physics Of Elementary Particles And Fields S73 Nuclear Physics And Radiation Physics S74 Atomic And Molecular Physics S75 Condensed Matter Physics, Superconductivity And Superfluidity

S99 General And Miscellaneous

- sur l’INIS Accession Number noté AN. Ce numéro identifie de manière unique le document dans la base de donnée INIS. Il est composé de deux groupes de chiffres dont le premier correspond au volume de l’année. Ex : 32-003223 : Volume 32 → Année 2001.

34* : Année 2003 33* : Année 2002 32* : Année 2001 Etc…

1.1 THESIS Equation #1: (((S07 or S43 or S46 or S61 or S62 or S71 or S72 or S73 or S74 or S75) in C1) or ((S99 in C1) and ((S07 or S43 or S46 or S61 or S62 or S71 or S72 or S73 or S74 or S75) in CC))) and (34-* in AN) and (PT = "THESIS-OR-DISSERTATION") Equation #2: #1 not ((PT="CONFERENCE") or (PT="SHORT") or (PT="ARTICLE") or (PT="REPORT") or (PT="PROGRESS")) 1.2 REPORTS Equation #1: (((S07 or S43 or S46 or S61 or S62 or S71 or S72 or S73 or S74 or S75) in C1) or ((S99 in C1) and ((S07 or S43 or S46 or S61 or S62 or S71 or S72 or S73 or S74 or S75) in CC))) and (34-* in AN) and (PT = "REPORT") Equation #2: #1 not ((PT="CONFERENCE") or (PT="SHORT") or (PT="ARTICLE") or (PT="THESIS-OR-DISSERTATION") or (PT="PROGRESS") or (PT="MISCELLANEOUS")) not ((QUANT-PH* in RN) or (PHYSICS* in RN)) Equation #3: #2 not ((ASTRO-PH* in RN) or (DESY* in RN) or (SLAC* in RN) or (COND-MAT* in RN) or (GR-QC* in RN) or (HEP-EX* in RN) or (HEP-LAT* in RN) or (HEP-PH* in RN) or (HEP-TH* in RN) or (MATH-PH* in RN) or (NUCL-EX* in RN) or (NUCL-TH* in RN)) 1.3 ARTICLES Equation #1: ((S43 or S46 or S71 or S72 or S73 or S75) in C1) and (34-* in AN) and (PT = "ARTICLE") not (1126-6708 in IS) not ((PT="CONFERENCE") or (PT="SHORT") or (PT="REPORT") or (PT="THESIS-OR-DISSERTATION") or (PT="PROGRESS") or (PT="MISCELLANEOUS")) 1.4 CONFERENCES 1.4.1 ARTICLES Equation #1: (((S43 or S46 or S71 or S72 or S73 or S75) in C1) and (34-* in AN) and ((PT = "CONFERENCE") and (PT="ARTICLE"))) not (1126-6708 in IS) not ((PT="SHORT") or (PT="REPORT") or (PT="THESIS-OR-DISSERTATION") or (PT="PROGRESS") or (PT="MISCELLANEOUS"))

1.4.2 REPORTS Equation #1: (((S07 or S43 or S46 or S61 or S62 or S71 or S72 or S73 or S74 or S75) in C1) or ((S99 in C1) and ((S07 or S43 or S46 or S61 or S62 or S71 or S72 or S73 or S74 or S75) in CC))) and (34-* in AN) and ((PT = "CONFERENCE") and (PT="REPORT")) Equation #2: #1 not ((PT="SHORT") or (PT="ARTICLE") or (PT="THESIS-OR-DISSERTATION") or (PT="PROGRESS") or (PT="MISCELLANEOUS")) not ((QUANT-PH* in RN) or (PHYSICS* in RN)) Equation #3: #2 not ((ASTRO-PH* in RN) or (DESY* in RN) or (SLAC* in RN) or (COND-MAT* in RN) or (GR-QC* in RN) or (HEP-EX* in RN) or (HEP-LAT* in RN) or (HEP-PH* in RN) or (HEP-TH* in RN) or (MATH-PH* in RN) or (NUCL-EX* in RN) or (NUCL-TH* in RN))

2. SAUVEGARDE DES NOTICES

a- Sélectionner l’option All Displayed Records b- Sélectionner l’option User Selected c- Sélectionner l’option Options… d- Sélectionner l’option Tous les Champs (ALL) e- Sélectionner l’option Short Fields Names f- Sélectionner l’option Download Record Numbers g- Sauvegarder l’option au format .txt

3. MISE A JOUR DES KNOWLEDGES

a- Sauvegarde du fichier contenant les notices sous UNIX

3.1 THESE Les KB utilisés pour cette configuration sont : SISUC-lang.kb Entrées Illimitées SISU-INIS-place-publisher.kb Entrées Illimitées SISUC-rnim.kb Entrées Illimitées SISU-INIS-sc-inis-cds.kb Entrées Limitées SISU-INIS-sc-inis.kb Entrées Limitées SISU-INIS-page.kb Entrées Limitées

b- Extraction du champs RN pour compléter la KB : SISUC-rnim.kb c- Extraction du champs CA pour compléter la KB : SISU-INIS-place-publisher.kb d- egrep ‘^RN : .*$’ Fichier source > RN_extraction e- egrep ‘^CA : .*$’ Fichier source > CA_extraction f- Ouvrir les fichiers avec xemacs g- Aligner les données au format d’entrée des KB h- Copier la KB correspondante i- gdiff CA_extraction SISU-INIS-place-publisher.kbCOPY | grep ‘<’ > diff\ j- gdiff RN_extraction SISUC-rnim.kbCOPY | grep ‘<’ > diff k- Comparer les données à celles déjà présentes dans ALEPH500 l- Compéter les KB en utilisant la liste des abbréviations, le World of learning 2000.

On peut aussi utiliser Access pour la recherche des doublons. 3.2 REPORTS Les KB utilisés pour cette configuration sont : SISUC-lang.kb Entrées Illimitées SISUC-rnim.kb Entrées Illimitées SISU-INIS-sc-inis-cds.kb Entrées Limitées SISU-INIS-sc-inis.kb Entrées Limitées SISU-INIS-page.kb Entrées Limitées

b- b- Extraction du champs RN pour compléter la KB : SISUC-rnim.kb c- egrep ‘^RN : .*$’ Fichier source > RN_extraction d- Ouvrir le fichier avec Xemacs e- Aligner les données au format d’entrée de la KB f- Copier la KB correspondante g- gdiff RN_extraction SISUC-rnim.kbCOPY | grep ‘<’ > diff h- Comparer les données à celles déjà présentes dans ALEPH500 i- Compléter les KB en utilisant la liste des abbréviations, le World of learning 2000.

On peut aussi utiliser Access pour la recherche des doublons.

3.3 ARTICLES Les KB utilisés pour cette configuration sont : SISUC-lang.kb Entrées Illimitées SISU-INIS-issn-journal.kb Entrées Limitées SISU-INIS-sc-inis-cds.kb Entrées Limitées SISU-INIS-sc-inis.kb Entrées Limitées SISU-INIS-page.kb Entrées Limitées

b- Extraction du champs IS pour compléter la KB : SISU-INIS-issn-journal.kb c- egrep ‘^IS : .*$’ Fichier source > IS_extraction d- Ouvrir le fichier avec Xemacs e- Aligner les données au format d’entrée de la KB f- Copier la KB correspondante g- gdiff IS_extraction SISU-INIS-issn-journal.kbCOPY | grep ‘<’ > diff h- Comparer les données à celles déjà présentes dans ALEPH500 i- Compéter la KB en utilisant la liste des abbréviations, ou la base Online ISSN

On peut aussi utiliser Access pour la recherche des doublons. 4. CONFIGURATION UPLODER

4.1 CONFIGURATION

a-b-c-d-e-

-rw-r--r-- 1 uploader team 370 Jul 21 08:28 INISTHESE.extract -rw-r--r-- 1 uploader team 239 Jul 21 08:28 INISTHESE.tpl -rw-r--r-- 1 uploader team 3451 Jul 21 08:29 INISTHESEaleph.tpl -rw-r--r-- 1 uploader team 3565 Jul 21 08:31 INISREPORTaleph.tpl -rw-r--r-- 1 uploader team 343 Jul 21 08:31 INISREPORT.extract -rw-r--r-- 1 uploader team 228 Jul 21 08:31 INISREPORT.tpl -rw-r--r-- 1 uploader team 24 Jul 21 08:34 INISARTICLECORappend.grp-rw-r--r-- 1 uploader team 32 Jul 21 08:34 INISARTICLECORcorrect.grp-rw-r--r-- 1 uploader team 392 Jul 21 08:39 INISCONFARTICLE.extract -rw-r--r-- 1 uploader team 297 Jul 21 09:05 INISCONFARTICLE.tpl -rw-r--r-- 1 uploader team 2917 Jul 21 09:06 INISCONFARTICLEaleph.tpl -rw-r--r-- 1 uploader team 343 Jul 21 09:08 INISCONFREPORT.extract -rw-r--r-- 1 uploader team 228 Jul 21 09:08 INISCONFREPORT.tpl -rw-r--r-- 1 uploader team 3565 Jul 21 09:09 INISCONFREPORTaleph.tpl -rw-r--r-- 1 uploader team 2989 Jul 26 17:02 INISARTICLEaleph.tpl -rw-r--r-- 1 uploader team 298 Jul 26 17:27 INISARTICLE.tpl -rw-r--r-- 1 uploader team 393 Jul 26 17:28 NISARTICLE.extract

Faire tourner les configurations Uploader sur les fichiers sources Les knowledges sont liées aux configurations Chemin du fichier source : data/Nom_Configuration binCDSWEB/upload22.x Fichier_Source Nom_Configuration conf/mainCDSWEB.cfg Pour les articles faire tourner le fichier une deuxième fois avec INISARTICLECOR

4.2 KNOWLEDGES

-rw-r--r-- 1 uploader team 107 Jul 21 09:12 SISU-INIS-page.kb -rw-r--r-- 1 uploader team 330 Jul 21 09:13 SISU-INIS-sc-inis-cds.kb -rw-r--r-- 1 uploader team 491 Jul 21 09:19 SISU-INIS-sc-inis.kb -rw-r--r-- 1 uploader team 26735 Jul 21 10:23 SISU-INIS-issn-journal.kb -rw-r--r-- 1 uploader team 14304 Jul 22 16:31 SISU-INIS-place-publisher.kb -rw-r--r-- 1 uploader team 25169 Jul 26 16:47 SISU-INIS-Auteurs.kb -rw-r--r-- 1 uploader team 111356 Jul 26 16:53 SISUC-rnim.kb

5. CONTRÔLE DES CHAMPS

5.1 CONTRÔLE VISUEL 5.1.1 THESES

1) Suppression des lignes vides: a- M-x replace-regexp: ^.* 695 L $$9 INIS $$a$ with: Ø b- Sauvegarder c- Quitter d- egrep –v ‘^$’ Nom_fichier > Nom_fichier_1

2) Suppression de la première notice :

e- Ouvrir avec Xemacs f- Sélectionner la première notice g- Effacer la première notice

3) Copie de Nom_fichier_1 :

h- cp Nom_fichier_1 Nom_fichier.test

4) Préparation des fichiers pour le contrôle des Champs 100:

i- egrep '^.* 100 .*-.*' Nom_fichier.test > Champ100tiret j- egrep '^.* 100 .*, .* .* .* .*$' Nom_fichier.test > Champ100initiale k- egrep '^.* 100 .*@.*' Nom_fichier.test > Champ100@

5) Préparation des fichiers pour le contrôle des Champs 041, 245, 246, 260, 300, 502 :

l- Ouvrir Nom_fichier.test m- M-x replace-regexp: ^.* 041 L with: 041 L n- M-x replace-regexp: ^.* 245 L with: 245 L o- M-x replace-regexp: ^.* 246 L with: 246 L p- M-x replace-regexp: ^.* 260 L with: 260 L q- M-x replace-regexp: ^.* 300 L with: 300 L r- M-x replace-regexp: ^.* 502 L with: 502 L

s- Sauvegarder t- Quitter u- sort –d –u Nom_fichier.test > Nom_fichier_Champ v- Ouvrir Nom_fichier_Champ avec Xemacs w- M-x replace-regexp: ^00.*$ with: Ø

6) Contrôle des champs 041, 100, 245, 246, 260, 300, 502 5.1.2 REPORTS 1) Suppression des lignes vides:

a- M-x replace-regexp: ^.* 695 L $$9 INIS $$a$ with: Ø b- Sauvegarder c- Quitter d- egrep –v ‘^$’ Nom_fichier > Nom_fichier_1

2) Suppression de la première notice :

e- Ouvrir avec Xemacs f- Sélectionner la première notice g- Effacer la première notice

3) Copie de Nom_fichier_1 :

h- cp Nom_fichier_1 Nom_fichier.test

4) Préparation des fichiers pour le contrôle des Champs 100, 700, 088 :

i- egrep '^.* 100 .*-.*' Nom_fichier.test > Champ100tiret j- egrep '^.* 700 .*-.*' Nom_fichier.test > Champ700tiret k- egrep '^.* 100 .*, .* .* .* .*$' Nom_fichier.test > Champ100initiale l- egrep '^.* 700 .*, .* .* .* .*$' Nom_fichier .test > Champ700initiale m- egrep '^.* 100 .*@.*' Nom_fichier.test > Champ100@ n- egrep '^.* 700 .*@.*' Nom_fichier.test > Champ700@ o- egrep '^.* 088 .*$' Nom_fichier.test > Champ088

5) Préparation des fichiers pour le contrôle des Champs 041, 245, 246, 260, 269, 300 :

p- Ouvrir Nom_fichier.test q- M-x replace-regexp: ^.* 041 L with: 041 L r- M-x replace-regexp: ^.* 245 L with: 245 L s- M-x replace-regexp: ^.* 246 L with: 246 L t- M-x replace-regexp: ^.* 260 L with: 260 L u- M-x replace-regexp: ^.* 269 L with: 269 L v- M-x replace-regexp: ^.* 300 L with: 300 L w- Quitter x- sort –d –u Nom_fichier.test > Nom_fichier_Champ y- Ouvrir Nom_fichier_Champ avec Xemacs z- M-x replace-regexp: ^00.*$ with: Ø

6) Contrôle des champs 041, 088, 100, 245, 246, 260, 269, 300, 700 :

5.1.3 ARTICLES 1) Suppression des lignes vides:

a- Ouvrir avec Xemacs b- M-x replace-regexp: ^.* 695 L $$9 INIS $$a$ with: Ø c- Sauvegarder d- Quitter e- egrep –v ‘^$’ Nom_fichier > Nom_fichier_1

2) Suppression de la première notice :

f- Ouvrir avec Xemacs g- Sélectionner la première notice h- Effacer la première notice

3) Copie de Nom_fichier_1 :

i- cp Nom_fichier_1 Nom_fichier.test

4) Préparation des fichiers pour le contrôle des Champs 100, 700, 773 :

j- egrep '^.* 100 .*-.*' Nom_fichier.test > Champ100tiret k- egrep '^.* 700 .*-.*' Nom_fichier.test > Champ700tiret l- egrep '^.* 100 .*, .* .* .* .*$' Nom_fichier.test > Champ100initiale m- egrep '^.* 700 .*, .* .* .* .*$' Nom_fichier .test > Champ700initiale n- egrep '^.* 100 .*@.*' Nom_fichier.test > Champ100@ o- egrep '^.* 700 .*@.*' Nom_fichier.test > Champ700@ p- egrep '^.* 773 .*$' Nom_fichier.test > Champ773

5) Préparation des fichiers pour le contrôle des Champs 041, 245, 246, 260 :

q- Ouvrir Nom_fichier.test r- M-x replace-regexp: ^.* 041 L with: 041 L s- M-x replace-regexp: ^.* 245 L with: 245 L t- M-x replace-regexp: ^.* 246 L with: 246 L u- M-x replace-regexp: ^.* 260 L with: 260 L v- Quitter w- sort –d –u Nom_fichier.test > Nom_fichier_Champ x- Ouvrir Nom_fichier_Champ avec Xemacs y- M-x replace-regexp: ^00.*$ with: Ø

6) Contrôle des champs 041, 245, 246, 260, 100, 700, 773 : 5.2 CONTRÔLE AUTOMATIQUE

a- Faire tourner Check_format500 b- Faire tourner Chkenc 6. PREPARATION DU BATCH FILE

a- egrep '^.* 035 .*$' 2003_THESE_INISDONE > BATCH_FILE b- Mise au format sous Xemacs

c- Suppression du tag d- Trier par ordre croissant les AN e- Sauvegarder le fichier au format .txt f- Sauvegarder le fichier avec l’extension .dat

7. SAUVEGARDE DES FULL_TEXT a- Désinstaller Adobe Acrobat Reader b- Installer le logiciel INISIR. Choisir l’option Jukebox

7.1 UTILISATION DU JUKEBOX

c- Créer un folder INIS. Chemin : C:\ INIS

d- Créer un folder pour chaque CD-Rom dans le répertoire INIS e- Copier les différents CD-Rom de l’année en cours (15 min/CD-Rom). f- Démarrer INISIR

Création du Jukebox :

a- Sélectionner l’option Fonction Batch b- Chercher le Batch_file c- Sélectionner Open d- Sélectionner Changer e- Sélectionner l’onglet JukeBox f- Cliquer sur Serveur… g- Cliquer sur Ajouter… h- Entrer le Nom du Serveur : INIS i- Chercher le chemin d’accès au folder INIS j- Cliquer sur OK k- Cliquer sur OK l- Fermer INISIR

Le Jukebox est maintenant créé, il peut être utilisé. Remarque : Cette fonction offerte par le logiciel est très intéressante à exploiter. Il faut noter cependant que celle-ci ne marche que lorsque que les documents à télécharger sont au format tiff. Dans le cas de fichiers au format .pdf, il est impératif de ne sélectionner que les fulltexts correspondant au volume qui est en cours d’ouverture (NCL03002, etc.)

Interrogation du Jukebox :

a- Ouvrir INISIR b- Sélectionner l’option Fonction Batch c- Chercher le Batch_file d- Sélectionner Open e- Sélectionner Changer f- Sélectionner l’onglet JukeBox g- Cliquer sur le volume que l’on veut explorer. h- Cliquer sur OK

Sauvegarde des full-text :

i- Créer un folder sur le Desktop j- Sélectionner à l’aide de la touche Ctrl les fulltexts disponibles (symbole Acrobat) k- Ne Sélectionner que les fulltexts correspondants au volume qui est ouvert. l- Cliquer sur l’onglet Fichier m- Cliquer sur Décharger n- Sélectionner l’option Document o- Sélectionner l’option Documents Sélectionnés p- Cliquer sur OK q- Enregistrer dans le Folder sur le Desktop r- Cliquer sur OK

Recommencer les deux dernières étapes pour chaque volume NCL. 7.2 UTILISATION SANS JUKEBOX

c- Installer le CD-Rom NCL à traiter dans le lecteur D:\ d- Ouvrir INISIR (reconnaissance automatique du CD-Rom) Interrogation de la base sur CD-Rom : a- Sélectionner l’option Fonction Batch b- Chercher le Batch_file c- Sélectionner Open d- Sélectionner Changer e- Sélectionner l’onglet Local f- Cliquer sur le volume se trouvant dans le lecteur D:\ g- Sélectionner l’option Base courante h- Cliquer sur OK

Sauvegarde des full-text : a- Créer un Folder sur le Desktop b- Sélectionner à l’aide de la touche Shift et Ctrl les fulltexts disponibles. c- Cliquer sur l’onglet Fichier d- Cliquer sur Décharger e- Sélectionner l’option Document f- Sélectionner l’option Documents Sélectionnés g- Cliquer sur OK h- Enregistrer dans le Folder sur le Desktop i- Cliquer sur OK 8. CONVERSION DES FICHIERS .TIFF AU FORMAT .PDF

Avant 2003, un grand nombre de full-text sur les CD-Rom NCL se trouve au format .tiff page par page. Il convient donc de regrouper ces différentes pages et de les convertir en un seul et même fichier au format standard .pdf. Pour cela nous utilisons le logiciel Image2PDF.

a- Réinstaller Adobe Acrobat Reader b- Installer Image2PDF c- Ouvrir Image2PDF d- Cliquer sur l’onglet File e- Sélectionner Add Directory… f- Chercher le chemin d’accès au Folder PDF contenant les full-texts g- Cliquer sur OK

h- Sélectionner l’onglet Save Mode i- Cliquer sur Convert multiple directories to multiple PDF files j- Cliquer sur Save to Original directories with corresponding filename k- Cliquer sur Overwrite if file exist

l- Cliquer sur OK m- Cliquer sur Make PDF n- Quitter

9. EXTRACTION DES PDF

L’extraction se fait ici sous Windows XP Pro

a- Ouvrir la fonction Search Results b- Cliquer sur All Files and Folders c- Saisir: .pdf dans le champ All or part of the file name d- Sélectionner Browse… dans le champ Look in e- Chercher le chemin d’accès au Folder PDF f- Cliquer sur OK

g- Créer sur le Desktop un Folder PDF_Import h- Sélectionner les pdf obtenus par la recherche i- Copier les éléments dans le Folder PDF_Import

10. EXPORTATION DES FULL-TEXT VERS LE SERVEUR

a- Installer WinSCP b- Ouvrir Winscp c- Saisir les informations sur la session

Nom d’hôte : Sundh99.cern.ch Nom d’utilisateur : Uploader Port : 22 Mot de passe : ••••••••

d- Cliquer sur Connecter e- Depuis la fenêtre de gauche chercher le chemin d’accès au Folder PDF_Import f- Depuis la fenêtre de droite chercher le chemin d’accès au Folder sur le serveur

contenant les full-text INIS. Pour retrouver ce chemin, cliquer sur l’icône suivante , puis saisir la valeur suivante : /newdsk1/other/uploader/INIS dans le champ :

Ouvrir le répertoire. Enfin cliquer sur OK. g- Sélectionner à l’aide de la touche Shift les fulltexts à importer. h- Copier ces fulltexts sur le serveur en utilisant la fonction Drag and Drop.

i- Sélectionner l’option Automatique j- Sélectionner l’option MAJ. puis min. k- Sélectionner l’option préserver la date. l- Cliquer sur Copier m- Quitter Winscp

Remarque : Le lien entre la notice d’un article et le texte intégral se fait automatiquement grâce au Link Manager.

Annexe H

CONFIGURATIONS BIBCONVERT

INISTHESE.cfg === TI---TI: ---EOL------ OT---OT: ---EOL------ AU---AU: ---EOL---;--- CA---CA: ---EOL------ SO---SO: ---EOL------ NT---NT: ---EOL------ RN---RN: ---EOL---;--- PY---PY: ---EOL------ LA---LA: ---EOL---;--- AB---AB: ---EOL------ DEI---DEI: ---EOL---;--- DEC---DEC: ---EOL---;--- IS---IS: ---EOL------ C1---C1: ---EOL------ AN---AN: ---EOL------ === TI---<:TI:> OT---<:OT:> AU---<:NOM:>,-<:PRENOM:> (<:INUTILE:>) CA---<:CA:> (<:INUTILE:>) SO---<:SO:> NT---Available from <:ORIGINE:>;<:INUTILE:> RN---<:RN:> (<:INUTILE:>) PY---<:PY:> LA---<:LA:> AB---<:AB:> DEI---<:DEI:> DEC---<:DEC:> IS---<:IS:> (<:INUTILE:>) C1---<:C1:> AN---<:AN:> === 003---00<:SYSNO:> 003 L SzGeCERN 008---00<:SYSNO:> 008 L ^^^^^^s^^^^^^^^^^^^^^^^r^^^^^000^0^eng^d IS::CONF(IS,ISBN,1)---00<:SYSNO:> 020 L $$a<:IS::IS::SHAPE::WORDS(2,R)::REP(ISBN,)::SHAPE:> AN---00<:SYSNO:> 035 L $$9INIS $$a<:AN::AN::NUM::SHAPE:> LA---00<:SYSNO:> 041 L $$a<:LA*::LA::KB(/opt2/www/users/uploader/KB/SISUC-lang.kb,3)::SHAPE:> RN::CONF(RN,,0)---00<:SYSNO:> 088 L $$a<:RN*::RN::REP(--,-)::SHAPE:> AU::RANGE(1,1)---00<:SYSNO:> 100 L $$a<:AU*::NOM::SHAPE:>, <:AU::PRENOM::REP(-, )::REP(., )::ABRX(1,)::UP::SHAPE:> TI---00<:SYSNO:> 245 L $$a<:TI::TI::SHAPE:> OT::CONF(OT,,0)---00<:SYSNO:> 246 L $$a<:OT::OT::SHAPE:> RN::CONF(RN,,0)---00<:SYSNO:> 260 L <:RN::RN::REP(-, )::WORDS(1,R)::SUP(NUM)::KB(/opt2/www/users/uploader/KB/SISUC-rnim.kb,3)::SHAPE:> $$c<:PY::PY::SHAPE:> CA::CONF(RN,,1)::CONF(CA,COMMA,1)---00<:SYSNO:> 260 L $$a<:CA::CA::LIMW(COMMA,L)::REP(COMMA, )::SHAPE:> $$b<:CA::CA::LIMW(COMMA,R)::REP(COMMA, )::SHAPE:> $$c<:PY::PY::SHAPE:> CA::CONF(RN,,1)::CONF(CA,COMMA,0)---00<:SYSNO:> 260 L $$asine loco $$b<:CA::CA::SHAPE:> $$c<:PY::PY::SHAPE:> SO::CONF(SO, p.,1)---00<:SYSNO:> 300 L $$a<:SO::SO::SHAPE::REP(p.,p)::WORDS(2,L)::SHAPE:>

SO::CONF(SO, p.,0)::DEFP---00<:SYSNO:> 300 L $$amult p SO::CONF(SO,,0)::CONF(RN,,1)---00<:SYSNO:> 502 L $$aThesis:<:CA::CA::LIMW(COMMA,R)::REP(COMMA, )::SHAPE:>:<:SO::SO::SUP(ALPHA)::MINL(4)::SUP(PUNCT)::SHAPE:> SO::CONF(SO,,0)::CONF(RN,,0)---00<:SYSNO:> 502 L $$aThesis:<:RN::RN::REP(-, )::WORDS(1,R)::KB(/opt2/www/users/uploader/KB/Note_Univ_INIS.kb)::SHAPE:>:<:SO::SO::SUP(ALPHA)::MINL(4)::SUP(PUNCT)::SHAPE:> SO::CONF(SO,,1)::CONF(RN,,1)---00<:SYSNO:> 502 L $$aThesis:<:CA::CA::LIMW(COMMA,R)::REP(COMMA, )::SHAPE:>:<:PY::PY::SHAPE:> SO::CONF(SO,,1)::CONF(RN,,0)---00<:SYSNO:> 502 L $$aThesis:<:RN::RN::REP(-, )::WORDS(1,R)::KB(/opt2/www/users/uploader/KB/Note_Univ_INIS.kb)::SHAPE:>:<:PY::PY::SHAPE:> AB---00<:SYSNO:> 520 L $$a<:AB::AB::EXP(LEFTPauthorRIGHTP,1)::EXP(LEFTPauthorsRIGHTP,1)::EXP(LEFTPorig.RIGHTP,1)::SHAPE:> C1::CONF(C1,,0)---00<:SYSNO:> 65017 L $$a<:C1::C1::KB(/opt2/www/users/uploader/KB/subj_categ_INIS_CDS.kb)::SHAPE:> $$2SzGeCERN IN---00<:SYSNO:> 690C L $$aTHESIS C1::CONF(C1,,0)---00<:SYSNO:> 695 L $$9INIS $$a<:C1::C1::KB(/opt2/www/users/uploader/KB/subj_categ_INIS.kb)::SHAPE:> DEI::CONF(DEI,,0)---00<:SYSNO:> 695 L $$9INIS $$a<:DEI*::DEI::SHAPE:> DEC::CONF(DEC,,0)---00<:SYSNO:> 695 L $$9INIS $$a<:DEC*::DEC::SHAPE:> BA---00<:SYSNO:> 960 L $$a14 FMT---00<:SYSNO:> FMT L BK IN---00<:SYSNO:> 980 L $$aTHESIS SW---00<:SYSNO:> 916 L $$s n $$w <:DATE(%Y%V, 6):> LDR---00<:SYSNO:> LDR L ^^^^^nam^^22^^^^^^a^4500 OWN---00<:SYSNO:> OWN L $$aPUBLIC INISARTICLE.cfg === TI---TI: ---EOL------ OT---OT: ---EOL------ AU---AU: ---EOL---;--- CA---CA: ---EOL------ SO---SO: ---EOL------ SO2---SO: ---EOL------ NT---NT: ---EOL------ RN---RN: ---EOL---;--- PY---PY: ---EOL------ LA---LA: ---EOL---;--- AB---AB: ---EOL------ DEI---DEI: ---EOL---;--- DEC---DEC: ---EOL---;--- IS---IS: ---EOL------ C1---C1: ---EOL------ AN---AN: ---EOL------ === TI---<:TITRE:> OT---<:OT:> AU---<:NOM:>,-<:PRENOM:> (<:INUTILE:>) SO---<:JOURNAL:> (<:DATE:>) v. <:VOLUME:> p. <:PAGES:> SO2---<:JOURNAL:> (<:DATE:>) <:NUMERO:> p. <:PAGES:> RN---<:RN:> (<:INUTILE:>)

PY---<:PY:> LA---<:LA:> AB---<:AB:> DEI---<:DEI:> DEC---<:DEC:> IS---<:IS:> (<:INUTILE:>) C1---<:C1:> AN---<:AN:> === 003---00<:SYSNO:> 003 L SzGeCERN 008---00<:SYSNO:> 008 L ^^^^^^s^^^^^^^^^^^^^^^^r^^^^^000^0^eng^d IS::CONF(IS,ISSN,1)---00<:SYSNO:> 020 L $$a<:IS::IS::WORDS(2,R)::REP(ISSN,)::SHAPE:> AN---00<:SYSNO:> 035 L $$9INIS $$a<:AN::AN::NUM::SHAPE:> LA---00<:SYSNO:> 041 L $$a<:LA*::LA::KB(/opt2/www/users/uploader/KB/SISUC-lang.kb,3)::SHAPE:> RN::CONF(RN,,0)---00<:SYSNO:> 088 L $$a<:RN*::RN::REP(--,-)::SHAPE:> AU::CONF(AU,,0)::RANGE(1,1)---00<:SYSNO:> 100 L $$a<:AU*::NOM::SHAPE:>, <:AU*::PRENOM::REP(-, )::REP(., )::ABRX(1,)::UP::SHAPE::SUP(SPACE, ):> TI---00<:SYSNO:> 245 L $$a<:TI::TITRE::SHAPE::REP(: , $$b)::SHAPE:> OT::CONF(OT,,0)---00<:SYSNO:> 246 L $$a<:OT::OT::SHAPE:> PY::CONF(PY,,0)---00<:SYSNO:> 260 L $$c<:PY::PY::WORDS(1,R)::SUP(PUNCT)::SHAPE:> AB---00<:SYSNO:> 520 L $$a<:AB::AB::EXP(LEFTPauthorRIGHTP,1)::EXP(LEFTPauthorsRIGHTP,1)::EXP(LEFTPorig.RIGHTP,1)::SHAPE:> 595---00<:SYSNO:> 595 L $$aSIS INIS <:DATE(%Y,4):> C1::CONF(C1,,0)---00<:SYSNO:> 65017 L $$a<:C1::C1::KB(/opt2/www/users/uploader/KB/SISU-INIS-sc-inis.kb)::SHAPE:> $$2SzGeCERN C1::CONF(C1,,0)---00<:SYSNO:> 695 L $$9INIS $$a<:C1::C1::KB(/opt2/www/users/uploader/KB/SISU-INIS-sc-inis-cds.kb)::SHAPE:> DEI::CONF(DEI,,0)---00<:SYSNO:> 695 L $$9INIS $$a<:DEI*::DEI::SHAPE:> DEC::CONF(DEC,,0)---00<:SYSNO:> 695 L $$9INIS $$a<:DEC*::DEC::SHAPE:> AU2::CONF(AU,,0)::RANGE(2,MAX)---00<:SYSNO:> 700 L $$a<:AU*::NOM::SHAPE:>, <:AU*::PRENOM::REP(-, )::REP(., )::ABRX(1,)::UP::SHAPE::SUP(SPACE, ):> SO::CONF(SO,no.,0)---00<:SYSNO:> 773 L $$p<:IS::IS::WORDS(2,R)::REP(ISSN,)::KB(/opt2/www/users/uploader/KB/SISU-INIS-issn-journal.kb)::SHAPE:>$$v<:SO::VOLUME::REP(LEFTP,$$n)::REP(RIGHTP,)::SHAPE:>$$y<:SO::DATE::WORDS(1,L):>$$c<:SO::PAGES::WORDS(1,R)::REP(COMMA,)::SHAPE:> SO2::CONF(SO,no.,1)::CONF(SO2,v.,1)---00<:SYSNO:> 773 L $$p<:IS::IS::WORDS(2,R)::REP(ISSN,)::KB(/opt2/www/users/uploader/KB/SISU-INIS-issn-journal.kb)::SHAPE:>$$v<:SO2::NUMERO::REP(v.,)::SHAPE::LIMW(LEFTP,R)::REP(LEFTP,):>$$n<:SO2::NUMERO::LIMW(LEFTP,L)::REP(RIGHTP,)::REP(LEFTP,)::REP(no.,):>$$y<:SO2::DATE::WORDS(1,L):>$$c<:SO2::PAGES::WORDS(1,R)::REP(COMMA,)::SHAPE:> SO2::CONF(SO,no.,1)::CONF(SO2,v.,0)---00<:SYSNO:> 773 L $$p<:IS::IS::WORDS(2,R)::REP(ISSN,)::KB(/opt2/www/users/uploader/KB/SISU-INIS-issn-journal.kb)::SHAPE:>$$v<:SO2::NUMERO::REP(no.,)::REP(RIGHTP,)::REP(LEFTP,)::SHAPE:>$$n$$y<:SO2::DATE::WORDS(1,L):>$$c<:SO2::PAGES::WORDS(1,R)::REP(COMMA,)::SHAPE:> BA---00<:SYSNO:> BAS L $$a13 SW---00<:SYSNO:> 916 L $$s n $$w <:DATE(%Y%V, 6):> LDR---00<:SYSNO:> LDR L ^^^^^nam^^22^^^^^^a^4500 OWN---00<:SYSNO:> OWN L $$aPUBLIC 980---00<:SYSNO:> 980 L $$aARTICLE

Annexe I

ETUDE D’AUTRES SOURCES

ANALYSE DES SOURCES Source : Thèse En Ligne (TEL) Présentation: Ce serveur a pour objectif de permettre l’archivage et l’auto archivage de thèses de doctorat (principalement), d’habilitation ainsi que de documents relatifs à la soutenance (transparents, enregistrement audio et vidéo). URL : http://tel.ccsd.cnrs.fr/ Producteur : Centre pour la Communication Scientifique Directe (CCSD) et Cellule de Coordination Documentaire Nationale pour les Mathématiques (MathDoc) Domaines couverts : Multidisciplinaires Domaines liés à notre activité :

Mathématiques Sciences Informatiques Physique

Acoustique (20) Astroparticule et cosmologie (72) Astrophysique (69) Hydrodynamique et fluides complexes (60) Interfaces pluridisciplinaires

Physique-biologie (43) Physique-économie (0) Physique-environnement (18)

Matière condensée Couches minces (27) Fluides quantiques (10) Magnétisme (57) Supraconductivité (29) Systèmes électroniques (30)

Matériaux sous irradiation (13) Nanophysique (50) Optique quantique, physique atomique et moléculaire

Lasers et matériaux (26) Molécules (5) Physique des collisions (11)

Physique des particules (132) Physique non-linéaire (34) Physique nucléaire (90) Physique statistique

Matière molle (47) Systèmes désordonnés et/ou hors d'équilibre Surfaces et interfaces (31) Transitions de phase (22)

Physique théorique et mathématique (86) Autres thèmes (46)

Type de document :

- Thèse de Doctorat (1914), - Habilitation (70), - Thèse d’Etat (6), - Rapport de DEA (15). Statistiques : Domaine Novembre 2003 Juin 2004 Cœfficient

Mathématiques 173 366 +2.11 Physiques 744 1153 + 1.55 Sciences Informatiques 96 523 + 5.45

Science de l’Ingénieur 79 260 +3.30 Chimie 28 65 +2.32 Science de l’univers 63 271 +4.30 Biologie et Médecine 38 109 +2.87 Science de l’information et de la communication

- 19 -

Autres 14 26 +1.85 Test 1 4 +4 Sciences de l’homme et de la société 20 54 +2.7

Total 1256 2850 +2.3

Domaine Echantillon Taux de

Présence dans CDS

Total

Physique des particules 30 93.33% 132

Physique tous domaines 50 744

Module de recherche :

- Recherche par champ (simple ou avancée) - Recherche par domaine - Recherche par établissement - Recherche en texte intégral

Données :

- Titre - Auteur - Directeur de Thèse - Date de soutenance

- Lieu de soutenance - Laboratoire de recherche - Résumé en français et anglais - Mots-clefs (pas de Thesaurus) - Domaine - Lien vers le full-text - Numéro d’identification dans la base - Commentaire/ rapporteur

Avantages :

- Utilise le code LaTex. - Recherche par domaine (Sélection des sources les plus pertinentes). - Limitation à certain type de document (Thèse doctorante) grâce au mode de

recherche avancée. - Croissance exponentielle. Source qui tend à devenir la référence pour les

thèses en lignes depuis la disparition de TheseNet et son intégration au catalogue SUDOC

Inconvénients :

- Indexation libre non contrôlée parfois incomplète - Peu de champs sont rendus obligatoires - Mode affichage des résultats orientés utilisateur. Ne permet pas une

récupération complète des données. Chaque notice se trouve sur une page HTML et les pages sont indépendantes les une des autres.

- Pas de possibilité de créer un fichier d’échange de type .txt - Dans les domaines qui nous sont proches la couverture est très bonne, voire

parfois trop !!! Il existe peu de notices pour lesquelles on ne trouve aucune référence dans le CDS. Explications: La distance physique Genève-Lyon, le fait que TEL récupère de nombreuses thèses de la base IN2P3 (pour laquelle une configuration sous l’Uploader a déjà été créée) et enfin le fait que la plupart de ces thèses ont été réalisées en collaboration avec le CERN.

Actions : Base de données en pleine expansion (création 2001). Base qui doit normalement devenir une référence dans le domaine après la disparition de TheseNet. Base de données orientée utilisateur. Difficultés pour acquérir les notices dans leurs versions intégrales. TEL est une base en pleine évolution. Il est encore un peu tôt pour réfléchir à son intégration. C’est une base cependant très intéressante qui nécessite une surveillance particulière. A regarder à nouveau dans 6 mois. Voire si le mode d’affichage des résultats a changé. Leur soumettre une proposition de « Sort » des résultats qui serait orientée beaucoup plus vers l’échange.

ANALYSE DES SOURCES Source : Theses Canada Portal / Portail Thèses Canada Présentation: Ce serveur permet d'effectuer des recherches dans AMICUS, catalo-gue national canadien en ligne, pour y trouver les notices bibliographiques de toutes les thèses de la collection des thèses de la Bibliothèque nationale du Canada, col-lection établie en 1965. Il permet aussi d'accéder sans frais au texte intégral des versions électroniques de thèses et de mémoires canadiens publiés du début de l'année 1998 au 31 août 2002. Les thèses et mémoires électroniques sur ce site sont réservés à l'usage personnel des étudiants, des chercheurs et du grand public. Toute utilisation à des fins commerciales, en vue d'une publication ou à des fins de prêt en bibliothèque est strictement interdite. Nécessite un accord écrit pour exploiter cette source. URL: http://www.collectionscanada.ca/thesescanada/index-f.html Producteur : Bibliothèque et Archives Canada Domaines couverts : Multidisciplinaires Domaines liés à notre activité : Tous domaines

Type de document : Thèse de Doctorat ou Mémoires

Collection : Thèses Canada publie des thèses et des mémoires par l'entremise du fournisseur de service courant, UMI Dissertations Publishing. En 2002, plus de 220 000 thèses et mémoires se retrouvaient dans leur collection. Il y a environ 10 000 de plus qui s'ajoutent annuellement à la collection. Aucun chiffre concernant le nombre de full-text n’est fourni.

Mentions Spéciales : Les thèses électroniques accessibles sur le Portail de Thèses Canada sont celles soumises au programme de Thèses Canada entre 1998 et le 31 août 2002. Elles ont été soumises la plupart en version imprimée au fournisseur de services, ProQuest Information and Learning, qui les a lui-même numérisées. Ces thèses qui sont aujourd’hui en accès libre correspondent à l’ancien contrat qui liait la Bibliothèque et Archives Canada à ProQuest. À la suite de l'échéance du contrat actuel avec ProQuest, le 31 mars 2005, les thèses numérisées du 1e septembre 2002 au 31 mars 2005 seront accessibles sur le Portail. Ce qui est très intéressant. Cf. voir problème des droits.

Module de recherche :

- Recherche simple - Recherche avancée - Interrogation sur les mots du titre, du résumé, du sujet (à définir), sur l’ISBN,

sur le numéro AMISCUS (numéro propre au catalogue national). - Utilisation des opérateurs booléens - Limitation grâce à la date de diplôme ou par langues. - Limitation aux Thèses électroniques

Données :

- Titre - Auteur - Editeur - Collection (par défaut thèses canadiennes) - Lieu de soutenance - Date de soutenance - Résumé en anglais (author) - Sujet/Mots-clefs (Attention !!! pas de Thesaurus) - Lien vers le full-text - Numéro d’identification dans la base AMISCUS

Statistiques :

Equation de Recherche Nombre de résultats

Nombre de full-text

1998 - 31 Août 2002

Taux de présence dans CDS

Tous les mots clés «particle physics» 17 5 Non confirmé

Tous les mots clés «particle» ET «physics» 46 16 Non confirmé

Tous les mots clés «CERN» OU «LEP» 71 58 Non confirmé

Tous les mots clés «nuclear» ET «physics» 31 5 Non confirmé

Tous les mots clés «radiation effects» 14 9 Non confirmé

Tous les mots clés «radiation» ET «effects» 317 109 Non confirmé

Tous les mots clés «Accelerator» 109 22 Non confirmé

Avantages :

- Balisage correct des champs (utile pour l’Uploader). Les notices sont extrai-tes du catalogue national canadien en ligne : AMISCUS. Notices complètes, bonne homogénéité.

- Source de référence. Possibilité de créer des fichiers d’échange type .txt Inconvénients :

- Mode affichage des résultats orientés utilisateur. Ne permet pas une récupération complète des données. Chaque notice se trouve sur une page HTML et les pages sont indépendantes les une des autres.

- Le module de recherche simple ou avancé ne permet pas de définir une équation de recherche complexe. Il empêche à lui seul tout import depuis ce

portail. L’interrogation ne peut se faire que par mot clef et il est impossible d’utiliser les vedettes matières ou le sujet (très peu de documents sont in-dexés à l’aide de ces champs : <2%). Sans oublier qu’il est très lent !!!

- L’accès gratuit au full-text est limité pour l’instant aux dates du 1 Janvier 1998 et du 31 Août 2002

Actions : Source de données très intéressante (le sera encore plus fin mars 2005). Malheureusement le module de recherche (simple ou avancé) ne permet pas ainsi que le display des résultats d’importer ces notices bibliographiques. Ce qui est très problématique, étant donné la qualité de la source. Tullio se renseigne sur la possibilité d’interroger la base par un autre moyen. Dans le cas ou cela serait possible, penser à une équation de recherche proche de celle utilisée par INSPEC.