Systèmes documentaires
F. KOHLER
Système documentaires
Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts Diminution du temps disponible pour rechercher
Des Banques de références à l'information INFORMATION RETRIEVAL
Question nuancée, décision incertaine, accès logique (lent) DATA RETRIEVAL
Question directe, décision sûre, accès physique (rapide)
Principes d’un système documentaire La sélection est automatisée complètement Indexation et Requêtes sont guidées (au moins)
Modalités d'utilisation : Profil ("selective dissemination") : être régulièrement
tenu à jour sur un sujet Interrogation ponctuelle (rétrospective) : faire le point
sur un sujet
Document original
Document indexé
Question
Question indexée
LANGAGEIndexation Requête
Sélection
Système documentaires et langage d’indexation
UDC : Universal decimal Classification Un code dans un arbre Créé par l'internatinal bibliographic institute Avantage : Standardisation Inconvénients : Manipulation de grand chiffre
(erreurs)Degré de précision
insuffisantInsertion d'un item
difficile
107
Système documentaires et langage d’indexation
Full text Tout le texte est découpé automatiquement en
chaîne de caractères
Avantage : couvre tout Inconvénient : non intelligent Très utilisé dans l’indexation de l’Internet par les
moteurs de recherche
Système documentaires et langage d’indexations Descripteurs : Mot-Clés
Non pas un code mais un mot du vocabulaire Avantages : standardisation
facile à manipuler bon degré de précision facile si multidisciplinaires
Inconvénient : utiliser ce mot là et lui seul (liste figée) Thésaurus
Non pas un mot mais un langage organisé : notion de synonymes, d'appartenance, de proximité...
Avantages : idem descripteurs synonymes relations (hiérarchie...)
exemple : MeSH (medical subject heading) Méta-thésaurus + réseau sémantique : UMLS (Unified Medical Langage
System) 65 000 concepts, 200 000 termes uniques
Qualité d'un système
Complétude : Description complète du domaine médical
Non ambiguïté : Les termes ne doivent faireréférence qu'à un seul concept.
Non redondance : Chaque concept ne doit pouvoir être exprimé que d'une seule façon.
Existence de synonymes : Ce sont des termes intermédiaire qui font référence à un terme unique
Existence de relation explicites : "est-un", "est cause de ", "associé à", "équivalent à", "est dans", "est avant"...
Critères de pertinence
Taux de rappel : Documents pertinents retrouvés / Documents
existants Silence :
100 - Tx de rappel Précision (relevance) :
Documents pertinents retrouvés / Documents retrouvés /
Bruit : 100 - Précision
Evaluation d'un système
Domaine couvert Période concernée Nature des documents analysés Fréquence des mise à jour Richesse des éléments fournis Langage d'interrogation et disponibilité
Quelques exemples Bases bibliographiques :
National Library of Medicine (Betesda) MEDLINE (Medlars on line) CANCER LINE TOXILINE
Centre National de la Recherche Scientifique PASCAL
Institute for Scientific Information Current contents
Autres sources BIOSIS CHEMABS •••
Banques d'informations Sur les médicaments
BIAM THERIAQUE
Sur la médecine en général ADM
Sur la cancérologie PDQ
© SPI-EAO Faculté de médecine de Nancy
Accès : On LINE :
Réseau télématique de tous types : réseau privé, réseau publique (transpac), minitel, Internet...
Nombreux serveurs : ESA, QUESTEL ... Off LINE :
Livre : Index Medicus, Current contents CD : MEDLINE, PASCAL... Coût environ 10 000 Fr/an pour 4 CD /an. Interrogation
gratuite si on possède le matériel et le CD. Possibilité à la faculté de médecine :
Bibliothèque
110
Interrogation on line Principes :
Les bases de données bibliographiques Très nombreux prestataires (CNRS-INIST pour PASCAL, EDF pour EDF
DOC, NLM pour MEDLINE, CANCERNET...)
Accessible sur différents serveurs (QUESTEL, IRS...) Connexion à un serveur de base de données bibliographique par différents
moyens : Minitel ou terminal passif Micro-ordinateur - Modem - Réseau téléphonique - Réseau informatique Micro-ordinateur - Réseau informatique (transpac, Internet ...)
En général accès payant => le plus souvent contrat gratuit (donne un login et un pwd) et interrogation payante avec un tarif dépendant du serveur (10 € à 50 € de l'heure pour PASCAL suivant le serveur auquel s'ajoute un tarif par références bibliographiques imprimées.
Langage d'interrogation documentaire spécifique du serveur. Très puissant mais nécessite un apprentissage.
Possibilités de download et de commande des articles
Information Retrieval Service
Service documentaire géré par l'agence spatiale européenne Plus de 150 "bases de données documentaires"
en ligne dont pascal Couvre l'ensemble des domaines : médecine,
agriculture, économie, informatique, banque,chimie,....
Pour chaque base de données : description du domaine couvert, du producteur, du contenu, des points d'accès, du coût....
Exemple : Fichier Pascal SUBJECT COVERAGE
Physics Chemistry
Life Sciences (Biology, Medicine, Psychology) Applied Sciences and TechnologyInformation Sciences and DocumentationEnergyMetallurgyWelding and BrazingCivil EngineeringBuilding and PublicWorksEarth SciencesBiotechnologyZoology of InvertebratesAgricultural SciencesTropical Medicine
PascalFILE CATEGORY
Bibliographic file (reference file)FILE DESCRIPTION
PASCAL is a multidisciplinary file covering the core of the world's scientific and technical literature.It is the online version of the print publication "Bibliographie Internationale."Languages: The titles in the PASCAL file are in their original language and are translated into French and/or English. The controlled terms are in French, English, and Spanish. German controlled terms are also provided in the area of metallurgy. Abstracts are in French or English (English especially from 1 990 on).
FILE PRODUCER
INIST (Institut de l'lnformation Scientifique et Technique) CNRS (Centre National de la Recherche Scientifique) 2, Allée du Parc de Brabois 54514 VANDOEUVRE-LES-NANCY Cedex France
Tel.: 03 83 50 46 00 Fax: 03 83 50 46 50
SOURCES
Sources include journal articles (about 92% of the file), theses (mainly French), conference proceedings, technical reports, books, and patents in biotechnology since 1984. The number of joumals scanned regularly is over 8500. Source materials are published in multiple languages: English 70%, French 10%, Russian 9%, Gemman 6%, other languages 5%.
AVAILABILITY ON ESA-IRS
Time Span .... 1984 to presentFile Size .... Approximately 4 700 000 referencesFile Update ..Approximately 40 000 references monthlySearch Language . . . ESA-QUEST, CCL or EasyQuest (menu-driven)Services ..... QUESTALERT available; QUESTORDER available
PDQ
Banque d'information sur le cancer Permet d'obtenir non seulement des références mais directement les
informations en particulier les protocoles thérapeutiques Exemple :
This information is intended for use by doctors and other health care professionals. If you are a cancer patient, your doctor can explain how it applies to you, or you can call the Cancer Information Service at 1-800-422-6237. CancerNet also contains PDQ information for patients see the CancerNet Contents List for PDQ for more information.
Adult Hodgkin's disease208/00003** PROGNOSIS ** (A separate statement containing information on pregnancy and Hodgkin's diseaseis also available in PDQ.)More than 75% of all newly diagnosed patients with adult Hodgkin's disease arecurable with modern radiation therapy and/or combination chemotherapy regimens. Since the selection of treatment is influenced by the stage, careful clinicaland/or pathologic staging is essential. Treatment planning by amultidisciplinary team of cancer specialists is required to determine optimaltreatment for patients with this disease. National mortality is falling morerapidly for adult Hodgkin's disease than for any other malignancy, largely dueto excellent results achieved with modern radiation therapy and effectivecombination chemotherapy. For patients who have recurrent disease when...
© SPI-EAO Faculté de médecine de Nancy
UMLS Développé par la NLM Etablit le lien conceptuel entre le besoin d'une information
exprimé par un utilisateur et différentes sources d'informations comme des base de données bibliographiques, des systèmes de gestion de dossiers médicaux ou des base de connaissances.
Le métathésaurus contient environ 65 000 concepts et plus de 200 000 termes unique. Il regroupe (méta) les termes issus du MeSH de SNOMED, de l'CIM, du DSM, de la CPT, ainsi que les termes utilisé dans PDQ et d'autres base de connaissances
Le réseau sémantique contient les relations existant entre certaines catégories sémantiques : "est identique à" "est une partie de" "peut causer" "forme" "présenté par" ...
Incorporation des termes français par l'INSERM La compatibilité des codifications n'est pas toujours assurée, le
transcodage pose habituellement des problèmes difficiles voire insolubles. La recherche d'une classification largement utilisée dont les révisions sont assurées au fil du temps par un organisme international reconnu doit être la règle.
118