systèmes documentaires f. kohler. système documentaires pourquoi automatiser ? augmentation de la...

17
Systèmes documentaires F. KOHLER

Upload: remi-morel

Post on 03-Apr-2015

103 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Systèmes documentaires

F. KOHLER

Page 2: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Système documentaires

Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts Diminution du temps disponible pour rechercher

Des Banques de références à l'information INFORMATION RETRIEVAL

Question nuancée, décision incertaine, accès logique (lent) DATA RETRIEVAL

Question directe, décision sûre, accès physique (rapide)

Page 3: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Principes d’un système documentaire La sélection est automatisée complètement Indexation et Requêtes sont guidées (au moins)

Modalités d'utilisation : Profil ("selective dissemination") : être régulièrement

tenu à jour sur un sujet Interrogation ponctuelle (rétrospective) : faire le point

sur un sujet

Document original

Document indexé

Question

Question indexée

LANGAGEIndexation Requête

Sélection

Page 4: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Système documentaires et langage d’indexation

UDC : Universal decimal Classification Un code dans un arbre Créé par l'internatinal bibliographic institute Avantage : Standardisation Inconvénients : Manipulation de grand chiffre

(erreurs)Degré de précision

insuffisantInsertion d'un item

difficile

107

Page 5: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Système documentaires et langage d’indexation

Full text Tout le texte est découpé automatiquement en

chaîne de caractères

Avantage : couvre tout Inconvénient : non intelligent Très utilisé dans l’indexation de l’Internet par les

moteurs de recherche

Page 6: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Système documentaires et langage d’indexations Descripteurs : Mot-Clés

Non pas un code mais un mot du vocabulaire Avantages : standardisation

facile à manipuler bon degré de précision facile si multidisciplinaires

Inconvénient : utiliser ce mot là et lui seul (liste figée) Thésaurus

Non pas un mot mais un langage organisé : notion de synonymes, d'appartenance, de proximité...

Avantages : idem descripteurs synonymes relations (hiérarchie...)

exemple : MeSH (medical subject heading) Méta-thésaurus + réseau sémantique : UMLS (Unified Medical Langage

System) 65 000 concepts, 200 000 termes uniques

Page 7: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Qualité d'un système

Complétude : Description complète du domaine médical

Non ambiguïté : Les termes ne doivent faireréférence qu'à un seul concept.

Non redondance : Chaque concept ne doit pouvoir être exprimé que d'une seule façon.

Existence de synonymes : Ce sont des termes intermédiaire qui font référence à un terme unique

Existence de relation explicites : "est-un", "est cause de ", "associé à", "équivalent à", "est dans", "est avant"...

Page 8: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Critères de pertinence

Taux de rappel : Documents pertinents retrouvés / Documents

existants Silence :

100 - Tx de rappel Précision (relevance) :

Documents pertinents retrouvés / Documents retrouvés /

Bruit : 100 - Précision

Page 9: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Evaluation d'un système

Domaine couvert Période concernée Nature des documents analysés Fréquence des mise à jour Richesse des éléments fournis Langage d'interrogation et disponibilité

Page 10: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Quelques exemples Bases bibliographiques :

National Library of Medicine (Betesda) MEDLINE (Medlars on line) CANCER LINE TOXILINE

Centre National de la Recherche Scientifique PASCAL

Institute for Scientific Information Current contents

Autres sources BIOSIS CHEMABS •••

Banques d'informations Sur les médicaments

BIAM THERIAQUE

Sur la médecine en général ADM

Sur la cancérologie PDQ

Page 11: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

© SPI-EAO Faculté de médecine de Nancy

Accès : On LINE :

Réseau télématique de tous types : réseau privé, réseau publique (transpac), minitel, Internet...

Nombreux serveurs : ESA, QUESTEL ... Off LINE :

Livre : Index Medicus, Current contents CD : MEDLINE, PASCAL... Coût environ 10 000 Fr/an pour 4 CD /an. Interrogation

gratuite si on possède le matériel et le CD. Possibilité à la faculté de médecine :

Bibliothèque

110

Page 12: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Interrogation on line Principes :

Les bases de données bibliographiques Très nombreux prestataires (CNRS-INIST pour PASCAL, EDF pour EDF

DOC, NLM pour MEDLINE, CANCERNET...)

Accessible sur différents serveurs (QUESTEL, IRS...) Connexion à un serveur de base de données bibliographique par différents

moyens : Minitel ou terminal passif Micro-ordinateur - Modem - Réseau téléphonique - Réseau informatique Micro-ordinateur - Réseau informatique (transpac, Internet ...)

En général accès payant => le plus souvent contrat gratuit (donne un login et un pwd) et interrogation payante avec un tarif dépendant du serveur (10 € à 50 € de l'heure pour PASCAL suivant le serveur auquel s'ajoute un tarif par références bibliographiques imprimées.

Langage d'interrogation documentaire spécifique du serveur. Très puissant mais nécessite un apprentissage.

Possibilités de download et de commande des articles

Page 13: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Information Retrieval Service

Service documentaire géré par l'agence spatiale européenne Plus de 150 "bases de données documentaires"

en ligne dont pascal Couvre l'ensemble des domaines : médecine,

agriculture, économie, informatique, banque,chimie,....

Pour chaque base de données : description du domaine couvert, du producteur, du contenu, des points d'accès, du coût....

Page 14: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

Exemple : Fichier Pascal SUBJECT COVERAGE

Physics Chemistry

Life Sciences (Biology, Medicine, Psychology) Applied Sciences and TechnologyInformation Sciences and DocumentationEnergyMetallurgyWelding and BrazingCivil EngineeringBuilding and PublicWorksEarth SciencesBiotechnologyZoology of InvertebratesAgricultural SciencesTropical Medicine

Page 15: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

PascalFILE CATEGORY

Bibliographic file (reference file)FILE DESCRIPTION

PASCAL is a multidisciplinary file covering the core of the world's scientific and technical literature.It is the online version of the print publication "Bibliographie Internationale."Languages: The titles in the PASCAL file are in their original language and are translated into French and/or English. The controlled terms are in French, English, and Spanish. German controlled terms are also provided in the area of metallurgy. Abstracts are in French or English (English especially from 1 990 on).

FILE PRODUCER

INIST (Institut de l'lnformation Scientifique et Technique) CNRS (Centre National de la Recherche Scientifique) 2, Allée du Parc de Brabois 54514 VANDOEUVRE-LES-NANCY Cedex France

Tel.: 03 83 50 46 00 Fax: 03 83 50 46 50

SOURCES

Sources include journal articles (about 92% of the file), theses (mainly French), conference proceedings, technical reports, books, and patents in biotechnology since 1984. The number of joumals scanned regularly is over 8500. Source materials are published in multiple languages: English 70%, French 10%, Russian 9%, Gemman 6%, other languages 5%.

AVAILABILITY ON ESA-IRS

Time Span .... 1984 to presentFile Size .... Approximately 4 700 000 referencesFile Update ..Approximately 40 000 references monthlySearch Language . . . ESA-QUEST, CCL or EasyQuest (menu-driven)Services ..... QUESTALERT available; QUESTORDER available

Page 16: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

PDQ

Banque d'information sur le cancer Permet d'obtenir non seulement des références mais directement les

informations en particulier les protocoles thérapeutiques Exemple :

This information is intended for use by doctors and other health care professionals. If you are a cancer patient, your doctor can explain how it applies to you, or you can call the Cancer Information Service at 1-800-422-6237. CancerNet also contains PDQ information for patients see the CancerNet Contents List for PDQ for more information.

Adult Hodgkin's disease208/00003** PROGNOSIS ** (A separate statement containing information on pregnancy and Hodgkin's diseaseis also available in PDQ.)More than 75% of all newly diagnosed patients with adult Hodgkin's disease arecurable with modern radiation therapy and/or combination chemotherapy regimens. Since the selection of treatment is influenced by the stage, careful clinicaland/or pathologic staging is essential. Treatment planning by amultidisciplinary team of cancer specialists is required to determine optimaltreatment for patients with this disease. National mortality is falling morerapidly for adult Hodgkin's disease than for any other malignancy, largely dueto excellent results achieved with modern radiation therapy and effectivecombination chemotherapy. For patients who have recurrent disease when...

Page 17: Systèmes documentaires F. KOHLER. Système documentaires Pourquoi automatiser ? Augmentation de la quantité d'information Limites floues des champs d'intérêts

© SPI-EAO Faculté de médecine de Nancy

UMLS Développé par la NLM Etablit le lien conceptuel entre le besoin d'une information

exprimé par un utilisateur et différentes sources d'informations comme des base de données bibliographiques, des systèmes de gestion de dossiers médicaux ou des base de connaissances.

Le métathésaurus contient environ 65 000 concepts et plus de 200 000 termes unique. Il regroupe (méta) les termes issus du MeSH de SNOMED, de l'CIM, du DSM, de la CPT, ainsi que les termes utilisé dans PDQ et d'autres base de connaissances

Le réseau sémantique contient les relations existant entre certaines catégories sémantiques : "est identique à" "est une partie de" "peut causer" "forme" "présenté par" ...

Incorporation des termes français par l'INSERM La compatibilité des codifications n'est pas toujours assurée, le

transcodage pose habituellement des problèmes difficiles voire insolubles. La recherche d'une classification largement utilisée dont les révisions sont assurées au fil du temps par un organisme international reconnu doit être la règle.

118