de l’imprimé vers l’électronique : réflexions et solutions

13
Tous droits réservés © Association pour l'avancement des sciences et des techniques de la documentation (ASTED), 1999 Ce document est protégé par la loi sur le droit d’auteur. L’utilisation des services d’Érudit (y compris la reproduction) est assujettie à sa politique d’utilisation que vous pouvez consulter en ligne. https://apropos.erudit.org/fr/usagers/politique-dutilisation/ Cet article est diffusé et préservé par Érudit. Érudit est un consortium interuniversitaire sans but lucratif composé de l’Université de Montréal, l’Université Laval et l’Université du Québec à Montréal. Il a pour mission la promotion et la valorisation de la recherche. https://www.erudit.org/fr/ Document généré le 21 juin 2022 06:30 Documentation et bibliothèques De l’imprimé vers l’électronique : réflexions et solutions techniques pour une édition savante en transition From Print to Electronic: Thoughts and Solutions for Scholarly Publishing in Transition Del texto impreso al texto electrónico: reflexiones y soluciones técnicas para una edición académica en transición Marie-Hélène Vézina et Martin Sévigny Édition électronique Volume 45, numéro 4, octobre–décembre 1999 URI : https://id.erudit.org/iderudit/1032719ar DOI : https://doi.org/10.7202/1032719ar Aller au sommaire du numéro Éditeur(s) Association pour l'avancement des sciences et des techniques de la documentation (ASTED) ISSN 0315-2340 (imprimé) 2291-8949 (numérique) Découvrir la revue Citer cet article Vézina, M.-H. & Sévigny, M. (1999). De l’imprimé vers l’électronique : réflexions et solutions techniques pour une édition savante en transition. Documentation et bibliothèques, 45(4), 161–172. https://doi.org/10.7202/1032719ar Résumé de l'article Les acteurs intermédiaires de la chaîne documentaire, soit les éditeurs et bibliothécaires, sont de plus en plus impliqués dans des projets de diffusion électronique d’information. En même temps, ils doivent continuer à répondre à la demande de supports imprimés. Les différentes approches pour assurer cette coexistence se résument aux trois scénarios suivants : produire la forme imprimée pour en dériver par la suite des versions électroniques; produire parallèlement les deux formes; ou enfin, produire les deux formes à partir d’un document source unique contenant toute information sémantique requise pour ces deux opérations. Cet article étudie les principaux avantages de cette troisième approche et en présente une application dans le cadre d’un projet pilote de revues savantes aux Presses de l’Université de Montréal. Les auteurs abordent les questions entourant le choix des formats de diffusion et d’archivage. Le format SGML a été retenu pour ses qualités d’intégration, sa pérennité et la richesse sémantique qu’il peut exprimer. Érudit, le projet pilote présenté en détail ici, a consisté à développer une chaîne de traitement fortement automatisée basée sur le SGML, lequel format sera bientôt remplacé par le format XML. Du format SGML sont produits automatiquement des versions HTML, format standard de diffusion sur le Web, ainsi que des formats d’impression, soit PostScript et PDF, respectivement destinés à l’impression de la publication papier et l’impression à distance.

Upload: others

Post on 21-Jun-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: De l’imprimé vers l’électronique : réflexions et solutions

Tous droits reacuteserveacutes copy Association pour lavancement des sciences et destechniques de la documentation (ASTED) 1999

Ce document est proteacutegeacute par la loi sur le droit drsquoauteur Lrsquoutilisation desservices drsquoEacuterudit (y compris la reproduction) est assujettie agrave sa politiquedrsquoutilisation que vous pouvez consulter en lignehttpsaproposeruditorgfrusagerspolitique-dutilisation

Cet article est diffuseacute et preacuteserveacute par EacuteruditEacuterudit est un consortium interuniversitaire sans but lucratif composeacute delrsquoUniversiteacute de Montreacuteal lrsquoUniversiteacute Laval et lrsquoUniversiteacute du Queacutebec agraveMontreacuteal Il a pour mission la promotion et la valorisation de la recherchehttpswwweruditorgfr

Document geacuteneacutereacute le 21 juin 2022 0630

Documentation et bibliothegraveques

De lrsquoimprimeacute vers lrsquoeacutelectronique reacuteflexions et solutionstechniques pour une eacutedition savante en transitionFrom Print to Electronic Thoughts and Solutions for ScholarlyPublishing in TransitionDel texto impreso al texto electroacutenico reflexiones y solucionesteacutecnicas para una edicioacuten acadeacutemica en transicioacutenMarie-Heacutelegravene Veacutezina et Martin Seacutevigny

Eacutedition eacutelectroniqueVolume 45 numeacutero 4 octobrendashdeacutecembre 1999

URI httpsideruditorgiderudit1032719arDOI httpsdoiorg1072021032719ar

Aller au sommaire du numeacutero

Eacutediteur(s)Association pour lavancement des sciences et des techniques de ladocumentation (ASTED)

ISSN0315-2340 (imprimeacute)2291-8949 (numeacuterique)

Deacutecouvrir la revue

Citer cet articleVeacutezina M-H amp Seacutevigny M (1999) De lrsquoimprimeacute vers lrsquoeacutelectronique reacuteflexionset solutions techniques pour une eacutedition savante en transition Documentationet bibliothegraveques 45(4) 161ndash172 httpsdoiorg1072021032719ar

Reacutesumeacute de larticleLes acteurs intermeacutediaires de la chaicircne documentaire soit les eacutediteurs etbibliotheacutecaires sont de plus en plus impliqueacutes dans des projets de diffusioneacutelectronique drsquoinformation En mecircme temps ils doivent continuer agrave reacutepondreagrave la demande de supports imprimeacutes Les diffeacuterentes approches pour assurercette coexistence se reacutesument aux trois sceacutenarios suivants produire la formeimprimeacutee pour en deacuteriver par la suite des versions eacutelectroniques produireparallegravelement les deux formes ou enfin produire les deux formes agrave partir drsquoundocument source unique contenant toute information seacutemantique requisepour ces deux opeacuterations Cet article eacutetudie les principaux avantages de cettetroisiegraveme approche et en preacutesente une application dans le cadre drsquoun projetpilote de revues savantes aux Presses de lrsquoUniversiteacute de Montreacuteal Les auteursabordent les questions entourant le choix des formats de diffusion etdrsquoarchivage Le format SGML a eacuteteacute retenu pour ses qualiteacutes drsquointeacutegration sapeacuterenniteacute et la richesse seacutemantique qursquoil peut exprimer Eacuterudit le projet pilotepreacutesenteacute en deacutetail ici a consisteacute agrave deacutevelopper une chaicircne de traitementfortement automatiseacutee baseacutee sur le SGML lequel format sera bientocirct remplaceacutepar le format XML Du format SGML sont produits automatiquement desversions HTML format standard de diffusion sur le Web ainsi que des formatsdrsquoimpression soit PostScript et PDF respectivement destineacutes agrave lrsquoimpression dela publication papier et lrsquoimpression agrave distance

Documentation et bibliothegraveques

De limprimeacute vers leacutelectronique reacuteflexions et solutions techniques pour une eacutedition savante en transition

Marie-Heacutelegravene Veacutezina Chargeacutee deacute projet - Eacutedition eacutelectronique Presses de lUniversiteacute de Montreacuteal marie-helenevezinaumontrealca Martin Seacutevigny Chargeacute de projet mdash Eacutedition eacutelectronique Presses de lUniversiteacute de Montreacuteal sevignyajlsmcom

Les acteurs intermeacutediaires de la chaicircne documentaire soit les eacutediteurs et bibliotheacutecaires sont de plus en plus impliqueacutes dans des projets de diffusion eacutelectronique dinformation En mecircme temps ils doivent continuera reacutepondre agrave la demande de supports imprimeacutes Les diffeacuteshyrentes approches pour assurer cette coexistence se reacutesument aux trois sceacutenarios suivants produire la forme imprimeacutee pour en deacuteriver par la suite des versions eacutelectroniques produire parallegravelement les deux formes ou enfin produire les deux formes agrave partir dun docushyment source unique contenant toute information seacutemantique requise pour ces deux opeacuterations Cet article eacutetudie les principaux avantashyges de cette troisiegraveme approche et en preacutesente une application dans le cadre dun projet pilote de revues savantes aux Presses de lUnishyversiteacute de Montreacuteal Les auteurs abordent les questions entourant le choix des formats de diffusion et darchivage Le format SGML a eacuteteacute retenu pour ses qualiteacutes dinteacutegration sa peacuterenniteacute et la richesse seacutemantique quil peut exprimer Eacuterudit le projet pilote preacutesenteacute en deacutetail ici a consisteacute agrave deacutevelopper une chaicircne de traitement fortement automatiseacutee baseacutee sur le SGML lequel format sera bientocirct remplaceacute par le format XML Du format SGML sont produits automatiquement des versions HTML format standard de diffusion sur le Web ainsi que des formats dimpression soit PostScript et PDF respectivement destineacutes agrave limpression de la publication papier et limpression agrave disshytance

From Print to Electronic Thoughts and Solutions for Scholar-ly Publishing in Transition Publishers and librarians the intermediaries in the document chain are increasingly involved in the electronic dissemination of information projects At the same time they continue to meet the readers need for printed material The different approaches used to insure this co-habitation can be summarised as follows (1) proshyduce the printed copy then generate electronic versions (2) proshyduce both formats at the same time and (3) produce both formats using a single source document containing all the semantic inforshymation required for both operations This article discusses the main advantages of the third option and describes an application developed in pilot project of scholarly journals at the Presses de lUniversiteacute de Montreacuteal The authors discuss the choice of disseshymination formats and storage The SGML format was chosen beshycause of its ability to integrate its durability and the semantic richshyness it expresses The pilot project (Eacuterudit) described in this article consists in developing a highly automated chain of operations using SGML a format that will soon be replaced by the XML forshymat The SGML format will automatically generate the HTML vershysions a format widely used on the Web as well as the print forshymats such as PostScript and PDF used respectively for printing on paper and printing from a distance

Del texto impreso al texto electronico reflexiones y solucio-nes teacutecnicas para una ediciocircn acadeacutemica en transicion Los intermediaries de la cadena documental es deck los editores y los bibliotecarios se ven cada vez mas envueltos en proyectos de difusiocircn electrocircnica de informaciocircn Al mismo tiempo deben se-guir respondiendo a la demanda de lectores de materiales impre-sos Los diferehtes enfoques para asegurar esta coexistencia se resumen en las tregraves situaciones siguientes producir material imshypreso para derivar del mismo versiones electrocircnicas producir pa-ralelamente los dos formatos o finalmente producir los dos for-matos a partir de un documento original ucircnico con toda la informashyciocircn semacircntica necesaria para estas dos operaciones Este artfeu-lo trata las principales ventajas relacionadas con el tercer enfoque y preacutesenta una aplicaciocircn del mismo dentro del marco de un proyeeto piloto de revistas acadeacutemicas en la Editorial de la Univer-sidad de Montreal Los autores abordan asuntos relacionados con la elecciocircn de formatos de difusiocircn y archivado Se eligiocirc el for-maio SGML porsus cualidades de integraciocircn perennidad y rique-za semacircntica que puede expresar El proyeeto piloto (Eacuterudit) pre-sentado en detalle consistiocirc en elaboraruna cadena de tratamien-to altamente automatizada y basada en SGML que se reempla-zaracirc muy pronto por el formato XML A partir del formato SGML se producen automacircticamente versiones en HTML formato cor-riente de difusiocircn en la Web asfeomo los formatos de impresiocircn como PostScript y PDF destinados respectivamente a la impreshysiocircn convenciohal y teleimpresiocircn

octobre-deacutecembre 1999 161

Documentation et bibliothegraveques

De nombreux laquosystegravemes dinformashytion raquo sont mis en place dans le but datshyteindre un objectif en apparence assez simple favoriser la circulation de linformashytion depuis les creacuteateurs de celle-ci (les aushyteurs) jusquaux consommateurs (les lecshyteurs) afin que ces derniers puissent en profiter et satisfaire leurs besoins en inforshymation Ces systegravemes que lon a chercheacute depuis le deacutebut agrave rendre de plus en plus efshyficaces sont agrave la fois baseacutes sur des intershyventions humaines et des technologies Aujourdhui ce sont les reacuteseaux informashytiques pour ne pas dire Internet qui semblent dicter la voie agrave suivre en matiegravere de systegravemes dinformation

Bien entendu tous les acteurs doivent sadapter agrave ces nouvelles pratiques et ces nouveaux outils Parmi ces acteurs on reshytrouve les bibliothegraveques et les eacutediteurs (Odlyzko 1999) intervenants qui se sishytuent habituellement au centre du sysshytegraveme dinformation quelque part entre les producteurs et les consommateurs Ils doishyvent entre autres choisir assembler reacutepershytorier diffuser conserver linformation et pour ce faire ils doivent utiliser les systegraveshymes - toujours technologiques et humains - les plus efficaces possibles

Dans cet article nous preacutesentons comment un eacutediteur en particulier un eacutedishyteur de revues savantes peut sy prendre pour exploiter les nouvelles technologies et ainsi rendre de meilleurs services aux bibliothegraveques et aux lecteurs tout en conservant des coucircts de production suffishysamment bas pour demeurer compeacutetitif Dans une premiegravere partie nous preacutesenteshyrons briegravevement diffeacuterents modegraveles deacutedishytion eacutelectronique et les eacuteleacutements agrave consideacuteshyrer pour les eacutevaluer Dans la seconde partie nous deacutecrirons une application reacuteelle de lun de ces modegraveles issue des travaux en eacutedition eacutelectronique reacutealiseacutes dans le cadre du projet Eacuterudit1 aux Presses de lUniversiteacute de Montreacuteal (Bois-menu et al 1999)

Cette application et par le fait mecircme cet article ne preacutetendent pas reacutesoudre tous les problegravemes ni explorer tous les enjeux reshylieacutes agrave leacutedition eacutelectronique En fait le projet fut reacutealiseacute dans un contexte particulier quil est neacutecessaire de rappeler ici Le but du proshyjet eacutetait de mettre en place un centre de sershyvice pour leacutedition eacutelectronique de revues sashyvantes queacutebeacutecoises Les services sont ofshyferts agrave tous les eacutediteurs inteacuteresseacutes de pushyblier leurs revues agrave la fols en format electro-nique et en format Imprimeacute

Ce centre de service joue donc un rocircle tregraves important dans le contexte actuel de leacutedition savante En effet la plupart des eacutediteurs ou des comiteacutes de reacutedaction de revues savantes expriment le souhait quelles soient diffuseacutees sur Internet tout en conservant des versions imprimeacutees Bien que lobjectif ici ne soit pas de preacutesenshyter les avantages et inconveacutenients des forshymats eacutelectronique et imprimeacute rappelons que la plupart des intervenants de la chaicircne documentaire (auteurs eacutediteurs bishybliotheacutecaires et lecteurs) sentendent sur les points suivants 1) le format imprimeacute est encore utile 2) le format eacutelectronique est maintenant essentiel 3) de nouveaux laquoservices aux utilisateursraquo doivent ecirctre proposeacutes agrave partir du format eacutelectronique 4) offrir une version imprimeacutee sera imporshytant pour une peacuteriode inconnue de faccedilon geacuteneacuterale mais probablement encore asshysez longue sinon eacuteternelle

Un eacutediteur deacutesirant tenir compte de ces conclusions fait donc face agrave un double deacutefi offrir aux lecteurs des produits eacutelecshytroniques novateurs et utiles tout en mainshytenant une version imprimeacutee de bonne qualiteacute Inutile de preacuteciser que les coucircts de production doivent ecirctre maintenus agrave des nishyveaux tregraves bas surtout dans le domaine de leacutedition savante en sciences humaines et sociales

Ce contexte est situeacute au cœur des reacuteshyflexions applications et conclusions conteshynues dans cet article En effet nous chershychons dabord et avant tout agrave proposer des solutions pour une peacuteriode de transition ougrave les versions eacutelectroniques et imprishymeacutees de revues savantes se cocirctoient et se complegravetent Bien sucircr plusieurs eacuteleacutements discuteacutes sappliquent agrave dautres contexshytes par exemple pour dautres types de doshycument ou encore pour des publications purement eacutelectroniques Toutefois nous naborderons pas ici ces derniers cas de fishygure

Modegraveles techniques de publication

Au cours des derniegraveres anneacutees les reacuteshyseaux et en particulier Internet nous ont permis de reacutealiser de nombreux projets de laquodiffusion eacutelectronique dinformationraquo cest-agrave-dire dutilisation du support eacutelectroshynique pour la production et surtout la diffushysion dinformation Plusieurs techniques nous permettent dy arriver et presque toushy

tes ont comme point commun lutilisation des formats de documents populariseacutes par Internet soit HTML2 et PDF3 Ces inishytiatives ont eu pour effet de constituer un immense reacuteservoir dinformation en format eacutelectronique soit le World Wide Web reacuteshyservoir inteacuteressant mais difficile agrave exploishyter Les eacutediteurs pour qui la diffusion dinshyformation na plus de secrets depuis fort longtemps se sont bien entendu lanceacutes dans cette grande aventure la plupart emshybrassant les techniques habituelles proshyduction et diffusion de HTML sur le Web ou encore production de documents PDF agrave partir de leur chaicircne de traitement tradishytionnelle et diffusion de ces documents sur le Web

Mais ces techniques sont-elles suffishysantes pour assurer une eacutedition de qualiteacute en particulier dans le monde de leacutedition sashyvante Les prochaines sections sont consacreacutees agrave cette question et passent en revue certains critegraveres importants en plus dexpliquer les diffeacuterentes techniques utilishyseacutees pour chaque aspect de leacutedition scienshytifique

Moyens de production

Au cours des 20 ou 30 derniegraveres anneacutees les eacutediteurs ont su profiter des deacuteshyveloppements technologiques dans le domaine de linformatique Ils ont utiliseacute linformatique dans la chaicircne de producshytion agrave laide des techniques de publication assisteacutee par ordinateur (PAO) que ce soit au moyen de logiciels de traitement de texte de graphisme ou de mise en page Dailleurs lagrave plupart des eacutediteurs fonctionshynent toujours avec ces moyens de producshytion Cette inteacutegration des technologies nest toutefois pas complegravete ni ideacuteale Ainshysi les derniers deacutetails de limpression sont tregraves souvent ajusteacutes de maniegravere non inforshymatique par exemple le traitement de cershytaines images en proceacutedeacute photo le monshytage de diffeacuterents fichiers en un document

1 Pour en savoir plus sur le projet Eacuterudit et pour consulter le rapport complet sur le projet voir ltUBJL http www eacuterudit orggt

2 Hypertext Markup Language norme du World Wide Web Consortium Voir ltURL httpwwww3org MarkUpgt

3 Le format PDF (Portable Document Format) est un format de document eacutelectronique deacuteveloppeacute par la compagnie Adobe Un document PDF conserve lalshylure originale de la forme imprimeacutee du document (textes graphiques couleurs) peu importe la plateshyforme utiliseacutee

162 octobre-deacutecembre 1999

Documentation et bibliothegraveques

continu ou lajout de pages disparates (enshycarts annexes) De plus mecircme si ces chaicircnes de traitement utilisent massiveshyment linformatique leur finaliteacute est de proshyduire des documents imprimeacutes et non des documents eacutelectroniques

Nous pouvons tirer de ces meacutethodes deux conclusions en apparence contradicshytoires presque tous les documents imprishymeacutes mecircme ceux produits de faccedilon tradishytionnelle existent sous une forme eacutelectroshynique quelconque mais pour plusieurs documents imprimeacutes nous navons pas de version finale et deacutefinitive en format eacutelectronique Par conseacutequent mecircme si en apparence les outils de PAO nous pershymettent de faire un pas vers de la veacuteritable eacutedition eacutelectronique des ajustements doivent ecirctre faits afin dobtenir un docushyment eacutelectronique qui soit fidegravele agrave la vershysion imprimeacutee quant au contenu Cette utilishysation de la PAO nest donc pas suffisante pour obtenir un document eacutelectronique de qualiteacute et pour assurer la diffusion ainsi que la conservation sur support eacutelectroshynique Cette approche est donc nettement insuffisante ce qui demande aux eacutediteurs de remettre en question non seulement leurs faccedilons de diffuser et de conserver leur information mais eacutegalement de la proshyduire

Cette courte reacuteflexion sur les meacutethoshydes actuelles nous amegravene agrave identifier trois grands sceacutenarios pour la production de doshycuments eacutelectroniques dans le monde de leacutedition

m La forme eacutelectronique en aval de la forme imprimeacutee Conserver les technishyques de PAO traditionnelles et agrave partir des reacutesultats de celles-ci creacuteer des vershysions eacutelectroniques des documents

s Les chaicircnes parallegraveles Continuer agrave travailler avec les outils de PAO pour les versions imprimeacutees mais laquo remonterraquo agrave la source (par exemple des documents de traitement de texte produits par les auteurs) pour creacuteer des versions eacutelectroshyniques

bull Un seul document source et des produits deacuteriveacutes Produire dabord un doshycument riche et par la suite deacuteriver des produits dinformation y compris lutilisashytion de la PAO pour des versions imprishymeacutees

La premiegravere approche souffre de deux lacunes importantes Dabord elle ajoute des eacutetapes agrave la chaicircne de traiteshyment ce qui la rend neacutecessairement plus coucircteuse que le modegravele traditionnel ougrave

limprimeacute constituait lunique produit De plus puisque la chaicircne de traitement est dabord et avant tout orienteacutee vers limprishymeacute il sera difficile dexploiter les possibilishyteacutes des documents eacutelectroniques

La deuxiegraveme approche permet peut-ecirctre dexploiter les possibiliteacutes des documents eacutelectroniques mais encore une fois elle vient ajouter des eacutetapes agrave la chaicircne de traitement ce qui la rend neacutecesshysairement plus coucircteuse De plus une autre difficulteacute sajoute car le fait de meshyner deux chaicircnes de traitement en paralshylegravele rend les eacutetapes de correction plus diffishyciles et les possibiliteacutes derreurs plus proshybables

La troisiegraveme approche peut saveacuterer inteacuteressante et surtout efficace puisshyquune seule chaicircne de traitement est utishyliseacutee et quil ny a donc pas de reacutepeacutetition de linformation De plus elle peut utiliser toute la puissance des outils de PAO pour produire des versions imprimeacutees des docushyments si neacutecessaire Mais cette approche est possible seulement si on arrive agrave proshyduire ce document riche agrave partir duquel les autres formats seront deacuteriveacutes Ces proshyduits deacuteriveacutes pourraient ecirctre par exemple une version imprimeacutee et relieacutee un docushyment HTML sur le Web une version somshymaire de larticle (titre auteurs reacutesumeacute) envoyeacutee par courrier eacutelectronique agrave une liste de diffusion etc

Pour arriver agrave implanter un tel modegravele de traitement et de production il est neacutecesshysaire dutiliser une technologie qui permet de creacuteer des documents suffisamment rishyches pour repreacutesenter toutes les informashytions neacutecessaires aux traitements agrave effecshytuer immeacutediatement ou dans les anneacutees agrave venir Heureusement une telle technoshylogie existe et il sagit de la norme SGML (Standard Generalized Markup Lan-guage ISO 8879) et de sa cousine XML (Extensible Markup Language recommanshydation du World Wide Web Consortium4) Ces normes permettent de creacuteer des docushyments structureacutes cest-agrave-dire des docushyments (neacutecessairement eacutelectroniques) qui contiennent de linformation agrave propos de leur contenu et de leur structure plutocirct que des informations de formatage en fonction dun contexte particulier Par exemple pour un article scientifique un document structureacute contiendra de linforshymation sur la signification de ses diffeacuterenshytes parties par exemple un titre un chashypitre un auteur une reacutefeacuterence bibliograshyphique etc

Agrave partir de ce document structureacute il est possible de deacuteriver diffeacuterents produits car ceux-ci contiennent moins dinformashytion que le document structureacute ou encore ils contiennent des renseignements plus deacutetailleacutees mais faciles agrave deacuteduire Par exemple il est facile de convertir une inforshymation telle que laquoceci est un titre de section raquo en une seacuterie dinstructions de forshymatage telles que laquo mettre en caractegraveres gras 12 points police Arial espace de 12 points avant le paragrapheraquo Il faut noter et cest important que linverse nest pas vrai les instructions de formashytage peuvent difficilement ecirctre converties en informations sur la structure sauf si elles sont tregraves exclusives et surtout tregraves coshyheacuterentes agrave linteacuterieur du document Il se peut eacutegalement que certains composants naffichent aucun attribut de formatage particulier mais quil existe des besoins ougrave cette information doive ecirctre distingueacutee par exemple le nom de lorganisme dapshypartenance dun auteur dans le cas ougrave on deacutesirerait recycler cette information pour linclure dans un carnet dadresses ou une liste deacutetiquettes postales

Ce dernier modegravele de production censhytreacute sur lexploitation du document structushyreacute est fondamentalement diffeacuterent du moshydegravele de la PAO traditionnelle en ce quil nous permet de consideacuterer les diffeacuterents supports ou formats de diffusion ainsi que les diffeacuterents formats de conservation comme eacutetant des produits deacuteriveacutes agrave partir dune mecircme source Cette deacuterivation est en geacuteneacuteral assez aiseacutee et surtout elle peut ecirctre automatiseacutee

Dans le cadre du projet Eacuterudit nous avons implanteacute une chaicircne de traitement baseacutee sur une telle approche dont la meacuteshythodologie sera deacutecrite en deacutetails dans la deuxiegraveme partie de cet article

Formats de diffusion et de conservation

Tout document eacutelectronique sera reshypreacutesenteacute par un fichier informatique mais le contenu exact de ce fichier sera deacutetermishyneacute par le format utiliseacute pour repreacutesenter linformation Tregraves souvent les formats de documents sont associeacutes agrave lapplication qui produit le document par exemple les

4 Voir lthttp w w w3orgTR1998REC-xml-19980210gt

octobre-deacutecembre 1999 163

Documentation et bibliothegraveques

formats Excel ou WordPerfect (pour une discussion exhaustive sur la question des formats de documents eacutelectroniques voir Marcoux 1994)

La question des formats est probableshyment la plus importante dans un contexte deacutedition savante eacutelectronique Elle a des impacts majeurs sur la production la diffushysion ainsi que la conservation des docushyments

Conservation

Puisque les documents eacutelectroniques doivent ecirctre stockeacutes dans un format donshyneacute il est neacutecessaire de sinterroger sur les critegraveres agrave utiliser dans le choix dun format de document eacutelectronique en ayant pour objectif la conservation agrave long terme (voir une discussion inteacuteressante agrave ce sujet dans Bullock 1999)

Dabord il faut que le format soit cashypable de repreacutesenter correctement linforshymation contenue dans le document Par exemple sil y a du texte et des images il est neacutecessaire dutiliser un format qui pershymette dinteacutegrer agrave la fois des informations textuelles et graphiques De nos jours ce nest plus un veacuteritable problegraveme car la plushypart des formats de document permettent dinteacutegrer diffeacuterents types dinformation et sont agrave proprement parler des formats de documents laquo multimeacutedias raquo

Nous voulons eacutegalement un format qui puisse ecirctre laquo lu raquo par une application et ce aussi longtemps que nous le souhaishytons Cest agrave ce stade-ci que les difficulteacutes se preacutesentent habituellement les convershysions dun format agrave lautre (par exemple PashygeMakers Word) ou encore dune version agrave lautre dun mecircme format (par exemple WordPerfect 50 agrave WordPerfect 8) ne sont pas une solution agrave ce problegraveme puisque plus souvent quautrement il y a des pershytes dinformation des changements dans la preacutesentation et dautres manifestations indeacutesirables

Heureusement il existe une faccedilon inshyteacuteressante et eacuteprouveacutee de contourner ce problegraveme Il sagit dutiliser agrave la fois un forshymat de repreacutesentation de linformation tregraves simple et tregraves universel et dutiliser une technique qui rende ces documents laquolisishybles par lhumain raquo Un document structureacute repreacutesenteacute agrave laide de XML est un bel exemple dun tel document

En effet on peut repreacutesenter un docushyment XML agrave laide de caractegraveres faisant partie du jeu de caractegraveres ASCII Concregraveshy

tement le fichier produit sera un pur fichier ASCII5 soit le type de fichiers le plus unishyversel que lon trouve dans le monde inforshymatique Il y a de fortes chances quil exisshytera encore des plates-formes informashytiques et des applications qui nous permetshytront de laquo voir raquo un fichier ASCII et ce pour encore une tregraves longue peacuteriode De plus un document structureacute utilisant XML contient de l information du genre laquolttitregtlntroductionlttitregtraquo Mecircme sans application particuliegravere mecircme sans connaissances informatiques ou de XML il est assez facile de simaginer que le mot laquo Introduction raquo constitue ici un titre et non le nom dun auteur

Diffusion

Les formats de diffusion de docushyments eacutelectroniques sont multiples et vashyrieacutes Toutefois il y a preacutesentement une asshysez forte convergence vers deux formats associeacutes au Web HTML et PDF (voir agrave ce sujet Lieb 1999) Le format PDF est partishyculiegraverement bien adapteacute pour la repreacutesenshytation exacte de documents imprimeacutes dans un format facilement diffusible sur le Web car le logiciel pour consulter les docushyments PDF est gratuit disponible en plushysieurs langues et bien connu des utilisashyteurs De plus il est facile de produire des documents PDF agrave partir de nimporte quelle application informatique Il est donc tout agrave fait naturel dutiliser ce format agrave des fins dimpression agrave distance et sur deshymande ce qui reacutepond agrave de nombreux beshysoins pour leacutedition savante qui a souvent de faibles tirages ou encore parce que les usagers nont besoin que dune partie des documents (un article plutocirct quun numeacutero dune revue par exemple)

Lautre format de convergence est eacutevishydemment le format HTML neacute avec le Web et populariseacute avec leacutevolution de ce reacuteshyseau Presque toutes les applications doshycumentaires peuvent maintenant lire ou produire des documents HTML Lorsquon associe HTML avec le langage JavaScript et les feuilles de style CSS6 et quon obshytient ainsi du Dynamic HTML (DHTML) il est possible de creacuteer de veacuteritables interfashyces de consultation et non de simples doshycuments eacutelectroniques (Dugand-Saenz et Verdret 1998) HTML est donc un excellent format de diffusion mais malheureuseshyment trop pauvre pour la gestion ou la proshyduction de documents De plus pour proshyduire un document HTML de qualiteacute cest-

agrave-dire une interface de qualiteacute on doit trashyvailler agrave partir dune source dinformation tregraves riche sinon le travail devra ecirctre fait agrave la main et sera fastidieux

Ces deux remarques nous amegravenent agrave conclure que le format HTML savegravere un format de diffusion agrave privileacutegier en autant que lon utilise un autre format de gestion et que lon puisse produire facilement des documents HTML de qualiteacute Ajoutons que les formats de PAO ne remplissent ni lune ni lautre de ces conditions mais que les normes SGML et XML elles satisfont ces besoins

Format de production ou de gestion

Au moment de la production de linforshymation nous devons travailler avec un forshymat qui nous permette datteindre tous les objectifs fixeacutes dans les sections preacuteceacutedenshytes et ce de faccedilon efficace En reacutesumeacute nous recherchons un format dencodage de linformation qui nous permette de reacuteshypondre agrave nos besoins soit

laquo manipuler aiseacutement les documents pour effectuer toutes les activiteacutes de proshyduction (gestion workflow diffusion etc)

bull permettre lexploitation de toutes les possibiliteacutes quoffrent les documents eacutelectroniques (multimeacutedia hypertexte geacuteshyneacuteration dynamique de contenu reshycherche plein texte donneacutees compleacutemenshytairessuppleacutementaires etc)

bull produire des documents eacutelectronishyques dans dautres formats (par exemple HTML) et ce en exploitant toutes les posshysibiliteacutes de ces formats

bull permettre la diffusion sur diffeacuterents supports (ceacutedeacuterom DVD reacuteseaux etc) y compris le support imprimeacute agrave laide dapplishycations de PAO

bull conserver agrave long terme et dans des conditions optimales linformation et sa structure afin den assurer la peacuterenniteacute

Les documents structureacutes constituent la meilleure faccedilon de reacutepondre efficaceshyment agrave lensemble de ces critegraveres Agrave lopposhyseacute les formats associeacutes agrave la PAO noffrent pas la mecircme polyvalence ni la mecircme puisshysance car ils contiennent de linformation en fonction dun seul et unique support

5 Techniquement les documents XML sont stockeacutes en Unicode mais on peut les reacuteduire agrave du simple ASCII sans perte dinformation

6 Cascading style sheet voir lthttpwwww3org Stylecssgt

164 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Exploitation du format eacutelectronique

Passer de limprimeacute agrave leacutelectronique constitue un changement qui va bien au-delagrave du mode de diffusion dune revue sashyvante Les formats eacutelectroniques permetshytent en effet de repreacutesenter plusieurs tyshypes dinformation que lon ne peut retroushyver dans un document imprimeacute Une revue en transition vers leacutelectronique inteacutegrera peu agrave peu ces types dinformation et son eacutediteur devra mettre en place les outils neacuteshycessaires pour y arriver

^information statique est la plus eacutevishydente mais aussi la seule qui peut ecirctre veacuteshyritablement repreacutesenteacutee sur une feuille de papier Il sagit de textes ou dimages qui une fois laquo imprimeacutes raquo ou laquo stockeacutes raquo dans le document ne changeront pas La plupart des documents existants ne contiennent que de linformation statique car ils ont eacuteteacute produits dabord et avant tout pouf un support qui ne permet que ce genre dinforshymation soit limprimeacute

Linformation dynamique est celle qui laquo bouge raquo qui sanime Ces animations ne sont pas controcircleacutees par les utilisateurs (ou si peu) mais plutocirct par les producteurs de linformation Le meilleur exemple est la videacuteo ou les images en mouvement La plushypart du temps linteraction de lutilisateur se limite agrave des fonctions telles que laquomarche avantraquo ou laquoarriegravereraquo laquopauseraquo laquoarrecirctraquo etc Les seacutequences sonores font eacutegalement partie de ces informations dyshynamiques

Linformation interactive est celle qui peut prendre diffeacuterentes formes ou vashyleurs en fonction du deacutesir de lutilisateur Elle se distingue de linformation dynashymique par limportance quelle accorde au controcircle par lutilisateur Par exemple la sishymulation dune moleacutecule en trois dimenshysions avec la possibiliteacute pour lutilisateur de manipuler la moleacutecule dans tous les sens pour la voir sous tous ses aspects constitue de linformation fortement intershyactive Un autre exemple consiste en la pushyblication dun algorithme auquel lutilisashyteur peut fournir des valeurs de deacutepart et veacuterifier les reacutesultats et ce de faccedilon instanshytaneacutee ou presque Cela peut aller dune simple calculatrice dinteacuterecircts composeacutes agrave la simulation de la puissance dun moteur

Linformaticircon active permet aux utilishysateurs dagir sur le contenu du document ou encore sur lenvironnement de consulshy

tation Les liens hypertextuels font partie de cette cateacutegorie de mecircme que les forshymulaires interactifs Par exemple un sonshydage publieacute dans un article scientifique pourrait ecirctre mis agrave jour dynamiquement par des lecteurs qui pourraient faire connaicirctre leur opinion agrave partir du docushyment

Un des problegravemes majeurs pour les eacutediteurs et par le fait mecircme pour les utilishysateurs est labsence ou la surabondance de normes pour certains types dinformashytion Dans le cas du texte et des images simples la situation est assez facile agrave maicircshytriser de par lomnipreacutesence du format HTML et de ses formats dimage associeacutes GIF et JPEG Mais au-delagrave de ces quelshyques formats la situation devient plus diffishycile car le support nest habituellement pas inclus dans les navigateurs communs et il faut donc inciter les utilisateurs agrave instalshyler des modules externes ou des applicashytions suppleacutementaires afin de pouvoir consulter certaines parties de documents Un utilisateur sera enclin agrave installer un tel module sil en a besoin au moins occasionshynellement ou si linformation manquante est tregraves importante pour lui Sinon il va aller voir ailleurs ou il sen passera

Le deacutefi technologique est double troushyver des formats adeacutequats pour chaque type dinformation susceptible de se preacuteshysenter et trouver un format de base qui puisse lier tous ces types dinformation et qui serve de laquocimentraquo aux diffeacuterentes parshyties du document eacutelectronique

Dans le cas du format de base un moshydegravele de traitement centreacute sur XML peut saveacuterer suffisant En effet XML permet dinteacutegrer des parties de documents en difshyfeacuterents formats Ainsi assembler un docushyment ayant des composantes textuelles iconographiques videacuteo sonores et des alshygorithmes nest pas un reacuteel problegraveme De plus si on utilise HTML comme principal format de diffusion pour la consultation eacutelectronique de linformation nous avons lagrave eacutegalement un format qui peut assemshybler des documents tregraves complexes comshyprenant des parties tregraves diffeacuterentes et stocshykeacutes dans des formats varieacutes Bref XML et HTML sont tous deux des formats laquo hyper-meacutedias raquo et ils constituent des solutions inshyteacuteressantes pour la gestion et la diffusion de tels types de documents

Lautre partie du deacutefi est plus probleacuteshymatique quel(s) format(s) utiliser pour les diffeacuterents types dinformation Agrave ce sujet un grand effort de normalisation reste agrave

faire avant de sassurer que les navigashyteurs habituels puissent preacutesenter tous les types dinformation sur toutes les plates-formes Toutefois soulignons certains asshypects encourageants tels que la mise en place dune norme de lindustrie pour les images vectorielles (SVG7) et lutilisation croissante du langage de programmation Java pour les applications dynamiques (ce qui pourrait ecirctre utile pour les algorithmes et les simulations)

Aujourdhui un eacutediteur qui prend au seacuterieux leacutedition eacutelectronique et lexploitashytion optimale des possibiliteacutes quoffrent les documents eacutelectroniques devrait entreshyprendre ces diffeacuterentes deacutemarches

raquo sensibiliser instruire les auteurs poshytentiels aux possibiliteacutes des documents eacutelectroniques Sans matiegravere premiegravere il est inutile de mettre en place des systegraveshymes sophistiqueacutes

m sensibiliser les utilisateurs aux posshysibiliteacutes des documents eacutelectroniques Sans demande loffre ne sera pas neacutecesshysaire

m identifier les formats de diffusion les plus adeacutequats Il y a deux questions fondamentales agrave se poser Est-ce que le format choisi permettra de repreacutesenter adeacutequatement linformation agrave diffuser Est-ce que les utilisateurs possegravedent les eacutequipements et logiciels neacutecessaires pour pouvoir consulter des documents utilisant ce format

bull eacutetablir des protocoles pour leacutechange de tels documents Les auteurs et les eacutedishyteurs doivent ecirctre en mesure de se transshymettre efficacement ce genre dinformashytion

m mettre en place une infrastructure de gestion pour ces types de documents Leacutediteur doit ecirctre en mesure de manipuler et geacuterer ces parties de documents et bien souvent les formats de diffusion etou deacutechange ne sont pas les meilleurs pour y arriver surtout si lon considegravere la neacutecessishyteacute de conservation agrave long terme par exemple

bull participer aux efforts de normalisashytion des formats et des applications Les eacutediteurs ont leur mot agrave dire car ils pourshyraient en ecirctre les premiers beacuteneacuteficiaires

Il sagit donc dun agenda tregraves chargeacute pour une tacircche qui nest pas simple Lexpeacuteshyrimentation pourrait ecirctre la solution dans

7 Scalable Vector Graphics voir lthttp wwww3 org GraphicsSVGgt

octobre-deacutecembre 1999 165

Documentation et bibliothegraveques

bien des cas pour y arriver la meilleure meacutethode consiste probablement en la creacuteation dune nouvelle revue savante pushyrement eacutelectronique dans une discipline qui se precircte bien agrave la diffusion de diffeacuterents types dinformation

Conclusion sur les modegraveles techniques de publication

Cette premiegravere partie avait pour objecshytif de preacutesenter les diffeacuterentes techniques relieacutees agrave leacutedition eacutelectronique Nous avons surtout chercheacute agrave montrer que sans un modegravele technologique solide et orienteacute vers le document eacutelectronique et la reacuteutilishysation de linformation il est impossible dexploiter un tant soit peu les possibiliteacutes des documents eacutelectroniques Les asshypects importants de ce modegravele sont les meacutethodes de production et les formats de documents (pour la gestion la diffusion et la conservation) et ils doivent mener agrave une exploitation optimale des possibiliteacutes de leacutelectronique Heureusement un tel modegravele existe et il a eacuteteacute expeacuterimenteacute dans le cadre du projet Eacuterudit Il sagit de baser la chaicircne de traitement sur un document structureacute en format XML agrave partir duquel les diffeacuterents formats de diffusion y comshypris sur support imprimeacute sont produits (dautres eacutediteurs sont aussi arriveacutes agrave cette conclusion voir entre autres Kasdorf 1998) Les deacutetails techniques de ce moshydegravele seront preacutesenteacutes dans la seconde partie

Lexistence dun tel modegravele ne signifie malheureusement pas labsence de tout problegraveme ou la reacutealisation sans douleur de projets deacutedition eacutelectronique Les veacuteritashybles documents eacutelectroniques qui inshycluent de linformation dynamique et intershyactive sont des objets avec lesquels on doit continuer agrave se familiariser afin de troushyver des applications et des formats adeacuteshyquats Mais surtout il est important de reshyvoir notre conception de ce quest un docushyment et de le consideacuterer plutocirct comme une interface agrave un reacuteservoir dinformation Dune part linterface peut ecirctre individuashyliseacutee pour chaque utilisateur agrave chaque consultation dautre part le reacuteservoir dinshyformation peut ecirctre en constante modificashytion Cela demande un changement de culshyture important chez les eacutediteurs et les aushyteurs et agrave un degreacute moindre chez les lecshyteurs-utilisateurs Ce changement sexshyprime bien entendu par de nouvelles chaicircnes de traitement ou de nouveaux moshy

degraveles techniques mais il doit eacutegalement sexprimer par de nouvelles mentaliteacutes

Preacutesentation dune chaicircne de traitement lexemple du projet Eacuterudit

Lhistoire nous a montreacute que tout noushyveau meacutedia a deacutebuteacute en tentant dabord de calquer un moyen de diffusion existant Eacuteventuellement ce nouveau meacutedia eacutevolue et arrive agrave se deacutefinir et agrave deacutevelopshyper ses propres caracteacuteristiques devenant ainsi reacuteellement novateur Ainsi pour la plupart des initiatives et des innovations dans le domaine de la publication scientishyfique le modegravele de lagrave revue savante sur le Web commence par une transposition du modegravele imprimeacute deacutejagrave existant

Pour en assurer la reacuteussite la laquotransishytion raquo du format papier agrave leacutelectronique imshyplique dune part de travailler selon des faccedilons de faire deacutejagrave existantes et dautre part de graduellement en implanter de nouvelles propres aux impeacuteratifs et aux possibiliteacutes dun traitement eacutelectronique Dans le cadre du projet pilote Eacuterudit cette nouvelle chaicircne de production a eacuteteacute reacuteashyliseacutee parallegravelement au processus de proshyduction courant des revues Il a eacuteteacute eacutetabli quon tenterait de reproduire le plus fidegraveleshyment possible la signature (apparence) et la structure (construction) quaffichait la forme imprimeacutee des revues participantes afin dassurer une transition en douceur de mecircme que pour respecter linteacutegriteacute des contenus Dun point de vue techshynique cela sapparente agrave faire un traiteshyment reacutetrospectif des documents puisque aucune intervention de notre part ne poushyvait ecirctre faite preacutealablement ou parallegraveleshyment agrave la creacuteation du document Ainsi la meacutethodologie mise en place et exposeacutee ici est-elle le fruit dun meacutelange de condishytions de contraintes et de possibiliteacutes dicshyteacutees par cette situation Cette meacutethodoshylogie on le comprendra aiseacutement est bien diffeacuterente de celle qui pourrait ecirctre mise en place pour la production dune revue unishyquement eacutelectronique et cela serait daushytant plus vrai sil sagissait dune toute noushyvelle revue Dans ce dernier cas toutes les conventions et interventions neacutecessaishyres agrave la production dune revue eacutelectroshynique peuvent ecirctre consideacutereacutees et implanshy

teacutees degraves le deacutebut de sa conception Nous devons aussi souligner que

cette chaicircne est baseacutee sur la norme SGML mais en fait elle pourrait tregraves bien lecirctre sur XML la norme plus reacutecente En effet aucune fonctionnaliteacute de SGML non preacutesente dans XML na eacuteteacute utiliseacutee Par conseacutequent dans la description qui suit les expressions laquoSGMLraquo et laquoXMLraquo sont interchangeables

Deacutefinition du type de document (DTD)

Au deacutebut dun projet baseacute sur SGML le choix ou la creacuteation dune Deacutefinition du type de document (DTD) est une eacutetape prishymordiale La DTD est le fondement dune application SGML Cest elle qui deacutetershymine de quelle faccedilon les documents seront repreacutesenteacutes les traitements qui seront possibles etc En quelque sorte il sagit du veacuteritable laquoformatraquo des docushyments Les reacuteponses aux questions suishyvantes orienteront la creacuteation ou le choix dune DTD

bull Quels sont les types de documents agrave traiter Quels sont les types de docushyments semblables

bull Quelles sont les composantes structurelles des documents Quels sont les autres types deacuteleacutements logiques appashyraissant dans chaque type de document

bull En plus des contenus textuels quelshyles autres informations ou proprieacuteteacutes peuvent ecirctre assigneacutees agrave chaque type deacuteleacutement

laquoQuelles sont les relations logiques entre chacun des eacuteleacutements

bull Que veut-on faire de linformation Quelles sont les types de structures et de relations que lon veut encoder dans le balishysage SGML de faccedilon agrave pouvoir reacutepondre aux besoins deacutechange (partage) de repeacuteshyrage de diffusion et de reacuteutilisation de linshyformation

Cet exercice en est un danalyse de besoins en fonction des coucircts encourus et des beacuteneacutefices retireacutes Ainsi un balisage fin et hautement structureacute insufflant de ce fait une laquointelligenceraquo aux documents pershymettra une exploitation plus performante des donneacutees tandis quun balisage plus grossier effectueacute agrave moindre coucirct trouvera une possibiliteacute de reacuteutilisation reacuteduite ou demandant certaines interventions

En matiegravere de revues savantes leacutequipe deacutes publications eacutelectroniques

166 octobre-deacutecembre 1999

Documentation et bibliothegraveques

des Presses de lUniversiteacute de Montreacuteal a eu dans des projets anteacuterieurs agrave celui-ci lopportuniteacute deacutetudier la question du choix de la DTD pour ce type de publication8 La DTD IS012083 Article ayant eacuteteacute deacutecreacuteteacutee trop limiteacutee on a jugeacute souhaitable dadapshyter cette derniegravere aux besoins des revues savantes Du noyau de la DTD ISO 12083 auquel on a greffeacute des fragments dautres DTD normaliseacutees mdash CALS (Continuous Acquisition and Life Cycle Support) TEI (Text Encoding Initiative) DTD de la revue Earth Interactions^ mdash nous en sommes arriveacutes agrave creacuteer la DTD des Presses de lUniversiteacute de Montreacuteal (alias DTD PUM) laquelle devait deacutecrire la structure dun arshyticle de peacuteriodique dune revue savante On a eacutegalement proceacutedeacute agrave certains ajouts maison concernant entre autres la gesshytion des diffeacuterentes langues le deacutecoupage des reacutefeacuterences bibliographiques etc

Description des eacutetapes de la chaicircne de traitement

Analyse preacuteliminaire

Avant dutiliser la chaicircne de traiteshyment proprement dite un examen attentif de plusieurs numeacuteros deacutejagrave parus doit ecirctre meneacute pour chaque revue Cet examen doit ecirctre fait pour chaque nouvelle revue Ideacuteashylement lanalyse doit porter sur une peacuteshyriode reacutetrospective suffisamment longue et un nombre de numeacuteros suffisamment important pour englober lensemble des caracteacuteristiques et variations de la revue Cette analyse servira agrave identifier les types de documents (articles comptes rendus notes eacutetudes etc) et leur structure seacuteshymantique10 MHV (titres reacutesumeacutes secshytions subdivisions tableaux eacutequations ilshylustrations citations renvois reacutefeacuterences notes infrapaginales etc)

Cest aussi loccasion dobserver la reacuteshygulariteacute et la conformiteacute de lapplication du protocole de reacutedaction en vigueur ce qui a un impact important sur la qualiteacute En prinshycipe si les documents preacutesentent une structure uniforme et constante (agrave linteacuteshyrieur dun mecircme document et dun docushyment agrave lautre) si le protocole de reacutedaction a ducircment eacuteteacute respecteacute et si leacutetape du choix ou de la creacuteation de la DTD a eacuteteacute bien faite les composants seacutemantiques rencontreacutes leur nombre et lordre dans leshyquel ils se preacutesentent devraient tous ecirctre conformes agrave la DTD Dans la situation ougrave

la correspondance entre la DTD et cershytains eacuteleacutements logiques se retrouvant dans les documents est impossible il faushydra apporter des modifications soit agrave la DTD soit aux documents soit agrave la fois agrave la DTD et aux documents Cette intervention meacuterite une reacuteflexion importante puisshyquelle est lourde de conseacutequences Dans un contexte de conversion reacutetrospective il est impossible dintervenir sur le contenu des documents Les changements agrave la DTD doivent ecirctre faits en consideacuterant un eacuteventail de besoins et non seulement le beshysoin preacutecis qui nous amegravene agrave vouloir modishyfier la DTD Aussi les changements agrave la DTD doivent ecirctre additifs et non correctifs de faccedilon agrave garder une certaine compatibilishyteacute avec les documents produits anteacuterieureshyment agrave ces changements

Outre les modifications de nature seacuteshymantique les amendements doivent sinsshycrire plus largement dans lutilisation soushyhaiteacutee tant agrave court quagrave plus long terme des documents En effet la mise en page en fonction de diffeacuterents meacutedias (papier eacutecran etc) la recherche structureacutee la reacuteushytilisation de certaines parties de docushyments etc deacutependront toutes dune indicashytion SGML (un eacuteleacutement speacutecifique une valeur dattribut etc) En principe cette reacuteshyflexion a ducircment eacuteteacute faite lors de leacutetape du choix ou encore de la conception de la DTD de sorte que les eacuteleacutements logiques devraient tous sharmoniser avec la DTD Cependant puisque aucun controcircle na pu ecirctre exerceacute sur la structuration initiale des documents comme il a eacuteteacute expliqueacute plus haut il se peut que certains eacuteleacutements logishyques ne trouvent pas de correspondance dans la DTD

Il faut eacutegalement discerner les caprishyces de la mise en page papier actuelle faite de faccedilon manuelle la plupart du temps des veacuteritables besoins de discerneshyment visuel des composants logiques Ainsi une information SGML doit ecirctre preacutevue pour faire en sorte quune liste orshydonneacutee soit rendue de faccedilon diffeacuterente dune liste agrave puces On pourra ainsi agrave leacutetape de production dune sortie papier produire respectivement un numeacutero seacuteshyquentiel ou un symbole tel un rond plein (laquo bull raquo) devant chaque item de liste

En theacuteorie la production du SGML et les ajustements agrave la DTD ne devraient pas ecirctre faits en fonction des limites des outils employeacutes cependant en pratique on ne peut ignorer cet aspect Par exemple une formule matheacutematique peut ecirctre finement

baliseacutee selon un modegravele de DTD approshyprieacute (fonction numeacuterateur deacutenominateur arguments etc) En pratique cependant plusieurs logiciels de notre chaicircne de traishytement ne peuvent reconnaicirctre et traiter adeacutequatement une formule reproduite sous cette forme On se rabattra alors sur une repreacutesentation graphique de la forshymule cest-agrave-dire linsertion dun fichier image Ceci peut demander des modificashytions agrave la DTD Autre exemple lemploi de jeux de caractegraveres eacutetrangers bien quils puissent ecirctre repreacutesenteacutes en SGML (entre autres par lemploi dentiteacutes caractegraveres coshydeacutees en Unicode11) peut nous faire renshycontrer les limites des outils de traitement Ici encore on preacuteconisera une solution de rechange impliquant des modifications au SGML produit et conseacutequemment agrave la DTD Si le nombre de limitations renconshytreacutees par les outils est tregraves important on deacutecidera afin de ne pas laquocorrompreraquo abushysivement la source SGML de produire (aushytomatiquement de preacutefeacuterence) des vershysions SGML transitoires

Nous avons recours agrave une version SGML transitoire pour la production du PDF (une eacutetape plus en aval de la chaicircne qui sera expliqueacutee plus loin) Cette version transitoire sert agrave reacuteordonner et qualifier certains eacuteleacutements de faccedilon agrave accommoshyder certaines caracteacuteristiques propres aux revues (par exemple le fait de preacutesenter les reacutesumeacutes agrave la toute fin de larticle plutocirct quau deacutebut) Elle est produite automatishyquement avec le logiciel OmniMark

Preacutetraitement

Mise en styles et preacuteparation des textes

La chaicircne de traitement proposeacutee comporte une eacutetape de preacutetraitement des documents originaux (Figure 1) Cette

8 Voir Un nouveau modegravele de publication eacutelectronique ltURL http wwwpumumontrealcapubl__electr vision htmlgt

9 ltURL http EarthInteractionsorggt 10 Nous employons dans cet article lexpression laquostrucshy

ture seacutemantiqueraquo pour souligner lorganisation dun document textuel baseacute sur le sens de ses composhysants par opposition agrave leur apparence

11 La norme Unicode est un jeu de caractegraveres eacutetaleacute sur 16 bits ce qui permet la repreacutesentation dun maxishymum de 65 536 caractegraveres diffeacuterents Elle corresshypond au premier plan agrave 2 octets (le BMP Basic Multishylingual Plane) dune norme plus universelle (baseacutee sur 4 octets) soit la norme ISO 10646 Voir ltURL http wwwunicodeorggt

octobre-deacutecembre 1999 167

Documentation et bibliothegraveques

Figure 1 Chaicircne de traitement du projet Eacuterudit

Documents mis en styles (Word)

1 r f bull -

Documents originaux (WordJ

Documents 1 k | ltSfiMI 1

^ 1 wninii 1 mdash

[DTDPUMJ Formats de diffusion 1 HTML

SGML

flHGIiHiB

eacutetape consiste agrave appliquer un ensemble de styles contenus dans un modegravele de doshycument (feuille de style) agrave un document original en format MS Word Utilisation de styles sur des parties de texte inscrit dans le format intrinsegraveque du traitement de texte des codes qui nous permettront daushytomatiser le balisage en SGML

Cest agrave cette eacutetape que lon insuffle une certaine laquointelligenceraquo au document Ainsi le modegravele de document et les styles quil contient ne sont pas destineacutes agrave modishyfier lapparence des documents comme lont dabord penseacute les concepteurs de cette fonctionnaliteacute mais plutocirct agrave identifier certaines parties des documents Par exemple nous chercherons agrave identifier les titres les auteurs les reacutefeacuterences bibliograshyphiques les reacutesumeacutes etc Il est important de comprendre que nous nutiliserons pas les styles agrave des fins de mise en page mais bien didentification des diffeacuterents composhysants du texte

Outre lapplication des styles luniforshymisation et la normalisation des textes doivent ecirctre effectueacutees Ainsi les tashybleaux les listes et les notes infrapagina-les doivent avoir eacuteteacute produits avec les foncshytionnaliteacutes approprieacutees du traitement de texte (en dautres mots que ce soient de vrais tableaux et non des chaicircnes de texte seacutepareacutees par des tabulations par exemple) Nous analysons agrave leacutetape de la programmation lensemble des codes du traitement de texte les liens entre les apshypels de notes et les notes la largeur relashytive des colonnes des tableaux laligneshy

ment des contenus des cellules des tableaux etc et nous reproduisons cette information dans les documents SGML Au besoin certains composants doivent ecirctre reacuteordonneacutes (par exemple si lauteur a ajouteacute son reacutesumeacute agrave la fin on devra le repishyquer au deacutebut du document agrave la suite des eacuteleacutements de titres et dauteurs tel que le preacutevoit la DTD)

Nous avons deacuteveloppeacute un modegravele de document pour chacune des revues Ces modegraveles contiennent en moyenne de 30 agrave 50 styles diffeacuterents en fonction du nombre de composants retrouveacutes Parmi ces styles certains sont de type paragraphe (blocs de texte) et dautres de type caracshytegravere (chaicircnes de texte agrave linteacuterieur des blocs)

Leacutetape de mise en styles pourra ecirctre reacutealiseacutee par la personne responsable de la preacuteparation des textes agrave publier soit habishytuellement une personne faisant partie du comiteacute de production de la revue Agrave cet effet nous avons dans le cadre du projet Eacuterudit entrepris de donner des seacuteances de formation personnaliseacutee aux responsashybles des revues lesquelles portaient sur la preacuteparation des documents et lapplication des feuilles de style Notre expeacuterience deacuteshymontre que cette eacutetape est plus facilement reacutealisable par des personnes maicirctrisant bien leur outil de traitement de texte Un certain controcircle de qualiteacute doit ecirctre effecshytueacute sur les premiers documents styleacutes

Une fois styleacute le document servira dintrant (input) agrave leacutetape de conversion SGML Cest pourquoi il doit sagir dune

version finale du texte cest-agrave-dire quil doit ecirctre complet et deacutejagrave comprendre toushytes les corrections neacutecessaires Agrave cet effet nous avons rencontreacute quelques proshyblegravemes puisque le traitement traditionnel des revues comporte une ou plusieurs eacutetashypes de correction deacutepreuves une fois le document mis en page agrave laide dun logishyciel de PAO (tel PageMaker ou XPress) Les corrections sont alors effectueacutees direcshytement dans ces logiciels et ne sont pas reshypiqueacutees dans la copie de traitement de texte initiale Notre systegraveme de traitement preacuteconise une utilisation de fonctionnalishyteacutes approprieacutees du traitement de texte (styles notes tableaux etc) De plus les corrections de nature textuelle (orthoshygraphe et syntaxe de mecircme que la plushypart des corrections de nature typograshyphique) doivent ecirctre faites dans le fichier de traitement de texte Il faut prendre en consideacuteration le fait que ce fichier sert agrave la production de documents darchivage de documents deacuteriveacutes (sommaires tables des matiegraveres listes de reacutesultats de reshycherche etc) ainsi que de plusieurs forshymats de diffusion Ce fichier source de par son contenu et sa structure doit donc ecirctre le plus acheveacute possible Cela exige de la personne qui preacutepare les textes de bonnes connaissances linguistiques et tyshypographiques Les erreurs reacuteveacuteleacutees en aval dans la chaicircne de production doivent ecirctre corrigeacutees dans les fichiers de traiteshyment de texte

168 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Eacutepreuves eacutelectroniques

Depuis la fin du projet Eacuterudit nous avons testeacute linteacutegration du processus de reacutevision des eacutepreuves dans la chaicircne de traitement Dans un processus plus tradishytionnel cette reacutevision se fait habituelleshyment sur les eacutepreuves imprimeacutees des artishycles une fois la mise en page effectueacutee agrave laide de logiciels de PAO Les corrections apporteacutees peuvent ecirctre agrave la fois de nature orthographique syntaxique typograshyphique et peuvent aussi concerner des asshypects du montage La diffusion du mecircme contenu sur plusieurs supports de diffushysion nous amegravene agrave discerner entre les corshyrections devant ecirctre repiqueacutees dans le fishychier initial de traitement de texte (de fashyccedilon agrave ce que lensemble des formats de difshyfusion profitent de ces modifications) des corrections sappliquant uniquement agrave la mise en page papier Nous produisons donc maintenant des laquoeacutepreuves eacutelectronishyques raquo cest-agrave-dire des sorties imprimeacutees obtenues agrave partir dun logiciel de PAO soit FrameMaker+SGML (voir plus loin pour la description de cette eacutetape) sans avoir agrave efshyfectuer dimportantes interventions mashynuelles au niveau du montage Sur ces eacutepreuves sont apporteacutees les corrections se rapportant au texte (et non agrave sa mise en page en vue de limprimeacute) lesquelles seshyront ensuite repiqueacutees dans le fichier Word initial qui servira agrave la reacutegeacuteneacuteration des diffeacuterents formats produits Dans la perspective ougrave plusieurs formats diffeacuteshyrents (SGML HTML PDF) sont produits agrave partir dun mecircme fichier initial on comprenshydra linteacuterecirct deffectuer un maximum de corrections en amont (donc degraves la reacutevision du fichier Word) et non en aval sur un forshymat en particulier plutocirct que sur un autre

Traitement des images

Les illustrations que peuvent comporshyter les articles parviennent habituellement aux responsables des revues sous diffeacuteshyrentes formes photos impressions laser velox etc et plus rarement sous forme eacutelectronique fichiers vectoriel ou bitmap provenant de logiciels graphiques et imashyges numeacuteriseacutees Traditionnellement ces images sont inseacutereacutees dans le texte au moment du montage de la copie agrave imprishymer par le typographe qui les numeacuterise et les retouche ou encore par le technicien de latelier de preacuteimpression qui les reproshyduit par proceacutedeacute photographique

Linteacutegration des images dans la chaicircne de traitement Eacuterudit est de beaushycoup faciliteacutee si ces documents nous parshyviennent en format numeacuterique Les imashyges sont traiteacutees comme des fichiers seacutepashyreacutes qui sont reacutefeacutereacutes agrave partir des docushyments

Les secreacutetariats des revues neacutetant habituellement pas eacutequipeacutes en mateacuteriel et savoir-faire pour manipuler des images ce type dintervention sera effectueacute par le fournisseur de services en loccurrence leacutequipe dEacuterudit Cependant les comiteacutes de revues devraient tenter dobtenir des auteurs autant que faire se peut une vershysion des images en format eacutelectronique Ces images devraient toujours ecirctre de tregraves bonne qualiteacute (avec une haute reacutesolution et si deacutesireacute en couleurs) afin de servir agrave larchivage Cest agrave partir des images de bonne qualiteacute quon effectuera le traiteshyment (surtout des modifications de forshymats de fichiers des baisses de reacutesolushytion des sauvegardes en noir et blanc) en vue des diffeacuterents modes de diffusion (arshychivage Web et imprimeacute) Afin de standarshydiser le processus de traitement des imashyges nous avons eacutetabli des proceacutedures norshymaliseacutees Enfin bien que cela ne se soit pas encore produit un type dintervention de mecircme nature est agrave preacuteconiser pour dautres formats non textuels (videacuteo son images 3D etc)

Nous avons exposeacute dans cette section les diffeacuterents eacuteleacutements portant sur le preacutetraitement des textes soit lapplicashytion des styles et le traitement des images Une fois le document preacutetraiteacute il est precirct agrave ecirctre converti en SGML

Conversion en SGML

Puisque la feuille de style utiliseacutee pour styler les documents a eacuteteacute conccedilue en fonction dun passage efficace vers un doshycument SGML respectant la DTD PUM une conversion relativement automatique est possible Cette conversion qui consiste en linterpreacutetation des informashytions existantes et lajout dinformations deacuteshyriveacutees requiert cependant un outil speacutecialishyseacute Il serait agrave ce point-ci de la discussion important dexpliquer la diffeacuterence entre Une conversion de donneacutees au sens SGML et une traduction de donneacutees

Une traduction est une opeacuteration qui consiste agrave prendre un ensemble de donshyneacutees (information et mise en forme confonshydus) dun format proprieacutetaire et le traduire

en un ensemble eacutequivalent qui peut ecirctre inshyterpreacuteteacute et eacutediteacute dans un autre logiciel utilishysant un format proprieacutetaire (par exemple passer un document de Word agrave WordPershyfect) Au contraire une conversion vers SGML implique deacutetablir un lien entre un document dans un format proprieacutetaire (ougrave la structure logique est habituellement perccedilue de faccedilon visuelle par le lecteur) agrave un document SGML laquointelligentraquo (ougrave la structure logique est codeacutee de faccedilon explishycite suivant une DTD donneacutee)

Une conversion enrichissante (traducshytion libre de up conversion) est une convershysion dun format plat vers un format seacutemanshytique structureacute (par exemple dun format WordPerfect vers un format SGML) ou plus preacuteciseacutement une conversion de donshyneacutees textuelles dun format dencodage arshybitraire vers une instance SGML valide Une conversion appauvrissante (traducshytion libre de down conversion) quant agrave elle consiste en une conversion dun forshymat logique vers un format proprieacutetaire (par exemple dun format SGML vers un format MS Word) Ce type de conversion est la cleacute du succegraves de SGML puisquelle assure une complegravete reacuteutilisation des donshyneacutees Agrave partir dun format SGML la convershysion peut ecirctre facilement automatiseacutee tout en conservant linteacutegriteacute des donneacutees

Il existe plusieurs produits logiciels apshytes agrave convertir des textes dun format agrave un autre Ces produits sont disponibles essenshytiellement sous la forme de programmes ou de solutions parameacutetrables12 Nous avons opteacute pour le langage de programmashytion speacutecialiseacute OmniMarkreg

Nous effectuons la conversion en deux eacutetapes dont la premiegravere est reacutealiseacutee agrave laide dun programme en langage OmnishyMark disponible gratuitement13 La seshyconde eacutetape se charge dajouter une strucshyture seacutemantique normaliseacutee pour la desshycription darticles savants et introduira de linformation suppleacutementaire agrave valeur ajouteacutee Ainsi nous creacuteons sans aucune intervention manuelle des liens entre les appels de reacutefeacuterences dans le texte et les reacutefeacuterences bibliographiques agrave la fin du

12 Pour une liste exhaustive de ce genre de produit consulter la rubrique laquo Conversion Program raquo dans Survey of software for structured text par Eila Kuikka et Erja Nikunen ltURL http www xsukufi~kuikkasys-temshtmlgt

13 Il sagit de RTF2XML (auparavant RTF2SGML) deacuteshyveloppeacute par Rick Geimer ltURLhttpwwwxme-ta comomlettegt

octobre-deacutecembre 1999 169

Documentation et bibliothegraveques

texte Pour ce faire il faut analyser meacuteticu-leusement les syntaxes de reacutefeacuterences utilishyseacutees par chaque revue [par exemple laquo(Vaugeois et Hubert 1993a)raquo ou laquo(Va-Hu93a) raquo] afin deacutetablir des patrons de reshyconnaissance sur lesquels on peut enshysuite bacirctir des regravegles de programmation Cette deuxiegraveme eacutetape est effectueacutee par un programme en langage OmniMark reacutealiseacute dans le cadre du projet Eacuterudit

Formats de diffusion

Les formats de diffusion choisis doishyvent permettre de satisfaire les habitudes de lecture et les besoins de consultation qui diffegraverent dun usager agrave lautre Ainsi nous preacuteconisons la diffusion des docushyments en plusieurs formats Notre modegravele de diffusion est baseacute sur le document dans sa version SGML Ce document eacutelecshytronique unique constitue la source de plushysieurs sous-produits qui sont autant de forshymats de sortie possibles Les supports de diffusion qui sont compatibles avec ces forshymats sont divers diffusion en ligne (Web) diffusion sur ceacutedeacuterom diffusion sur papier Dans le cadre du projet Eacuterudit nous avons consideacutereacute trois formats de sortie (HTML SGML et PDF) Nous avons eacutegalement deacuteshycideacute deacute rendre disponible le format SGML ce dernier se precirctant tregraves bien agrave la consulshytation dans la mesure ougrave les navigateurs SGML sont capables dexploiter la strucshyture des documents de faccedilon agrave offrir un enshyvironnement de lecture plus sophistiqueacute et complet Enfin le format PDF permet la difshyfusion de documents eacutelectroniques reproshyduisant la mise en page choisie par les difshyfuseurs Ce format est tout agrave fait approprieacute pour limpression agrave distance Nous envisashygeons agrave court terme doffrir eacutegalement le format XML qui peut ecirctre consulteacute agrave laide des versions 5 des navigateurs Internet Explorer et Netscape Navigator

Un principe de base de la philosophie SGML voulant que linformation une fois baliseacutee en SGML puisse ecirctre reacuteutiliseacutee plusieurs fois et cela avec diffeacuterentes sashyveurs tant dans linteacutegraliteacute du contenu (en tout ou en parties) que dans la forme du contenant (dans un format particulier) il est tout naturel de convertir les fichiers SGML en fichiers HTML Il sagit en fait dune conversion SGML (DTD PUM soit la DTD deacuteveloppeacutee aux Presses de lUnishyversiteacute de Montreacuteal pour reacutepondre aux beshysoins de balisage des revues savantes) vers SGML (DTD HTML) Ainsi les artishy

cles sont convertis automatiquement en HTML agrave laide dun autre programme OmniMark Nous produisons de la mecircme faccedilon une table des matiegraveres pour chaque numeacutero de revue Cette table des matiegraveres ne provient pas dun document initial unique saisi sous forme de table des matiegraveres mais plutocirct de la concateacutenation dinformations reacutecupeacutereacutees dans lenshysemble des articles (titres sous-titres auteurs) en format SGML Cest un bon exemple de reacuteutilisation de linformation

Puisque lensemble des documents produits sont baseacutes sur la DTD PUM la conversion du SGML vers le HTML est reacuteashyliseacutee par un seul programme de convershysion pour lensemble des revues Ce proshygramme comporte cependant quelques particulariteacutes de preacutesentation propres agrave chaque revue et dune telle pratique reacuteshysulte une apparence assez semblable pour chacune des revues La fabrication dune signature dune maquette diffeacuterente pour chaque revue est reacutealiseacutee agrave laide dune feuille de style CSS (Cascading Style Sheet) fonction de plus en plus supshyporteacutee par les navigateurs Web

Pour linstant nous stockons sur notre serveur Web la version HTML preacuteshyconvertie Cependant la conversion tant pour les articles que pour la table des mashytiegraveres pourrait aiseacutement ecirctre faite laquoagrave la voleacutee raquo (on the fy) puisquil ny a aucune inshytervention manuelle sur les fichiers HTML On pourrait facilement faire en sorte quau moment ougrave lutilisateur par le biais de son client Web fait la demande dun fichier HTML (par exemple un article donneacute) le serveur (sur lequel serait installeacute OmnishyMark) convertisse leacute fichier SGML en fishychier HTML Ceci aurait pour avantage doccuper moins despace disque (environ la moitieacute de moins puisque seule la vershysion SGML serait stockeacutee et que le rapport SGMLHTML doit plus ou moins ecirctre eacutegal agrave 1 ) Il resterait agrave sassurer de deacutelais de reacuteshyponses acceptables

SGML

Les utilisateurs peuvent visionner les documents SGML agrave laide de Panorama Viewer de Interleaf14 un navigateur SGML qui sinstalle comme module exshyterne (plug-in) dun navigateur Web tel Netscape Navigator

Panorama Viewer permet de creacuteer des liens entre diffeacuterentes parties des doshycuments ou diffeacuterents documents Il pershy

met eacutegalement de preacutesenter des tables des matiegraveres dynamiques qui constituent des aides agrave la navigation Une autre foncshytion de Panorama offre la possibiliteacute danshynoter nimporte quelle partie dun docushyment y compris une zone dune figure deacuteshytermineacutee par le lecteur Enfin il permet dajouter des signets dans un document

La diffusion des articles en format SGML requiert peu defforts puisquil sagit du format natif des documents Pour ecirctre plus exact nous diffusons une vershysion SGML agrave peine diffeacuterente de la version produite lors de leffort de conversion enshyrichie deacutecrite preacuteceacutedemment Cette diffeacuteshyrence minime tient exclusivement agrave la non-reconnaissance par le navigateur SGML de certains caractegraveres eacutetrangers et symshyboles particuliers Panorama Viewer eacutetant en mesure de lire du SGML il faut simpleshyment lui indiquer la mise en forme propre aux diffeacuterents eacuteleacutements rencontreacutes Ces instructions de formatage sont donneacutees sous la forme dune feuille de style La creacuteation dune feuille de style ne seffectue normalement quune seule fois par revue (voire mecircme par DTD utiliseacutee si on deacutesire des produits normaliseacutes et identiques) Ainsi nous avons creacuteeacute des feuilles de style et des formats de tables des matiegraveres dyshynamiques (navigators) pour chaque revue de maniegravere agrave donner agrave chacune une signashyture caracteacuteristique

PDF

Linteacuterecirct du PDF reacuteside dans lobtenshytion dun document eacutelectronique arborant un format de preacutesentation semblable agrave limshyprimeacute Un tel format permet aux lecteurs dimprimer une version laquomise en page papierraquo des articles diffuseacutes en ligne Les navigateurs SGML ou HTML dont nous avons discuteacute preacuteceacutedemment permettent eacutegalement limpression mais la qualiteacute de la mise en page nest pas aussi complexe et soigneacutee puisque les feuilles de style des navigateurs Web sont destineacutees avant tout agrave la preacutesentation agrave leacutecran Notons cepenshydant quil existe des feuilles de style (CSS et XSL) normaliseacutees ougrave on a preacutevu une mise en page sophistiqueacutee en fonction de diffeacuterents meacutedias (eacutecran terminal reacuteduit imprimeacute synthegravese vocale) Agrave moyen terme on pourrait entrevoir que les

14 ltURL http wwwinterleafcomPanoramapa -ge3htmlgt

170 octobre-deacutecembre 1999

Documentation et bibliothegraveques

formats HTML et PDF seront remplaceacutes par un seul document source XML coupleacute agrave des feuilles de style qui seront fonction du meacutedia employeacute

laquo La grande majoriteacute des logiciels de PAO sur le marcheacute (les plus connus eacutetant PageMaker et Xpress) permettent une saushyvegarde en format PDF pour diffusion sur le Web Ces logiciels ne sont cependant pas en mesure de lire en intrant input) un fichier SGML ni de linterpreacuteter correcteshyment Il existe toutefois des outils perforshymants capables agrave la fois de prendre en inshytrant du SGML et de permettre une mise en page professionnelle (FrameMaker+ SGML^ocirce Adobe Interleaf 6 SGMLtrade de la compagnie Interleaf et ADEPT Publisshyher17 reacutealiseacute par ArborText) Il sagit touteshyfois de produits dispendieux et assez comshyplexes agrave manipuler

Notre choix sest arrecircteacute sur le logiciel FrameMaker+SGML en raison de son coucirct abordable et de sa plus grande facilishyteacute de parameacutetrage FrameMaker+SGML permet la creacuteation la modification et la pushyblication de documents SGML dans un enshyvironnement convivial Dans le cadre du projet Eacuterudit nous utilisons uniquement les fonctionnaliteacutes dimportation du SGML et de mise en page sophistiqueacutees offertes par loutil Il sagit ici aussi de deacutefinir un meacutecanisme dapplication de style pour chaque eacuteleacutement en fonction de son contexte SGML Cette feuille de style est dirigeacutee vers la mise en page sur papier (et non agrave leacutecran) et agrave cet effet FrameMashyker+SGML offre la possibiliteacute de parameacuteshytrer plusieurs des caracteacuteristiques requishyses par limprimeacute (par exemple la gestion des veuves et orphelins des paragraphes solidaires les colonnes multiples les noshytes en bas de page les patrons de ceacutesure approprieacutes agrave la fin des lignes les formes des en-tecirctes et bas de pages etc)

Chaque revue possegravede une feuille de style diffeacuterente laquelle a eacuteteacute conccedilue en se basant sur la maquette de la forme imshyprimeacutee deacutejagrave existante des revues particishypantes Les fonctionnaliteacutes de FrameMashyker+SGML nous permettent sans difficulteacute de reproduire de faccedilon presque identique laspect habituel des revues Lapplication dune feuille de style exhaustive et bien conccedilue (quon arrive geacuteneacuteralement agrave obteshynir apregraves un processus de reacuteajustement lors des premiegraveres productions) permet dautomatiser agrave 90 le montage du docushyment ce qui constitue un excellent rendeshyment On doit toutefois faire certaines intershy

ventions manuellement afin de compleacuteter le travail (par exemple deacuteplacer des figushyres condenser lespacement du texte ccedila et lagrave pour forcer un saut de page fractionshyner des notes de bas de page trop lonshygues etc)

Une fois le document monteacute avec FrashymeMaker+SGML il ne reste quagrave produire une version PDF agrave laide du logiciel Acroshybat de Adobe Il sagit lagrave dune opeacuteration sans grande difficulteacute quon peut apparenshyter agrave un simple laquosauvegarder sous PDFraquo On peut ainsi produire un premier fichier PDF de faible reacutesolution destineacute agrave ecirctre vishysionneacute sur le Web et un second fichier PDF de meilleure reacutesolution (ou encore un fichier PostScript) pouvant ecirctre achemineacute agrave latelier de preacutepresse en vue de limpresshysion des exemplaires papier

Pour les usagers la consultation des documents PDF se fait avec le logiciel Acrobat Reader qui existe comme moshydule externe (plug-in) pour les navigateurs Web On peut consulter les documents PDF agrave leacutecran avec ce logiciel mais ils sont plutocirct destineacutes agrave ecirctre imprimeacutes localeshyment par les usagers

Dans le cadre du projet Eacuterudit nous avons produit uniquement des documents PDF destineacutes au Web agrave raison dun fichier unique par article (et non dun fichier regroushypant tout un numeacutero dune revue) puisque les revues poursuivaient pendant la mecircme peacuteriode le traitement habituel pour la proshyduction de la version imprimeacutee de la revue

Diffusion sur le Web

Pour diffuser des documents sur le Web nous avons creacuteeacute un site Web18 heacuteshybergeacute sur notre serveur Web Ce site est la porte dentreacutee principale pour laccegraves aux articles

La diffusion en ligne (et eacutegalement sur ceacutedeacuterom) permet pour le lecteur dacshyceacuteder aux textes agrave laide dun outil de reshycherche Pour ce faire on doit implanter un outil de recherche en texte inteacutegral qui peut indexer des documents SGML tout en conservant linformation sur la strucshyture de faccedilon agrave permettre aux usagers dexprimer des contraintes sur la structure dans leurs requecirctes On peut par exemple preacuteciser la recherche de textes comporshytant le nom dun chercheur mais uniqueshyment lorsque celui-ci se retrouve dans une bibliographie et non en tant quauteur de larticle Dans le cadre du projet Eacuterudit nous avons installeacute sur le site Web un

prototype de moteur de recherche qui doit encore ecirctre ameacutelioreacute La collection indexeacutee comprend lensemble des articles ayant eacuteteacute publieacutes par les revues pendant la dureacutee du projet pilote Il sagit dun mode daccegraves au texte tregraves performant que seule la version eacutelectronique permet dobtenir

Recommandations

Dans la mesure ougrave notre mandat consistait moins en la mise au point dune solution theacuteoriquement optimale quen la conception dune chaicircne de traitement adapteacutee aux besoins du projet (reproducshytion de la forme papier deacutejagrave existante imshypossibiliteacute dintervenir en amont de la chaicircne de production optimisation du traishytement par ladoption dune DTD unique production de divers formats de diffusion) nous avons opteacute pour une solution compreshynant plusieurs sorties intermeacutediaires et cela de faccedilon agrave atteindre de bons reacutesulshytats en matiegravere dautomatisation et de quashyliteacute des textes produits Nous estimons avoir atteint agrave 95 ces objectifs de producshytion

Il va sans dire que la DTD a ducirc ecirctre constamment remanieacutee afin de sadapter agrave lensemble des documents agrave produire Nous avons ducirc opter pour une DTD qui au fur et agrave mesure de lavancement du projet devenait plus permissive de maniegravere agrave geacuteshyneacuterer en bout de ligne du SGML valide respectant linteacutegriteacute et la preacutesentation des contenus des articles

Le projet Eacuterudit aura mis en lumiegravere lextrecircme importance dans une perspecshytive dautomatisation des opeacuterations de la chaicircne documentaire de deacutefinir une strucshyture une preacutesentation et dans une cershytaine mesure un contenu normaliseacute des documents agrave traiter La production mecircme de textes destineacutes agrave ecirctre baliseacutes en SGML peut donc faire lobjet de certaines recomshymandations dont plusieurs savegraverent applishycables dans une optique de sensibilisation des comiteacutes de revues et de formation du personnel chargeacute de la reacutevision et de la correction des textes Cest ainsi quil y aushyrait lieu de deacutefinir (ou renforcer) pour chaque revueraquo un modegravele normaliseacute quant

15 ltURL http wwwadobecomprodindexframe makerprodinfosgmlhtmlgt

16 ltUEL http wwwinterleafcomproducts p_sgmlhtmlgt

17 ltURL http wwwarbortextcomProducts AcircDEPT_Seriesadept_serieshtmlgt

18 ltURLhttpwwweruditorggt

octobre-deacutecembre 1999 171

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999

Page 2: De l’imprimé vers l’électronique : réflexions et solutions

Documentation et bibliothegraveques

De limprimeacute vers leacutelectronique reacuteflexions et solutions techniques pour une eacutedition savante en transition

Marie-Heacutelegravene Veacutezina Chargeacutee deacute projet - Eacutedition eacutelectronique Presses de lUniversiteacute de Montreacuteal marie-helenevezinaumontrealca Martin Seacutevigny Chargeacute de projet mdash Eacutedition eacutelectronique Presses de lUniversiteacute de Montreacuteal sevignyajlsmcom

Les acteurs intermeacutediaires de la chaicircne documentaire soit les eacutediteurs et bibliotheacutecaires sont de plus en plus impliqueacutes dans des projets de diffusion eacutelectronique dinformation En mecircme temps ils doivent continuera reacutepondre agrave la demande de supports imprimeacutes Les diffeacuteshyrentes approches pour assurer cette coexistence se reacutesument aux trois sceacutenarios suivants produire la forme imprimeacutee pour en deacuteriver par la suite des versions eacutelectroniques produire parallegravelement les deux formes ou enfin produire les deux formes agrave partir dun docushyment source unique contenant toute information seacutemantique requise pour ces deux opeacuterations Cet article eacutetudie les principaux avantashyges de cette troisiegraveme approche et en preacutesente une application dans le cadre dun projet pilote de revues savantes aux Presses de lUnishyversiteacute de Montreacuteal Les auteurs abordent les questions entourant le choix des formats de diffusion et darchivage Le format SGML a eacuteteacute retenu pour ses qualiteacutes dinteacutegration sa peacuterenniteacute et la richesse seacutemantique quil peut exprimer Eacuterudit le projet pilote preacutesenteacute en deacutetail ici a consisteacute agrave deacutevelopper une chaicircne de traitement fortement automatiseacutee baseacutee sur le SGML lequel format sera bientocirct remplaceacute par le format XML Du format SGML sont produits automatiquement des versions HTML format standard de diffusion sur le Web ainsi que des formats dimpression soit PostScript et PDF respectivement destineacutes agrave limpression de la publication papier et limpression agrave disshytance

From Print to Electronic Thoughts and Solutions for Scholar-ly Publishing in Transition Publishers and librarians the intermediaries in the document chain are increasingly involved in the electronic dissemination of information projects At the same time they continue to meet the readers need for printed material The different approaches used to insure this co-habitation can be summarised as follows (1) proshyduce the printed copy then generate electronic versions (2) proshyduce both formats at the same time and (3) produce both formats using a single source document containing all the semantic inforshymation required for both operations This article discusses the main advantages of the third option and describes an application developed in pilot project of scholarly journals at the Presses de lUniversiteacute de Montreacuteal The authors discuss the choice of disseshymination formats and storage The SGML format was chosen beshycause of its ability to integrate its durability and the semantic richshyness it expresses The pilot project (Eacuterudit) described in this article consists in developing a highly automated chain of operations using SGML a format that will soon be replaced by the XML forshymat The SGML format will automatically generate the HTML vershysions a format widely used on the Web as well as the print forshymats such as PostScript and PDF used respectively for printing on paper and printing from a distance

Del texto impreso al texto electronico reflexiones y solucio-nes teacutecnicas para una ediciocircn acadeacutemica en transicion Los intermediaries de la cadena documental es deck los editores y los bibliotecarios se ven cada vez mas envueltos en proyectos de difusiocircn electrocircnica de informaciocircn Al mismo tiempo deben se-guir respondiendo a la demanda de lectores de materiales impre-sos Los diferehtes enfoques para asegurar esta coexistencia se resumen en las tregraves situaciones siguientes producir material imshypreso para derivar del mismo versiones electrocircnicas producir pa-ralelamente los dos formatos o finalmente producir los dos for-matos a partir de un documento original ucircnico con toda la informashyciocircn semacircntica necesaria para estas dos operaciones Este artfeu-lo trata las principales ventajas relacionadas con el tercer enfoque y preacutesenta una aplicaciocircn del mismo dentro del marco de un proyeeto piloto de revistas acadeacutemicas en la Editorial de la Univer-sidad de Montreal Los autores abordan asuntos relacionados con la elecciocircn de formatos de difusiocircn y archivado Se eligiocirc el for-maio SGML porsus cualidades de integraciocircn perennidad y rique-za semacircntica que puede expresar El proyeeto piloto (Eacuterudit) pre-sentado en detalle consistiocirc en elaboraruna cadena de tratamien-to altamente automatizada y basada en SGML que se reempla-zaracirc muy pronto por el formato XML A partir del formato SGML se producen automacircticamente versiones en HTML formato cor-riente de difusiocircn en la Web asfeomo los formatos de impresiocircn como PostScript y PDF destinados respectivamente a la impreshysiocircn convenciohal y teleimpresiocircn

octobre-deacutecembre 1999 161

Documentation et bibliothegraveques

De nombreux laquosystegravemes dinformashytion raquo sont mis en place dans le but datshyteindre un objectif en apparence assez simple favoriser la circulation de linformashytion depuis les creacuteateurs de celle-ci (les aushyteurs) jusquaux consommateurs (les lecshyteurs) afin que ces derniers puissent en profiter et satisfaire leurs besoins en inforshymation Ces systegravemes que lon a chercheacute depuis le deacutebut agrave rendre de plus en plus efshyficaces sont agrave la fois baseacutes sur des intershyventions humaines et des technologies Aujourdhui ce sont les reacuteseaux informashytiques pour ne pas dire Internet qui semblent dicter la voie agrave suivre en matiegravere de systegravemes dinformation

Bien entendu tous les acteurs doivent sadapter agrave ces nouvelles pratiques et ces nouveaux outils Parmi ces acteurs on reshytrouve les bibliothegraveques et les eacutediteurs (Odlyzko 1999) intervenants qui se sishytuent habituellement au centre du sysshytegraveme dinformation quelque part entre les producteurs et les consommateurs Ils doishyvent entre autres choisir assembler reacutepershytorier diffuser conserver linformation et pour ce faire ils doivent utiliser les systegraveshymes - toujours technologiques et humains - les plus efficaces possibles

Dans cet article nous preacutesentons comment un eacutediteur en particulier un eacutedishyteur de revues savantes peut sy prendre pour exploiter les nouvelles technologies et ainsi rendre de meilleurs services aux bibliothegraveques et aux lecteurs tout en conservant des coucircts de production suffishysamment bas pour demeurer compeacutetitif Dans une premiegravere partie nous preacutesenteshyrons briegravevement diffeacuterents modegraveles deacutedishytion eacutelectronique et les eacuteleacutements agrave consideacuteshyrer pour les eacutevaluer Dans la seconde partie nous deacutecrirons une application reacuteelle de lun de ces modegraveles issue des travaux en eacutedition eacutelectronique reacutealiseacutes dans le cadre du projet Eacuterudit1 aux Presses de lUniversiteacute de Montreacuteal (Bois-menu et al 1999)

Cette application et par le fait mecircme cet article ne preacutetendent pas reacutesoudre tous les problegravemes ni explorer tous les enjeux reshylieacutes agrave leacutedition eacutelectronique En fait le projet fut reacutealiseacute dans un contexte particulier quil est neacutecessaire de rappeler ici Le but du proshyjet eacutetait de mettre en place un centre de sershyvice pour leacutedition eacutelectronique de revues sashyvantes queacutebeacutecoises Les services sont ofshyferts agrave tous les eacutediteurs inteacuteresseacutes de pushyblier leurs revues agrave la fols en format electro-nique et en format Imprimeacute

Ce centre de service joue donc un rocircle tregraves important dans le contexte actuel de leacutedition savante En effet la plupart des eacutediteurs ou des comiteacutes de reacutedaction de revues savantes expriment le souhait quelles soient diffuseacutees sur Internet tout en conservant des versions imprimeacutees Bien que lobjectif ici ne soit pas de preacutesenshyter les avantages et inconveacutenients des forshymats eacutelectronique et imprimeacute rappelons que la plupart des intervenants de la chaicircne documentaire (auteurs eacutediteurs bishybliotheacutecaires et lecteurs) sentendent sur les points suivants 1) le format imprimeacute est encore utile 2) le format eacutelectronique est maintenant essentiel 3) de nouveaux laquoservices aux utilisateursraquo doivent ecirctre proposeacutes agrave partir du format eacutelectronique 4) offrir une version imprimeacutee sera imporshytant pour une peacuteriode inconnue de faccedilon geacuteneacuterale mais probablement encore asshysez longue sinon eacuteternelle

Un eacutediteur deacutesirant tenir compte de ces conclusions fait donc face agrave un double deacutefi offrir aux lecteurs des produits eacutelecshytroniques novateurs et utiles tout en mainshytenant une version imprimeacutee de bonne qualiteacute Inutile de preacuteciser que les coucircts de production doivent ecirctre maintenus agrave des nishyveaux tregraves bas surtout dans le domaine de leacutedition savante en sciences humaines et sociales

Ce contexte est situeacute au cœur des reacuteshyflexions applications et conclusions conteshynues dans cet article En effet nous chershychons dabord et avant tout agrave proposer des solutions pour une peacuteriode de transition ougrave les versions eacutelectroniques et imprishymeacutees de revues savantes se cocirctoient et se complegravetent Bien sucircr plusieurs eacuteleacutements discuteacutes sappliquent agrave dautres contexshytes par exemple pour dautres types de doshycument ou encore pour des publications purement eacutelectroniques Toutefois nous naborderons pas ici ces derniers cas de fishygure

Modegraveles techniques de publication

Au cours des derniegraveres anneacutees les reacuteshyseaux et en particulier Internet nous ont permis de reacutealiser de nombreux projets de laquodiffusion eacutelectronique dinformationraquo cest-agrave-dire dutilisation du support eacutelectroshynique pour la production et surtout la diffushysion dinformation Plusieurs techniques nous permettent dy arriver et presque toushy

tes ont comme point commun lutilisation des formats de documents populariseacutes par Internet soit HTML2 et PDF3 Ces inishytiatives ont eu pour effet de constituer un immense reacuteservoir dinformation en format eacutelectronique soit le World Wide Web reacuteshyservoir inteacuteressant mais difficile agrave exploishyter Les eacutediteurs pour qui la diffusion dinshyformation na plus de secrets depuis fort longtemps se sont bien entendu lanceacutes dans cette grande aventure la plupart emshybrassant les techniques habituelles proshyduction et diffusion de HTML sur le Web ou encore production de documents PDF agrave partir de leur chaicircne de traitement tradishytionnelle et diffusion de ces documents sur le Web

Mais ces techniques sont-elles suffishysantes pour assurer une eacutedition de qualiteacute en particulier dans le monde de leacutedition sashyvante Les prochaines sections sont consacreacutees agrave cette question et passent en revue certains critegraveres importants en plus dexpliquer les diffeacuterentes techniques utilishyseacutees pour chaque aspect de leacutedition scienshytifique

Moyens de production

Au cours des 20 ou 30 derniegraveres anneacutees les eacutediteurs ont su profiter des deacuteshyveloppements technologiques dans le domaine de linformatique Ils ont utiliseacute linformatique dans la chaicircne de producshytion agrave laide des techniques de publication assisteacutee par ordinateur (PAO) que ce soit au moyen de logiciels de traitement de texte de graphisme ou de mise en page Dailleurs lagrave plupart des eacutediteurs fonctionshynent toujours avec ces moyens de producshytion Cette inteacutegration des technologies nest toutefois pas complegravete ni ideacuteale Ainshysi les derniers deacutetails de limpression sont tregraves souvent ajusteacutes de maniegravere non inforshymatique par exemple le traitement de cershytaines images en proceacutedeacute photo le monshytage de diffeacuterents fichiers en un document

1 Pour en savoir plus sur le projet Eacuterudit et pour consulter le rapport complet sur le projet voir ltUBJL http www eacuterudit orggt

2 Hypertext Markup Language norme du World Wide Web Consortium Voir ltURL httpwwww3org MarkUpgt

3 Le format PDF (Portable Document Format) est un format de document eacutelectronique deacuteveloppeacute par la compagnie Adobe Un document PDF conserve lalshylure originale de la forme imprimeacutee du document (textes graphiques couleurs) peu importe la plateshyforme utiliseacutee

162 octobre-deacutecembre 1999

Documentation et bibliothegraveques

continu ou lajout de pages disparates (enshycarts annexes) De plus mecircme si ces chaicircnes de traitement utilisent massiveshyment linformatique leur finaliteacute est de proshyduire des documents imprimeacutes et non des documents eacutelectroniques

Nous pouvons tirer de ces meacutethodes deux conclusions en apparence contradicshytoires presque tous les documents imprishymeacutes mecircme ceux produits de faccedilon tradishytionnelle existent sous une forme eacutelectroshynique quelconque mais pour plusieurs documents imprimeacutes nous navons pas de version finale et deacutefinitive en format eacutelectronique Par conseacutequent mecircme si en apparence les outils de PAO nous pershymettent de faire un pas vers de la veacuteritable eacutedition eacutelectronique des ajustements doivent ecirctre faits afin dobtenir un docushyment eacutelectronique qui soit fidegravele agrave la vershysion imprimeacutee quant au contenu Cette utilishysation de la PAO nest donc pas suffisante pour obtenir un document eacutelectronique de qualiteacute et pour assurer la diffusion ainsi que la conservation sur support eacutelectroshynique Cette approche est donc nettement insuffisante ce qui demande aux eacutediteurs de remettre en question non seulement leurs faccedilons de diffuser et de conserver leur information mais eacutegalement de la proshyduire

Cette courte reacuteflexion sur les meacutethoshydes actuelles nous amegravene agrave identifier trois grands sceacutenarios pour la production de doshycuments eacutelectroniques dans le monde de leacutedition

m La forme eacutelectronique en aval de la forme imprimeacutee Conserver les technishyques de PAO traditionnelles et agrave partir des reacutesultats de celles-ci creacuteer des vershysions eacutelectroniques des documents

s Les chaicircnes parallegraveles Continuer agrave travailler avec les outils de PAO pour les versions imprimeacutees mais laquo remonterraquo agrave la source (par exemple des documents de traitement de texte produits par les auteurs) pour creacuteer des versions eacutelectroshyniques

bull Un seul document source et des produits deacuteriveacutes Produire dabord un doshycument riche et par la suite deacuteriver des produits dinformation y compris lutilisashytion de la PAO pour des versions imprishymeacutees

La premiegravere approche souffre de deux lacunes importantes Dabord elle ajoute des eacutetapes agrave la chaicircne de traiteshyment ce qui la rend neacutecessairement plus coucircteuse que le modegravele traditionnel ougrave

limprimeacute constituait lunique produit De plus puisque la chaicircne de traitement est dabord et avant tout orienteacutee vers limprishymeacute il sera difficile dexploiter les possibilishyteacutes des documents eacutelectroniques

La deuxiegraveme approche permet peut-ecirctre dexploiter les possibiliteacutes des documents eacutelectroniques mais encore une fois elle vient ajouter des eacutetapes agrave la chaicircne de traitement ce qui la rend neacutecesshysairement plus coucircteuse De plus une autre difficulteacute sajoute car le fait de meshyner deux chaicircnes de traitement en paralshylegravele rend les eacutetapes de correction plus diffishyciles et les possibiliteacutes derreurs plus proshybables

La troisiegraveme approche peut saveacuterer inteacuteressante et surtout efficace puisshyquune seule chaicircne de traitement est utishyliseacutee et quil ny a donc pas de reacutepeacutetition de linformation De plus elle peut utiliser toute la puissance des outils de PAO pour produire des versions imprimeacutees des docushyments si neacutecessaire Mais cette approche est possible seulement si on arrive agrave proshyduire ce document riche agrave partir duquel les autres formats seront deacuteriveacutes Ces proshyduits deacuteriveacutes pourraient ecirctre par exemple une version imprimeacutee et relieacutee un docushyment HTML sur le Web une version somshymaire de larticle (titre auteurs reacutesumeacute) envoyeacutee par courrier eacutelectronique agrave une liste de diffusion etc

Pour arriver agrave implanter un tel modegravele de traitement et de production il est neacutecesshysaire dutiliser une technologie qui permet de creacuteer des documents suffisamment rishyches pour repreacutesenter toutes les informashytions neacutecessaires aux traitements agrave effecshytuer immeacutediatement ou dans les anneacutees agrave venir Heureusement une telle technoshylogie existe et il sagit de la norme SGML (Standard Generalized Markup Lan-guage ISO 8879) et de sa cousine XML (Extensible Markup Language recommanshydation du World Wide Web Consortium4) Ces normes permettent de creacuteer des docushyments structureacutes cest-agrave-dire des docushyments (neacutecessairement eacutelectroniques) qui contiennent de linformation agrave propos de leur contenu et de leur structure plutocirct que des informations de formatage en fonction dun contexte particulier Par exemple pour un article scientifique un document structureacute contiendra de linforshymation sur la signification de ses diffeacuterenshytes parties par exemple un titre un chashypitre un auteur une reacutefeacuterence bibliograshyphique etc

Agrave partir de ce document structureacute il est possible de deacuteriver diffeacuterents produits car ceux-ci contiennent moins dinformashytion que le document structureacute ou encore ils contiennent des renseignements plus deacutetailleacutees mais faciles agrave deacuteduire Par exemple il est facile de convertir une inforshymation telle que laquoceci est un titre de section raquo en une seacuterie dinstructions de forshymatage telles que laquo mettre en caractegraveres gras 12 points police Arial espace de 12 points avant le paragrapheraquo Il faut noter et cest important que linverse nest pas vrai les instructions de formashytage peuvent difficilement ecirctre converties en informations sur la structure sauf si elles sont tregraves exclusives et surtout tregraves coshyheacuterentes agrave linteacuterieur du document Il se peut eacutegalement que certains composants naffichent aucun attribut de formatage particulier mais quil existe des besoins ougrave cette information doive ecirctre distingueacutee par exemple le nom de lorganisme dapshypartenance dun auteur dans le cas ougrave on deacutesirerait recycler cette information pour linclure dans un carnet dadresses ou une liste deacutetiquettes postales

Ce dernier modegravele de production censhytreacute sur lexploitation du document structushyreacute est fondamentalement diffeacuterent du moshydegravele de la PAO traditionnelle en ce quil nous permet de consideacuterer les diffeacuterents supports ou formats de diffusion ainsi que les diffeacuterents formats de conservation comme eacutetant des produits deacuteriveacutes agrave partir dune mecircme source Cette deacuterivation est en geacuteneacuteral assez aiseacutee et surtout elle peut ecirctre automatiseacutee

Dans le cadre du projet Eacuterudit nous avons implanteacute une chaicircne de traitement baseacutee sur une telle approche dont la meacuteshythodologie sera deacutecrite en deacutetails dans la deuxiegraveme partie de cet article

Formats de diffusion et de conservation

Tout document eacutelectronique sera reshypreacutesenteacute par un fichier informatique mais le contenu exact de ce fichier sera deacutetermishyneacute par le format utiliseacute pour repreacutesenter linformation Tregraves souvent les formats de documents sont associeacutes agrave lapplication qui produit le document par exemple les

4 Voir lthttp w w w3orgTR1998REC-xml-19980210gt

octobre-deacutecembre 1999 163

Documentation et bibliothegraveques

formats Excel ou WordPerfect (pour une discussion exhaustive sur la question des formats de documents eacutelectroniques voir Marcoux 1994)

La question des formats est probableshyment la plus importante dans un contexte deacutedition savante eacutelectronique Elle a des impacts majeurs sur la production la diffushysion ainsi que la conservation des docushyments

Conservation

Puisque les documents eacutelectroniques doivent ecirctre stockeacutes dans un format donshyneacute il est neacutecessaire de sinterroger sur les critegraveres agrave utiliser dans le choix dun format de document eacutelectronique en ayant pour objectif la conservation agrave long terme (voir une discussion inteacuteressante agrave ce sujet dans Bullock 1999)

Dabord il faut que le format soit cashypable de repreacutesenter correctement linforshymation contenue dans le document Par exemple sil y a du texte et des images il est neacutecessaire dutiliser un format qui pershymette dinteacutegrer agrave la fois des informations textuelles et graphiques De nos jours ce nest plus un veacuteritable problegraveme car la plushypart des formats de document permettent dinteacutegrer diffeacuterents types dinformation et sont agrave proprement parler des formats de documents laquo multimeacutedias raquo

Nous voulons eacutegalement un format qui puisse ecirctre laquo lu raquo par une application et ce aussi longtemps que nous le souhaishytons Cest agrave ce stade-ci que les difficulteacutes se preacutesentent habituellement les convershysions dun format agrave lautre (par exemple PashygeMakers Word) ou encore dune version agrave lautre dun mecircme format (par exemple WordPerfect 50 agrave WordPerfect 8) ne sont pas une solution agrave ce problegraveme puisque plus souvent quautrement il y a des pershytes dinformation des changements dans la preacutesentation et dautres manifestations indeacutesirables

Heureusement il existe une faccedilon inshyteacuteressante et eacuteprouveacutee de contourner ce problegraveme Il sagit dutiliser agrave la fois un forshymat de repreacutesentation de linformation tregraves simple et tregraves universel et dutiliser une technique qui rende ces documents laquolisishybles par lhumain raquo Un document structureacute repreacutesenteacute agrave laide de XML est un bel exemple dun tel document

En effet on peut repreacutesenter un docushyment XML agrave laide de caractegraveres faisant partie du jeu de caractegraveres ASCII Concregraveshy

tement le fichier produit sera un pur fichier ASCII5 soit le type de fichiers le plus unishyversel que lon trouve dans le monde inforshymatique Il y a de fortes chances quil exisshytera encore des plates-formes informashytiques et des applications qui nous permetshytront de laquo voir raquo un fichier ASCII et ce pour encore une tregraves longue peacuteriode De plus un document structureacute utilisant XML contient de l information du genre laquolttitregtlntroductionlttitregtraquo Mecircme sans application particuliegravere mecircme sans connaissances informatiques ou de XML il est assez facile de simaginer que le mot laquo Introduction raquo constitue ici un titre et non le nom dun auteur

Diffusion

Les formats de diffusion de docushyments eacutelectroniques sont multiples et vashyrieacutes Toutefois il y a preacutesentement une asshysez forte convergence vers deux formats associeacutes au Web HTML et PDF (voir agrave ce sujet Lieb 1999) Le format PDF est partishyculiegraverement bien adapteacute pour la repreacutesenshytation exacte de documents imprimeacutes dans un format facilement diffusible sur le Web car le logiciel pour consulter les docushyments PDF est gratuit disponible en plushysieurs langues et bien connu des utilisashyteurs De plus il est facile de produire des documents PDF agrave partir de nimporte quelle application informatique Il est donc tout agrave fait naturel dutiliser ce format agrave des fins dimpression agrave distance et sur deshymande ce qui reacutepond agrave de nombreux beshysoins pour leacutedition savante qui a souvent de faibles tirages ou encore parce que les usagers nont besoin que dune partie des documents (un article plutocirct quun numeacutero dune revue par exemple)

Lautre format de convergence est eacutevishydemment le format HTML neacute avec le Web et populariseacute avec leacutevolution de ce reacuteshyseau Presque toutes les applications doshycumentaires peuvent maintenant lire ou produire des documents HTML Lorsquon associe HTML avec le langage JavaScript et les feuilles de style CSS6 et quon obshytient ainsi du Dynamic HTML (DHTML) il est possible de creacuteer de veacuteritables interfashyces de consultation et non de simples doshycuments eacutelectroniques (Dugand-Saenz et Verdret 1998) HTML est donc un excellent format de diffusion mais malheureuseshyment trop pauvre pour la gestion ou la proshyduction de documents De plus pour proshyduire un document HTML de qualiteacute cest-

agrave-dire une interface de qualiteacute on doit trashyvailler agrave partir dune source dinformation tregraves riche sinon le travail devra ecirctre fait agrave la main et sera fastidieux

Ces deux remarques nous amegravenent agrave conclure que le format HTML savegravere un format de diffusion agrave privileacutegier en autant que lon utilise un autre format de gestion et que lon puisse produire facilement des documents HTML de qualiteacute Ajoutons que les formats de PAO ne remplissent ni lune ni lautre de ces conditions mais que les normes SGML et XML elles satisfont ces besoins

Format de production ou de gestion

Au moment de la production de linforshymation nous devons travailler avec un forshymat qui nous permette datteindre tous les objectifs fixeacutes dans les sections preacuteceacutedenshytes et ce de faccedilon efficace En reacutesumeacute nous recherchons un format dencodage de linformation qui nous permette de reacuteshypondre agrave nos besoins soit

laquo manipuler aiseacutement les documents pour effectuer toutes les activiteacutes de proshyduction (gestion workflow diffusion etc)

bull permettre lexploitation de toutes les possibiliteacutes quoffrent les documents eacutelectroniques (multimeacutedia hypertexte geacuteshyneacuteration dynamique de contenu reshycherche plein texte donneacutees compleacutemenshytairessuppleacutementaires etc)

bull produire des documents eacutelectronishyques dans dautres formats (par exemple HTML) et ce en exploitant toutes les posshysibiliteacutes de ces formats

bull permettre la diffusion sur diffeacuterents supports (ceacutedeacuterom DVD reacuteseaux etc) y compris le support imprimeacute agrave laide dapplishycations de PAO

bull conserver agrave long terme et dans des conditions optimales linformation et sa structure afin den assurer la peacuterenniteacute

Les documents structureacutes constituent la meilleure faccedilon de reacutepondre efficaceshyment agrave lensemble de ces critegraveres Agrave lopposhyseacute les formats associeacutes agrave la PAO noffrent pas la mecircme polyvalence ni la mecircme puisshysance car ils contiennent de linformation en fonction dun seul et unique support

5 Techniquement les documents XML sont stockeacutes en Unicode mais on peut les reacuteduire agrave du simple ASCII sans perte dinformation

6 Cascading style sheet voir lthttpwwww3org Stylecssgt

164 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Exploitation du format eacutelectronique

Passer de limprimeacute agrave leacutelectronique constitue un changement qui va bien au-delagrave du mode de diffusion dune revue sashyvante Les formats eacutelectroniques permetshytent en effet de repreacutesenter plusieurs tyshypes dinformation que lon ne peut retroushyver dans un document imprimeacute Une revue en transition vers leacutelectronique inteacutegrera peu agrave peu ces types dinformation et son eacutediteur devra mettre en place les outils neacuteshycessaires pour y arriver

^information statique est la plus eacutevishydente mais aussi la seule qui peut ecirctre veacuteshyritablement repreacutesenteacutee sur une feuille de papier Il sagit de textes ou dimages qui une fois laquo imprimeacutes raquo ou laquo stockeacutes raquo dans le document ne changeront pas La plupart des documents existants ne contiennent que de linformation statique car ils ont eacuteteacute produits dabord et avant tout pouf un support qui ne permet que ce genre dinforshymation soit limprimeacute

Linformation dynamique est celle qui laquo bouge raquo qui sanime Ces animations ne sont pas controcircleacutees par les utilisateurs (ou si peu) mais plutocirct par les producteurs de linformation Le meilleur exemple est la videacuteo ou les images en mouvement La plushypart du temps linteraction de lutilisateur se limite agrave des fonctions telles que laquomarche avantraquo ou laquoarriegravereraquo laquopauseraquo laquoarrecirctraquo etc Les seacutequences sonores font eacutegalement partie de ces informations dyshynamiques

Linformation interactive est celle qui peut prendre diffeacuterentes formes ou vashyleurs en fonction du deacutesir de lutilisateur Elle se distingue de linformation dynashymique par limportance quelle accorde au controcircle par lutilisateur Par exemple la sishymulation dune moleacutecule en trois dimenshysions avec la possibiliteacute pour lutilisateur de manipuler la moleacutecule dans tous les sens pour la voir sous tous ses aspects constitue de linformation fortement intershyactive Un autre exemple consiste en la pushyblication dun algorithme auquel lutilisashyteur peut fournir des valeurs de deacutepart et veacuterifier les reacutesultats et ce de faccedilon instanshytaneacutee ou presque Cela peut aller dune simple calculatrice dinteacuterecircts composeacutes agrave la simulation de la puissance dun moteur

Linformaticircon active permet aux utilishysateurs dagir sur le contenu du document ou encore sur lenvironnement de consulshy

tation Les liens hypertextuels font partie de cette cateacutegorie de mecircme que les forshymulaires interactifs Par exemple un sonshydage publieacute dans un article scientifique pourrait ecirctre mis agrave jour dynamiquement par des lecteurs qui pourraient faire connaicirctre leur opinion agrave partir du docushyment

Un des problegravemes majeurs pour les eacutediteurs et par le fait mecircme pour les utilishysateurs est labsence ou la surabondance de normes pour certains types dinformashytion Dans le cas du texte et des images simples la situation est assez facile agrave maicircshytriser de par lomnipreacutesence du format HTML et de ses formats dimage associeacutes GIF et JPEG Mais au-delagrave de ces quelshyques formats la situation devient plus diffishycile car le support nest habituellement pas inclus dans les navigateurs communs et il faut donc inciter les utilisateurs agrave instalshyler des modules externes ou des applicashytions suppleacutementaires afin de pouvoir consulter certaines parties de documents Un utilisateur sera enclin agrave installer un tel module sil en a besoin au moins occasionshynellement ou si linformation manquante est tregraves importante pour lui Sinon il va aller voir ailleurs ou il sen passera

Le deacutefi technologique est double troushyver des formats adeacutequats pour chaque type dinformation susceptible de se preacuteshysenter et trouver un format de base qui puisse lier tous ces types dinformation et qui serve de laquocimentraquo aux diffeacuterentes parshyties du document eacutelectronique

Dans le cas du format de base un moshydegravele de traitement centreacute sur XML peut saveacuterer suffisant En effet XML permet dinteacutegrer des parties de documents en difshyfeacuterents formats Ainsi assembler un docushyment ayant des composantes textuelles iconographiques videacuteo sonores et des alshygorithmes nest pas un reacuteel problegraveme De plus si on utilise HTML comme principal format de diffusion pour la consultation eacutelectronique de linformation nous avons lagrave eacutegalement un format qui peut assemshybler des documents tregraves complexes comshyprenant des parties tregraves diffeacuterentes et stocshykeacutes dans des formats varieacutes Bref XML et HTML sont tous deux des formats laquo hyper-meacutedias raquo et ils constituent des solutions inshyteacuteressantes pour la gestion et la diffusion de tels types de documents

Lautre partie du deacutefi est plus probleacuteshymatique quel(s) format(s) utiliser pour les diffeacuterents types dinformation Agrave ce sujet un grand effort de normalisation reste agrave

faire avant de sassurer que les navigashyteurs habituels puissent preacutesenter tous les types dinformation sur toutes les plates-formes Toutefois soulignons certains asshypects encourageants tels que la mise en place dune norme de lindustrie pour les images vectorielles (SVG7) et lutilisation croissante du langage de programmation Java pour les applications dynamiques (ce qui pourrait ecirctre utile pour les algorithmes et les simulations)

Aujourdhui un eacutediteur qui prend au seacuterieux leacutedition eacutelectronique et lexploitashytion optimale des possibiliteacutes quoffrent les documents eacutelectroniques devrait entreshyprendre ces diffeacuterentes deacutemarches

raquo sensibiliser instruire les auteurs poshytentiels aux possibiliteacutes des documents eacutelectroniques Sans matiegravere premiegravere il est inutile de mettre en place des systegraveshymes sophistiqueacutes

m sensibiliser les utilisateurs aux posshysibiliteacutes des documents eacutelectroniques Sans demande loffre ne sera pas neacutecesshysaire

m identifier les formats de diffusion les plus adeacutequats Il y a deux questions fondamentales agrave se poser Est-ce que le format choisi permettra de repreacutesenter adeacutequatement linformation agrave diffuser Est-ce que les utilisateurs possegravedent les eacutequipements et logiciels neacutecessaires pour pouvoir consulter des documents utilisant ce format

bull eacutetablir des protocoles pour leacutechange de tels documents Les auteurs et les eacutedishyteurs doivent ecirctre en mesure de se transshymettre efficacement ce genre dinformashytion

m mettre en place une infrastructure de gestion pour ces types de documents Leacutediteur doit ecirctre en mesure de manipuler et geacuterer ces parties de documents et bien souvent les formats de diffusion etou deacutechange ne sont pas les meilleurs pour y arriver surtout si lon considegravere la neacutecessishyteacute de conservation agrave long terme par exemple

bull participer aux efforts de normalisashytion des formats et des applications Les eacutediteurs ont leur mot agrave dire car ils pourshyraient en ecirctre les premiers beacuteneacuteficiaires

Il sagit donc dun agenda tregraves chargeacute pour une tacircche qui nest pas simple Lexpeacuteshyrimentation pourrait ecirctre la solution dans

7 Scalable Vector Graphics voir lthttp wwww3 org GraphicsSVGgt

octobre-deacutecembre 1999 165

Documentation et bibliothegraveques

bien des cas pour y arriver la meilleure meacutethode consiste probablement en la creacuteation dune nouvelle revue savante pushyrement eacutelectronique dans une discipline qui se precircte bien agrave la diffusion de diffeacuterents types dinformation

Conclusion sur les modegraveles techniques de publication

Cette premiegravere partie avait pour objecshytif de preacutesenter les diffeacuterentes techniques relieacutees agrave leacutedition eacutelectronique Nous avons surtout chercheacute agrave montrer que sans un modegravele technologique solide et orienteacute vers le document eacutelectronique et la reacuteutilishysation de linformation il est impossible dexploiter un tant soit peu les possibiliteacutes des documents eacutelectroniques Les asshypects importants de ce modegravele sont les meacutethodes de production et les formats de documents (pour la gestion la diffusion et la conservation) et ils doivent mener agrave une exploitation optimale des possibiliteacutes de leacutelectronique Heureusement un tel modegravele existe et il a eacuteteacute expeacuterimenteacute dans le cadre du projet Eacuterudit Il sagit de baser la chaicircne de traitement sur un document structureacute en format XML agrave partir duquel les diffeacuterents formats de diffusion y comshypris sur support imprimeacute sont produits (dautres eacutediteurs sont aussi arriveacutes agrave cette conclusion voir entre autres Kasdorf 1998) Les deacutetails techniques de ce moshydegravele seront preacutesenteacutes dans la seconde partie

Lexistence dun tel modegravele ne signifie malheureusement pas labsence de tout problegraveme ou la reacutealisation sans douleur de projets deacutedition eacutelectronique Les veacuteritashybles documents eacutelectroniques qui inshycluent de linformation dynamique et intershyactive sont des objets avec lesquels on doit continuer agrave se familiariser afin de troushyver des applications et des formats adeacuteshyquats Mais surtout il est important de reshyvoir notre conception de ce quest un docushyment et de le consideacuterer plutocirct comme une interface agrave un reacuteservoir dinformation Dune part linterface peut ecirctre individuashyliseacutee pour chaque utilisateur agrave chaque consultation dautre part le reacuteservoir dinshyformation peut ecirctre en constante modificashytion Cela demande un changement de culshyture important chez les eacutediteurs et les aushyteurs et agrave un degreacute moindre chez les lecshyteurs-utilisateurs Ce changement sexshyprime bien entendu par de nouvelles chaicircnes de traitement ou de nouveaux moshy

degraveles techniques mais il doit eacutegalement sexprimer par de nouvelles mentaliteacutes

Preacutesentation dune chaicircne de traitement lexemple du projet Eacuterudit

Lhistoire nous a montreacute que tout noushyveau meacutedia a deacutebuteacute en tentant dabord de calquer un moyen de diffusion existant Eacuteventuellement ce nouveau meacutedia eacutevolue et arrive agrave se deacutefinir et agrave deacutevelopshyper ses propres caracteacuteristiques devenant ainsi reacuteellement novateur Ainsi pour la plupart des initiatives et des innovations dans le domaine de la publication scientishyfique le modegravele de lagrave revue savante sur le Web commence par une transposition du modegravele imprimeacute deacutejagrave existant

Pour en assurer la reacuteussite la laquotransishytion raquo du format papier agrave leacutelectronique imshyplique dune part de travailler selon des faccedilons de faire deacutejagrave existantes et dautre part de graduellement en implanter de nouvelles propres aux impeacuteratifs et aux possibiliteacutes dun traitement eacutelectronique Dans le cadre du projet pilote Eacuterudit cette nouvelle chaicircne de production a eacuteteacute reacuteashyliseacutee parallegravelement au processus de proshyduction courant des revues Il a eacuteteacute eacutetabli quon tenterait de reproduire le plus fidegraveleshyment possible la signature (apparence) et la structure (construction) quaffichait la forme imprimeacutee des revues participantes afin dassurer une transition en douceur de mecircme que pour respecter linteacutegriteacute des contenus Dun point de vue techshynique cela sapparente agrave faire un traiteshyment reacutetrospectif des documents puisque aucune intervention de notre part ne poushyvait ecirctre faite preacutealablement ou parallegraveleshyment agrave la creacuteation du document Ainsi la meacutethodologie mise en place et exposeacutee ici est-elle le fruit dun meacutelange de condishytions de contraintes et de possibiliteacutes dicshyteacutees par cette situation Cette meacutethodoshylogie on le comprendra aiseacutement est bien diffeacuterente de celle qui pourrait ecirctre mise en place pour la production dune revue unishyquement eacutelectronique et cela serait daushytant plus vrai sil sagissait dune toute noushyvelle revue Dans ce dernier cas toutes les conventions et interventions neacutecessaishyres agrave la production dune revue eacutelectroshynique peuvent ecirctre consideacutereacutees et implanshy

teacutees degraves le deacutebut de sa conception Nous devons aussi souligner que

cette chaicircne est baseacutee sur la norme SGML mais en fait elle pourrait tregraves bien lecirctre sur XML la norme plus reacutecente En effet aucune fonctionnaliteacute de SGML non preacutesente dans XML na eacuteteacute utiliseacutee Par conseacutequent dans la description qui suit les expressions laquoSGMLraquo et laquoXMLraquo sont interchangeables

Deacutefinition du type de document (DTD)

Au deacutebut dun projet baseacute sur SGML le choix ou la creacuteation dune Deacutefinition du type de document (DTD) est une eacutetape prishymordiale La DTD est le fondement dune application SGML Cest elle qui deacutetershymine de quelle faccedilon les documents seront repreacutesenteacutes les traitements qui seront possibles etc En quelque sorte il sagit du veacuteritable laquoformatraquo des docushyments Les reacuteponses aux questions suishyvantes orienteront la creacuteation ou le choix dune DTD

bull Quels sont les types de documents agrave traiter Quels sont les types de docushyments semblables

bull Quelles sont les composantes structurelles des documents Quels sont les autres types deacuteleacutements logiques appashyraissant dans chaque type de document

bull En plus des contenus textuels quelshyles autres informations ou proprieacuteteacutes peuvent ecirctre assigneacutees agrave chaque type deacuteleacutement

laquoQuelles sont les relations logiques entre chacun des eacuteleacutements

bull Que veut-on faire de linformation Quelles sont les types de structures et de relations que lon veut encoder dans le balishysage SGML de faccedilon agrave pouvoir reacutepondre aux besoins deacutechange (partage) de repeacuteshyrage de diffusion et de reacuteutilisation de linshyformation

Cet exercice en est un danalyse de besoins en fonction des coucircts encourus et des beacuteneacutefices retireacutes Ainsi un balisage fin et hautement structureacute insufflant de ce fait une laquointelligenceraquo aux documents pershymettra une exploitation plus performante des donneacutees tandis quun balisage plus grossier effectueacute agrave moindre coucirct trouvera une possibiliteacute de reacuteutilisation reacuteduite ou demandant certaines interventions

En matiegravere de revues savantes leacutequipe deacutes publications eacutelectroniques

166 octobre-deacutecembre 1999

Documentation et bibliothegraveques

des Presses de lUniversiteacute de Montreacuteal a eu dans des projets anteacuterieurs agrave celui-ci lopportuniteacute deacutetudier la question du choix de la DTD pour ce type de publication8 La DTD IS012083 Article ayant eacuteteacute deacutecreacuteteacutee trop limiteacutee on a jugeacute souhaitable dadapshyter cette derniegravere aux besoins des revues savantes Du noyau de la DTD ISO 12083 auquel on a greffeacute des fragments dautres DTD normaliseacutees mdash CALS (Continuous Acquisition and Life Cycle Support) TEI (Text Encoding Initiative) DTD de la revue Earth Interactions^ mdash nous en sommes arriveacutes agrave creacuteer la DTD des Presses de lUniversiteacute de Montreacuteal (alias DTD PUM) laquelle devait deacutecrire la structure dun arshyticle de peacuteriodique dune revue savante On a eacutegalement proceacutedeacute agrave certains ajouts maison concernant entre autres la gesshytion des diffeacuterentes langues le deacutecoupage des reacutefeacuterences bibliographiques etc

Description des eacutetapes de la chaicircne de traitement

Analyse preacuteliminaire

Avant dutiliser la chaicircne de traiteshyment proprement dite un examen attentif de plusieurs numeacuteros deacutejagrave parus doit ecirctre meneacute pour chaque revue Cet examen doit ecirctre fait pour chaque nouvelle revue Ideacuteashylement lanalyse doit porter sur une peacuteshyriode reacutetrospective suffisamment longue et un nombre de numeacuteros suffisamment important pour englober lensemble des caracteacuteristiques et variations de la revue Cette analyse servira agrave identifier les types de documents (articles comptes rendus notes eacutetudes etc) et leur structure seacuteshymantique10 MHV (titres reacutesumeacutes secshytions subdivisions tableaux eacutequations ilshylustrations citations renvois reacutefeacuterences notes infrapaginales etc)

Cest aussi loccasion dobserver la reacuteshygulariteacute et la conformiteacute de lapplication du protocole de reacutedaction en vigueur ce qui a un impact important sur la qualiteacute En prinshycipe si les documents preacutesentent une structure uniforme et constante (agrave linteacuteshyrieur dun mecircme document et dun docushyment agrave lautre) si le protocole de reacutedaction a ducircment eacuteteacute respecteacute et si leacutetape du choix ou de la creacuteation de la DTD a eacuteteacute bien faite les composants seacutemantiques rencontreacutes leur nombre et lordre dans leshyquel ils se preacutesentent devraient tous ecirctre conformes agrave la DTD Dans la situation ougrave

la correspondance entre la DTD et cershytains eacuteleacutements logiques se retrouvant dans les documents est impossible il faushydra apporter des modifications soit agrave la DTD soit aux documents soit agrave la fois agrave la DTD et aux documents Cette intervention meacuterite une reacuteflexion importante puisshyquelle est lourde de conseacutequences Dans un contexte de conversion reacutetrospective il est impossible dintervenir sur le contenu des documents Les changements agrave la DTD doivent ecirctre faits en consideacuterant un eacuteventail de besoins et non seulement le beshysoin preacutecis qui nous amegravene agrave vouloir modishyfier la DTD Aussi les changements agrave la DTD doivent ecirctre additifs et non correctifs de faccedilon agrave garder une certaine compatibilishyteacute avec les documents produits anteacuterieureshyment agrave ces changements

Outre les modifications de nature seacuteshymantique les amendements doivent sinsshycrire plus largement dans lutilisation soushyhaiteacutee tant agrave court quagrave plus long terme des documents En effet la mise en page en fonction de diffeacuterents meacutedias (papier eacutecran etc) la recherche structureacutee la reacuteushytilisation de certaines parties de docushyments etc deacutependront toutes dune indicashytion SGML (un eacuteleacutement speacutecifique une valeur dattribut etc) En principe cette reacuteshyflexion a ducircment eacuteteacute faite lors de leacutetape du choix ou encore de la conception de la DTD de sorte que les eacuteleacutements logiques devraient tous sharmoniser avec la DTD Cependant puisque aucun controcircle na pu ecirctre exerceacute sur la structuration initiale des documents comme il a eacuteteacute expliqueacute plus haut il se peut que certains eacuteleacutements logishyques ne trouvent pas de correspondance dans la DTD

Il faut eacutegalement discerner les caprishyces de la mise en page papier actuelle faite de faccedilon manuelle la plupart du temps des veacuteritables besoins de discerneshyment visuel des composants logiques Ainsi une information SGML doit ecirctre preacutevue pour faire en sorte quune liste orshydonneacutee soit rendue de faccedilon diffeacuterente dune liste agrave puces On pourra ainsi agrave leacutetape de production dune sortie papier produire respectivement un numeacutero seacuteshyquentiel ou un symbole tel un rond plein (laquo bull raquo) devant chaque item de liste

En theacuteorie la production du SGML et les ajustements agrave la DTD ne devraient pas ecirctre faits en fonction des limites des outils employeacutes cependant en pratique on ne peut ignorer cet aspect Par exemple une formule matheacutematique peut ecirctre finement

baliseacutee selon un modegravele de DTD approshyprieacute (fonction numeacuterateur deacutenominateur arguments etc) En pratique cependant plusieurs logiciels de notre chaicircne de traishytement ne peuvent reconnaicirctre et traiter adeacutequatement une formule reproduite sous cette forme On se rabattra alors sur une repreacutesentation graphique de la forshymule cest-agrave-dire linsertion dun fichier image Ceci peut demander des modificashytions agrave la DTD Autre exemple lemploi de jeux de caractegraveres eacutetrangers bien quils puissent ecirctre repreacutesenteacutes en SGML (entre autres par lemploi dentiteacutes caractegraveres coshydeacutees en Unicode11) peut nous faire renshycontrer les limites des outils de traitement Ici encore on preacuteconisera une solution de rechange impliquant des modifications au SGML produit et conseacutequemment agrave la DTD Si le nombre de limitations renconshytreacutees par les outils est tregraves important on deacutecidera afin de ne pas laquocorrompreraquo abushysivement la source SGML de produire (aushytomatiquement de preacutefeacuterence) des vershysions SGML transitoires

Nous avons recours agrave une version SGML transitoire pour la production du PDF (une eacutetape plus en aval de la chaicircne qui sera expliqueacutee plus loin) Cette version transitoire sert agrave reacuteordonner et qualifier certains eacuteleacutements de faccedilon agrave accommoshyder certaines caracteacuteristiques propres aux revues (par exemple le fait de preacutesenter les reacutesumeacutes agrave la toute fin de larticle plutocirct quau deacutebut) Elle est produite automatishyquement avec le logiciel OmniMark

Preacutetraitement

Mise en styles et preacuteparation des textes

La chaicircne de traitement proposeacutee comporte une eacutetape de preacutetraitement des documents originaux (Figure 1) Cette

8 Voir Un nouveau modegravele de publication eacutelectronique ltURL http wwwpumumontrealcapubl__electr vision htmlgt

9 ltURL http EarthInteractionsorggt 10 Nous employons dans cet article lexpression laquostrucshy

ture seacutemantiqueraquo pour souligner lorganisation dun document textuel baseacute sur le sens de ses composhysants par opposition agrave leur apparence

11 La norme Unicode est un jeu de caractegraveres eacutetaleacute sur 16 bits ce qui permet la repreacutesentation dun maxishymum de 65 536 caractegraveres diffeacuterents Elle corresshypond au premier plan agrave 2 octets (le BMP Basic Multishylingual Plane) dune norme plus universelle (baseacutee sur 4 octets) soit la norme ISO 10646 Voir ltURL http wwwunicodeorggt

octobre-deacutecembre 1999 167

Documentation et bibliothegraveques

Figure 1 Chaicircne de traitement du projet Eacuterudit

Documents mis en styles (Word)

1 r f bull -

Documents originaux (WordJ

Documents 1 k | ltSfiMI 1

^ 1 wninii 1 mdash

[DTDPUMJ Formats de diffusion 1 HTML

SGML

flHGIiHiB

eacutetape consiste agrave appliquer un ensemble de styles contenus dans un modegravele de doshycument (feuille de style) agrave un document original en format MS Word Utilisation de styles sur des parties de texte inscrit dans le format intrinsegraveque du traitement de texte des codes qui nous permettront daushytomatiser le balisage en SGML

Cest agrave cette eacutetape que lon insuffle une certaine laquointelligenceraquo au document Ainsi le modegravele de document et les styles quil contient ne sont pas destineacutes agrave modishyfier lapparence des documents comme lont dabord penseacute les concepteurs de cette fonctionnaliteacute mais plutocirct agrave identifier certaines parties des documents Par exemple nous chercherons agrave identifier les titres les auteurs les reacutefeacuterences bibliograshyphiques les reacutesumeacutes etc Il est important de comprendre que nous nutiliserons pas les styles agrave des fins de mise en page mais bien didentification des diffeacuterents composhysants du texte

Outre lapplication des styles luniforshymisation et la normalisation des textes doivent ecirctre effectueacutees Ainsi les tashybleaux les listes et les notes infrapagina-les doivent avoir eacuteteacute produits avec les foncshytionnaliteacutes approprieacutees du traitement de texte (en dautres mots que ce soient de vrais tableaux et non des chaicircnes de texte seacutepareacutees par des tabulations par exemple) Nous analysons agrave leacutetape de la programmation lensemble des codes du traitement de texte les liens entre les apshypels de notes et les notes la largeur relashytive des colonnes des tableaux laligneshy

ment des contenus des cellules des tableaux etc et nous reproduisons cette information dans les documents SGML Au besoin certains composants doivent ecirctre reacuteordonneacutes (par exemple si lauteur a ajouteacute son reacutesumeacute agrave la fin on devra le repishyquer au deacutebut du document agrave la suite des eacuteleacutements de titres et dauteurs tel que le preacutevoit la DTD)

Nous avons deacuteveloppeacute un modegravele de document pour chacune des revues Ces modegraveles contiennent en moyenne de 30 agrave 50 styles diffeacuterents en fonction du nombre de composants retrouveacutes Parmi ces styles certains sont de type paragraphe (blocs de texte) et dautres de type caracshytegravere (chaicircnes de texte agrave linteacuterieur des blocs)

Leacutetape de mise en styles pourra ecirctre reacutealiseacutee par la personne responsable de la preacuteparation des textes agrave publier soit habishytuellement une personne faisant partie du comiteacute de production de la revue Agrave cet effet nous avons dans le cadre du projet Eacuterudit entrepris de donner des seacuteances de formation personnaliseacutee aux responsashybles des revues lesquelles portaient sur la preacuteparation des documents et lapplication des feuilles de style Notre expeacuterience deacuteshymontre que cette eacutetape est plus facilement reacutealisable par des personnes maicirctrisant bien leur outil de traitement de texte Un certain controcircle de qualiteacute doit ecirctre effecshytueacute sur les premiers documents styleacutes

Une fois styleacute le document servira dintrant (input) agrave leacutetape de conversion SGML Cest pourquoi il doit sagir dune

version finale du texte cest-agrave-dire quil doit ecirctre complet et deacutejagrave comprendre toushytes les corrections neacutecessaires Agrave cet effet nous avons rencontreacute quelques proshyblegravemes puisque le traitement traditionnel des revues comporte une ou plusieurs eacutetashypes de correction deacutepreuves une fois le document mis en page agrave laide dun logishyciel de PAO (tel PageMaker ou XPress) Les corrections sont alors effectueacutees direcshytement dans ces logiciels et ne sont pas reshypiqueacutees dans la copie de traitement de texte initiale Notre systegraveme de traitement preacuteconise une utilisation de fonctionnalishyteacutes approprieacutees du traitement de texte (styles notes tableaux etc) De plus les corrections de nature textuelle (orthoshygraphe et syntaxe de mecircme que la plushypart des corrections de nature typograshyphique) doivent ecirctre faites dans le fichier de traitement de texte Il faut prendre en consideacuteration le fait que ce fichier sert agrave la production de documents darchivage de documents deacuteriveacutes (sommaires tables des matiegraveres listes de reacutesultats de reshycherche etc) ainsi que de plusieurs forshymats de diffusion Ce fichier source de par son contenu et sa structure doit donc ecirctre le plus acheveacute possible Cela exige de la personne qui preacutepare les textes de bonnes connaissances linguistiques et tyshypographiques Les erreurs reacuteveacuteleacutees en aval dans la chaicircne de production doivent ecirctre corrigeacutees dans les fichiers de traiteshyment de texte

168 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Eacutepreuves eacutelectroniques

Depuis la fin du projet Eacuterudit nous avons testeacute linteacutegration du processus de reacutevision des eacutepreuves dans la chaicircne de traitement Dans un processus plus tradishytionnel cette reacutevision se fait habituelleshyment sur les eacutepreuves imprimeacutees des artishycles une fois la mise en page effectueacutee agrave laide de logiciels de PAO Les corrections apporteacutees peuvent ecirctre agrave la fois de nature orthographique syntaxique typograshyphique et peuvent aussi concerner des asshypects du montage La diffusion du mecircme contenu sur plusieurs supports de diffushysion nous amegravene agrave discerner entre les corshyrections devant ecirctre repiqueacutees dans le fishychier initial de traitement de texte (de fashyccedilon agrave ce que lensemble des formats de difshyfusion profitent de ces modifications) des corrections sappliquant uniquement agrave la mise en page papier Nous produisons donc maintenant des laquoeacutepreuves eacutelectronishyques raquo cest-agrave-dire des sorties imprimeacutees obtenues agrave partir dun logiciel de PAO soit FrameMaker+SGML (voir plus loin pour la description de cette eacutetape) sans avoir agrave efshyfectuer dimportantes interventions mashynuelles au niveau du montage Sur ces eacutepreuves sont apporteacutees les corrections se rapportant au texte (et non agrave sa mise en page en vue de limprimeacute) lesquelles seshyront ensuite repiqueacutees dans le fichier Word initial qui servira agrave la reacutegeacuteneacuteration des diffeacuterents formats produits Dans la perspective ougrave plusieurs formats diffeacuteshyrents (SGML HTML PDF) sont produits agrave partir dun mecircme fichier initial on comprenshydra linteacuterecirct deffectuer un maximum de corrections en amont (donc degraves la reacutevision du fichier Word) et non en aval sur un forshymat en particulier plutocirct que sur un autre

Traitement des images

Les illustrations que peuvent comporshyter les articles parviennent habituellement aux responsables des revues sous diffeacuteshyrentes formes photos impressions laser velox etc et plus rarement sous forme eacutelectronique fichiers vectoriel ou bitmap provenant de logiciels graphiques et imashyges numeacuteriseacutees Traditionnellement ces images sont inseacutereacutees dans le texte au moment du montage de la copie agrave imprishymer par le typographe qui les numeacuterise et les retouche ou encore par le technicien de latelier de preacuteimpression qui les reproshyduit par proceacutedeacute photographique

Linteacutegration des images dans la chaicircne de traitement Eacuterudit est de beaushycoup faciliteacutee si ces documents nous parshyviennent en format numeacuterique Les imashyges sont traiteacutees comme des fichiers seacutepashyreacutes qui sont reacutefeacutereacutes agrave partir des docushyments

Les secreacutetariats des revues neacutetant habituellement pas eacutequipeacutes en mateacuteriel et savoir-faire pour manipuler des images ce type dintervention sera effectueacute par le fournisseur de services en loccurrence leacutequipe dEacuterudit Cependant les comiteacutes de revues devraient tenter dobtenir des auteurs autant que faire se peut une vershysion des images en format eacutelectronique Ces images devraient toujours ecirctre de tregraves bonne qualiteacute (avec une haute reacutesolution et si deacutesireacute en couleurs) afin de servir agrave larchivage Cest agrave partir des images de bonne qualiteacute quon effectuera le traiteshyment (surtout des modifications de forshymats de fichiers des baisses de reacutesolushytion des sauvegardes en noir et blanc) en vue des diffeacuterents modes de diffusion (arshychivage Web et imprimeacute) Afin de standarshydiser le processus de traitement des imashyges nous avons eacutetabli des proceacutedures norshymaliseacutees Enfin bien que cela ne se soit pas encore produit un type dintervention de mecircme nature est agrave preacuteconiser pour dautres formats non textuels (videacuteo son images 3D etc)

Nous avons exposeacute dans cette section les diffeacuterents eacuteleacutements portant sur le preacutetraitement des textes soit lapplicashytion des styles et le traitement des images Une fois le document preacutetraiteacute il est precirct agrave ecirctre converti en SGML

Conversion en SGML

Puisque la feuille de style utiliseacutee pour styler les documents a eacuteteacute conccedilue en fonction dun passage efficace vers un doshycument SGML respectant la DTD PUM une conversion relativement automatique est possible Cette conversion qui consiste en linterpreacutetation des informashytions existantes et lajout dinformations deacuteshyriveacutees requiert cependant un outil speacutecialishyseacute Il serait agrave ce point-ci de la discussion important dexpliquer la diffeacuterence entre Une conversion de donneacutees au sens SGML et une traduction de donneacutees

Une traduction est une opeacuteration qui consiste agrave prendre un ensemble de donshyneacutees (information et mise en forme confonshydus) dun format proprieacutetaire et le traduire

en un ensemble eacutequivalent qui peut ecirctre inshyterpreacuteteacute et eacutediteacute dans un autre logiciel utilishysant un format proprieacutetaire (par exemple passer un document de Word agrave WordPershyfect) Au contraire une conversion vers SGML implique deacutetablir un lien entre un document dans un format proprieacutetaire (ougrave la structure logique est habituellement perccedilue de faccedilon visuelle par le lecteur) agrave un document SGML laquointelligentraquo (ougrave la structure logique est codeacutee de faccedilon explishycite suivant une DTD donneacutee)

Une conversion enrichissante (traducshytion libre de up conversion) est une convershysion dun format plat vers un format seacutemanshytique structureacute (par exemple dun format WordPerfect vers un format SGML) ou plus preacuteciseacutement une conversion de donshyneacutees textuelles dun format dencodage arshybitraire vers une instance SGML valide Une conversion appauvrissante (traducshytion libre de down conversion) quant agrave elle consiste en une conversion dun forshymat logique vers un format proprieacutetaire (par exemple dun format SGML vers un format MS Word) Ce type de conversion est la cleacute du succegraves de SGML puisquelle assure une complegravete reacuteutilisation des donshyneacutees Agrave partir dun format SGML la convershysion peut ecirctre facilement automatiseacutee tout en conservant linteacutegriteacute des donneacutees

Il existe plusieurs produits logiciels apshytes agrave convertir des textes dun format agrave un autre Ces produits sont disponibles essenshytiellement sous la forme de programmes ou de solutions parameacutetrables12 Nous avons opteacute pour le langage de programmashytion speacutecialiseacute OmniMarkreg

Nous effectuons la conversion en deux eacutetapes dont la premiegravere est reacutealiseacutee agrave laide dun programme en langage OmnishyMark disponible gratuitement13 La seshyconde eacutetape se charge dajouter une strucshyture seacutemantique normaliseacutee pour la desshycription darticles savants et introduira de linformation suppleacutementaire agrave valeur ajouteacutee Ainsi nous creacuteons sans aucune intervention manuelle des liens entre les appels de reacutefeacuterences dans le texte et les reacutefeacuterences bibliographiques agrave la fin du

12 Pour une liste exhaustive de ce genre de produit consulter la rubrique laquo Conversion Program raquo dans Survey of software for structured text par Eila Kuikka et Erja Nikunen ltURL http www xsukufi~kuikkasys-temshtmlgt

13 Il sagit de RTF2XML (auparavant RTF2SGML) deacuteshyveloppeacute par Rick Geimer ltURLhttpwwwxme-ta comomlettegt

octobre-deacutecembre 1999 169

Documentation et bibliothegraveques

texte Pour ce faire il faut analyser meacuteticu-leusement les syntaxes de reacutefeacuterences utilishyseacutees par chaque revue [par exemple laquo(Vaugeois et Hubert 1993a)raquo ou laquo(Va-Hu93a) raquo] afin deacutetablir des patrons de reshyconnaissance sur lesquels on peut enshysuite bacirctir des regravegles de programmation Cette deuxiegraveme eacutetape est effectueacutee par un programme en langage OmniMark reacutealiseacute dans le cadre du projet Eacuterudit

Formats de diffusion

Les formats de diffusion choisis doishyvent permettre de satisfaire les habitudes de lecture et les besoins de consultation qui diffegraverent dun usager agrave lautre Ainsi nous preacuteconisons la diffusion des docushyments en plusieurs formats Notre modegravele de diffusion est baseacute sur le document dans sa version SGML Ce document eacutelecshytronique unique constitue la source de plushysieurs sous-produits qui sont autant de forshymats de sortie possibles Les supports de diffusion qui sont compatibles avec ces forshymats sont divers diffusion en ligne (Web) diffusion sur ceacutedeacuterom diffusion sur papier Dans le cadre du projet Eacuterudit nous avons consideacutereacute trois formats de sortie (HTML SGML et PDF) Nous avons eacutegalement deacuteshycideacute deacute rendre disponible le format SGML ce dernier se precirctant tregraves bien agrave la consulshytation dans la mesure ougrave les navigateurs SGML sont capables dexploiter la strucshyture des documents de faccedilon agrave offrir un enshyvironnement de lecture plus sophistiqueacute et complet Enfin le format PDF permet la difshyfusion de documents eacutelectroniques reproshyduisant la mise en page choisie par les difshyfuseurs Ce format est tout agrave fait approprieacute pour limpression agrave distance Nous envisashygeons agrave court terme doffrir eacutegalement le format XML qui peut ecirctre consulteacute agrave laide des versions 5 des navigateurs Internet Explorer et Netscape Navigator

Un principe de base de la philosophie SGML voulant que linformation une fois baliseacutee en SGML puisse ecirctre reacuteutiliseacutee plusieurs fois et cela avec diffeacuterentes sashyveurs tant dans linteacutegraliteacute du contenu (en tout ou en parties) que dans la forme du contenant (dans un format particulier) il est tout naturel de convertir les fichiers SGML en fichiers HTML Il sagit en fait dune conversion SGML (DTD PUM soit la DTD deacuteveloppeacutee aux Presses de lUnishyversiteacute de Montreacuteal pour reacutepondre aux beshysoins de balisage des revues savantes) vers SGML (DTD HTML) Ainsi les artishy

cles sont convertis automatiquement en HTML agrave laide dun autre programme OmniMark Nous produisons de la mecircme faccedilon une table des matiegraveres pour chaque numeacutero de revue Cette table des matiegraveres ne provient pas dun document initial unique saisi sous forme de table des matiegraveres mais plutocirct de la concateacutenation dinformations reacutecupeacutereacutees dans lenshysemble des articles (titres sous-titres auteurs) en format SGML Cest un bon exemple de reacuteutilisation de linformation

Puisque lensemble des documents produits sont baseacutes sur la DTD PUM la conversion du SGML vers le HTML est reacuteashyliseacutee par un seul programme de convershysion pour lensemble des revues Ce proshygramme comporte cependant quelques particulariteacutes de preacutesentation propres agrave chaque revue et dune telle pratique reacuteshysulte une apparence assez semblable pour chacune des revues La fabrication dune signature dune maquette diffeacuterente pour chaque revue est reacutealiseacutee agrave laide dune feuille de style CSS (Cascading Style Sheet) fonction de plus en plus supshyporteacutee par les navigateurs Web

Pour linstant nous stockons sur notre serveur Web la version HTML preacuteshyconvertie Cependant la conversion tant pour les articles que pour la table des mashytiegraveres pourrait aiseacutement ecirctre faite laquoagrave la voleacutee raquo (on the fy) puisquil ny a aucune inshytervention manuelle sur les fichiers HTML On pourrait facilement faire en sorte quau moment ougrave lutilisateur par le biais de son client Web fait la demande dun fichier HTML (par exemple un article donneacute) le serveur (sur lequel serait installeacute OmnishyMark) convertisse leacute fichier SGML en fishychier HTML Ceci aurait pour avantage doccuper moins despace disque (environ la moitieacute de moins puisque seule la vershysion SGML serait stockeacutee et que le rapport SGMLHTML doit plus ou moins ecirctre eacutegal agrave 1 ) Il resterait agrave sassurer de deacutelais de reacuteshyponses acceptables

SGML

Les utilisateurs peuvent visionner les documents SGML agrave laide de Panorama Viewer de Interleaf14 un navigateur SGML qui sinstalle comme module exshyterne (plug-in) dun navigateur Web tel Netscape Navigator

Panorama Viewer permet de creacuteer des liens entre diffeacuterentes parties des doshycuments ou diffeacuterents documents Il pershy

met eacutegalement de preacutesenter des tables des matiegraveres dynamiques qui constituent des aides agrave la navigation Une autre foncshytion de Panorama offre la possibiliteacute danshynoter nimporte quelle partie dun docushyment y compris une zone dune figure deacuteshytermineacutee par le lecteur Enfin il permet dajouter des signets dans un document

La diffusion des articles en format SGML requiert peu defforts puisquil sagit du format natif des documents Pour ecirctre plus exact nous diffusons une vershysion SGML agrave peine diffeacuterente de la version produite lors de leffort de conversion enshyrichie deacutecrite preacuteceacutedemment Cette diffeacuteshyrence minime tient exclusivement agrave la non-reconnaissance par le navigateur SGML de certains caractegraveres eacutetrangers et symshyboles particuliers Panorama Viewer eacutetant en mesure de lire du SGML il faut simpleshyment lui indiquer la mise en forme propre aux diffeacuterents eacuteleacutements rencontreacutes Ces instructions de formatage sont donneacutees sous la forme dune feuille de style La creacuteation dune feuille de style ne seffectue normalement quune seule fois par revue (voire mecircme par DTD utiliseacutee si on deacutesire des produits normaliseacutes et identiques) Ainsi nous avons creacuteeacute des feuilles de style et des formats de tables des matiegraveres dyshynamiques (navigators) pour chaque revue de maniegravere agrave donner agrave chacune une signashyture caracteacuteristique

PDF

Linteacuterecirct du PDF reacuteside dans lobtenshytion dun document eacutelectronique arborant un format de preacutesentation semblable agrave limshyprimeacute Un tel format permet aux lecteurs dimprimer une version laquomise en page papierraquo des articles diffuseacutes en ligne Les navigateurs SGML ou HTML dont nous avons discuteacute preacuteceacutedemment permettent eacutegalement limpression mais la qualiteacute de la mise en page nest pas aussi complexe et soigneacutee puisque les feuilles de style des navigateurs Web sont destineacutees avant tout agrave la preacutesentation agrave leacutecran Notons cepenshydant quil existe des feuilles de style (CSS et XSL) normaliseacutees ougrave on a preacutevu une mise en page sophistiqueacutee en fonction de diffeacuterents meacutedias (eacutecran terminal reacuteduit imprimeacute synthegravese vocale) Agrave moyen terme on pourrait entrevoir que les

14 ltURL http wwwinterleafcomPanoramapa -ge3htmlgt

170 octobre-deacutecembre 1999

Documentation et bibliothegraveques

formats HTML et PDF seront remplaceacutes par un seul document source XML coupleacute agrave des feuilles de style qui seront fonction du meacutedia employeacute

laquo La grande majoriteacute des logiciels de PAO sur le marcheacute (les plus connus eacutetant PageMaker et Xpress) permettent une saushyvegarde en format PDF pour diffusion sur le Web Ces logiciels ne sont cependant pas en mesure de lire en intrant input) un fichier SGML ni de linterpreacuteter correcteshyment Il existe toutefois des outils perforshymants capables agrave la fois de prendre en inshytrant du SGML et de permettre une mise en page professionnelle (FrameMaker+ SGML^ocirce Adobe Interleaf 6 SGMLtrade de la compagnie Interleaf et ADEPT Publisshyher17 reacutealiseacute par ArborText) Il sagit touteshyfois de produits dispendieux et assez comshyplexes agrave manipuler

Notre choix sest arrecircteacute sur le logiciel FrameMaker+SGML en raison de son coucirct abordable et de sa plus grande facilishyteacute de parameacutetrage FrameMaker+SGML permet la creacuteation la modification et la pushyblication de documents SGML dans un enshyvironnement convivial Dans le cadre du projet Eacuterudit nous utilisons uniquement les fonctionnaliteacutes dimportation du SGML et de mise en page sophistiqueacutees offertes par loutil Il sagit ici aussi de deacutefinir un meacutecanisme dapplication de style pour chaque eacuteleacutement en fonction de son contexte SGML Cette feuille de style est dirigeacutee vers la mise en page sur papier (et non agrave leacutecran) et agrave cet effet FrameMashyker+SGML offre la possibiliteacute de parameacuteshytrer plusieurs des caracteacuteristiques requishyses par limprimeacute (par exemple la gestion des veuves et orphelins des paragraphes solidaires les colonnes multiples les noshytes en bas de page les patrons de ceacutesure approprieacutes agrave la fin des lignes les formes des en-tecirctes et bas de pages etc)

Chaque revue possegravede une feuille de style diffeacuterente laquelle a eacuteteacute conccedilue en se basant sur la maquette de la forme imshyprimeacutee deacutejagrave existante des revues particishypantes Les fonctionnaliteacutes de FrameMashyker+SGML nous permettent sans difficulteacute de reproduire de faccedilon presque identique laspect habituel des revues Lapplication dune feuille de style exhaustive et bien conccedilue (quon arrive geacuteneacuteralement agrave obteshynir apregraves un processus de reacuteajustement lors des premiegraveres productions) permet dautomatiser agrave 90 le montage du docushyment ce qui constitue un excellent rendeshyment On doit toutefois faire certaines intershy

ventions manuellement afin de compleacuteter le travail (par exemple deacuteplacer des figushyres condenser lespacement du texte ccedila et lagrave pour forcer un saut de page fractionshyner des notes de bas de page trop lonshygues etc)

Une fois le document monteacute avec FrashymeMaker+SGML il ne reste quagrave produire une version PDF agrave laide du logiciel Acroshybat de Adobe Il sagit lagrave dune opeacuteration sans grande difficulteacute quon peut apparenshyter agrave un simple laquosauvegarder sous PDFraquo On peut ainsi produire un premier fichier PDF de faible reacutesolution destineacute agrave ecirctre vishysionneacute sur le Web et un second fichier PDF de meilleure reacutesolution (ou encore un fichier PostScript) pouvant ecirctre achemineacute agrave latelier de preacutepresse en vue de limpresshysion des exemplaires papier

Pour les usagers la consultation des documents PDF se fait avec le logiciel Acrobat Reader qui existe comme moshydule externe (plug-in) pour les navigateurs Web On peut consulter les documents PDF agrave leacutecran avec ce logiciel mais ils sont plutocirct destineacutes agrave ecirctre imprimeacutes localeshyment par les usagers

Dans le cadre du projet Eacuterudit nous avons produit uniquement des documents PDF destineacutes au Web agrave raison dun fichier unique par article (et non dun fichier regroushypant tout un numeacutero dune revue) puisque les revues poursuivaient pendant la mecircme peacuteriode le traitement habituel pour la proshyduction de la version imprimeacutee de la revue

Diffusion sur le Web

Pour diffuser des documents sur le Web nous avons creacuteeacute un site Web18 heacuteshybergeacute sur notre serveur Web Ce site est la porte dentreacutee principale pour laccegraves aux articles

La diffusion en ligne (et eacutegalement sur ceacutedeacuterom) permet pour le lecteur dacshyceacuteder aux textes agrave laide dun outil de reshycherche Pour ce faire on doit implanter un outil de recherche en texte inteacutegral qui peut indexer des documents SGML tout en conservant linformation sur la strucshyture de faccedilon agrave permettre aux usagers dexprimer des contraintes sur la structure dans leurs requecirctes On peut par exemple preacuteciser la recherche de textes comporshytant le nom dun chercheur mais uniqueshyment lorsque celui-ci se retrouve dans une bibliographie et non en tant quauteur de larticle Dans le cadre du projet Eacuterudit nous avons installeacute sur le site Web un

prototype de moteur de recherche qui doit encore ecirctre ameacutelioreacute La collection indexeacutee comprend lensemble des articles ayant eacuteteacute publieacutes par les revues pendant la dureacutee du projet pilote Il sagit dun mode daccegraves au texte tregraves performant que seule la version eacutelectronique permet dobtenir

Recommandations

Dans la mesure ougrave notre mandat consistait moins en la mise au point dune solution theacuteoriquement optimale quen la conception dune chaicircne de traitement adapteacutee aux besoins du projet (reproducshytion de la forme papier deacutejagrave existante imshypossibiliteacute dintervenir en amont de la chaicircne de production optimisation du traishytement par ladoption dune DTD unique production de divers formats de diffusion) nous avons opteacute pour une solution compreshynant plusieurs sorties intermeacutediaires et cela de faccedilon agrave atteindre de bons reacutesulshytats en matiegravere dautomatisation et de quashyliteacute des textes produits Nous estimons avoir atteint agrave 95 ces objectifs de producshytion

Il va sans dire que la DTD a ducirc ecirctre constamment remanieacutee afin de sadapter agrave lensemble des documents agrave produire Nous avons ducirc opter pour une DTD qui au fur et agrave mesure de lavancement du projet devenait plus permissive de maniegravere agrave geacuteshyneacuterer en bout de ligne du SGML valide respectant linteacutegriteacute et la preacutesentation des contenus des articles

Le projet Eacuterudit aura mis en lumiegravere lextrecircme importance dans une perspecshytive dautomatisation des opeacuterations de la chaicircne documentaire de deacutefinir une strucshyture une preacutesentation et dans une cershytaine mesure un contenu normaliseacute des documents agrave traiter La production mecircme de textes destineacutes agrave ecirctre baliseacutes en SGML peut donc faire lobjet de certaines recomshymandations dont plusieurs savegraverent applishycables dans une optique de sensibilisation des comiteacutes de revues et de formation du personnel chargeacute de la reacutevision et de la correction des textes Cest ainsi quil y aushyrait lieu de deacutefinir (ou renforcer) pour chaque revueraquo un modegravele normaliseacute quant

15 ltURL http wwwadobecomprodindexframe makerprodinfosgmlhtmlgt

16 ltUEL http wwwinterleafcomproducts p_sgmlhtmlgt

17 ltURL http wwwarbortextcomProducts AcircDEPT_Seriesadept_serieshtmlgt

18 ltURLhttpwwweruditorggt

octobre-deacutecembre 1999 171

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999

Page 3: De l’imprimé vers l’électronique : réflexions et solutions

Documentation et bibliothegraveques

De nombreux laquosystegravemes dinformashytion raquo sont mis en place dans le but datshyteindre un objectif en apparence assez simple favoriser la circulation de linformashytion depuis les creacuteateurs de celle-ci (les aushyteurs) jusquaux consommateurs (les lecshyteurs) afin que ces derniers puissent en profiter et satisfaire leurs besoins en inforshymation Ces systegravemes que lon a chercheacute depuis le deacutebut agrave rendre de plus en plus efshyficaces sont agrave la fois baseacutes sur des intershyventions humaines et des technologies Aujourdhui ce sont les reacuteseaux informashytiques pour ne pas dire Internet qui semblent dicter la voie agrave suivre en matiegravere de systegravemes dinformation

Bien entendu tous les acteurs doivent sadapter agrave ces nouvelles pratiques et ces nouveaux outils Parmi ces acteurs on reshytrouve les bibliothegraveques et les eacutediteurs (Odlyzko 1999) intervenants qui se sishytuent habituellement au centre du sysshytegraveme dinformation quelque part entre les producteurs et les consommateurs Ils doishyvent entre autres choisir assembler reacutepershytorier diffuser conserver linformation et pour ce faire ils doivent utiliser les systegraveshymes - toujours technologiques et humains - les plus efficaces possibles

Dans cet article nous preacutesentons comment un eacutediteur en particulier un eacutedishyteur de revues savantes peut sy prendre pour exploiter les nouvelles technologies et ainsi rendre de meilleurs services aux bibliothegraveques et aux lecteurs tout en conservant des coucircts de production suffishysamment bas pour demeurer compeacutetitif Dans une premiegravere partie nous preacutesenteshyrons briegravevement diffeacuterents modegraveles deacutedishytion eacutelectronique et les eacuteleacutements agrave consideacuteshyrer pour les eacutevaluer Dans la seconde partie nous deacutecrirons une application reacuteelle de lun de ces modegraveles issue des travaux en eacutedition eacutelectronique reacutealiseacutes dans le cadre du projet Eacuterudit1 aux Presses de lUniversiteacute de Montreacuteal (Bois-menu et al 1999)

Cette application et par le fait mecircme cet article ne preacutetendent pas reacutesoudre tous les problegravemes ni explorer tous les enjeux reshylieacutes agrave leacutedition eacutelectronique En fait le projet fut reacutealiseacute dans un contexte particulier quil est neacutecessaire de rappeler ici Le but du proshyjet eacutetait de mettre en place un centre de sershyvice pour leacutedition eacutelectronique de revues sashyvantes queacutebeacutecoises Les services sont ofshyferts agrave tous les eacutediteurs inteacuteresseacutes de pushyblier leurs revues agrave la fols en format electro-nique et en format Imprimeacute

Ce centre de service joue donc un rocircle tregraves important dans le contexte actuel de leacutedition savante En effet la plupart des eacutediteurs ou des comiteacutes de reacutedaction de revues savantes expriment le souhait quelles soient diffuseacutees sur Internet tout en conservant des versions imprimeacutees Bien que lobjectif ici ne soit pas de preacutesenshyter les avantages et inconveacutenients des forshymats eacutelectronique et imprimeacute rappelons que la plupart des intervenants de la chaicircne documentaire (auteurs eacutediteurs bishybliotheacutecaires et lecteurs) sentendent sur les points suivants 1) le format imprimeacute est encore utile 2) le format eacutelectronique est maintenant essentiel 3) de nouveaux laquoservices aux utilisateursraquo doivent ecirctre proposeacutes agrave partir du format eacutelectronique 4) offrir une version imprimeacutee sera imporshytant pour une peacuteriode inconnue de faccedilon geacuteneacuterale mais probablement encore asshysez longue sinon eacuteternelle

Un eacutediteur deacutesirant tenir compte de ces conclusions fait donc face agrave un double deacutefi offrir aux lecteurs des produits eacutelecshytroniques novateurs et utiles tout en mainshytenant une version imprimeacutee de bonne qualiteacute Inutile de preacuteciser que les coucircts de production doivent ecirctre maintenus agrave des nishyveaux tregraves bas surtout dans le domaine de leacutedition savante en sciences humaines et sociales

Ce contexte est situeacute au cœur des reacuteshyflexions applications et conclusions conteshynues dans cet article En effet nous chershychons dabord et avant tout agrave proposer des solutions pour une peacuteriode de transition ougrave les versions eacutelectroniques et imprishymeacutees de revues savantes se cocirctoient et se complegravetent Bien sucircr plusieurs eacuteleacutements discuteacutes sappliquent agrave dautres contexshytes par exemple pour dautres types de doshycument ou encore pour des publications purement eacutelectroniques Toutefois nous naborderons pas ici ces derniers cas de fishygure

Modegraveles techniques de publication

Au cours des derniegraveres anneacutees les reacuteshyseaux et en particulier Internet nous ont permis de reacutealiser de nombreux projets de laquodiffusion eacutelectronique dinformationraquo cest-agrave-dire dutilisation du support eacutelectroshynique pour la production et surtout la diffushysion dinformation Plusieurs techniques nous permettent dy arriver et presque toushy

tes ont comme point commun lutilisation des formats de documents populariseacutes par Internet soit HTML2 et PDF3 Ces inishytiatives ont eu pour effet de constituer un immense reacuteservoir dinformation en format eacutelectronique soit le World Wide Web reacuteshyservoir inteacuteressant mais difficile agrave exploishyter Les eacutediteurs pour qui la diffusion dinshyformation na plus de secrets depuis fort longtemps se sont bien entendu lanceacutes dans cette grande aventure la plupart emshybrassant les techniques habituelles proshyduction et diffusion de HTML sur le Web ou encore production de documents PDF agrave partir de leur chaicircne de traitement tradishytionnelle et diffusion de ces documents sur le Web

Mais ces techniques sont-elles suffishysantes pour assurer une eacutedition de qualiteacute en particulier dans le monde de leacutedition sashyvante Les prochaines sections sont consacreacutees agrave cette question et passent en revue certains critegraveres importants en plus dexpliquer les diffeacuterentes techniques utilishyseacutees pour chaque aspect de leacutedition scienshytifique

Moyens de production

Au cours des 20 ou 30 derniegraveres anneacutees les eacutediteurs ont su profiter des deacuteshyveloppements technologiques dans le domaine de linformatique Ils ont utiliseacute linformatique dans la chaicircne de producshytion agrave laide des techniques de publication assisteacutee par ordinateur (PAO) que ce soit au moyen de logiciels de traitement de texte de graphisme ou de mise en page Dailleurs lagrave plupart des eacutediteurs fonctionshynent toujours avec ces moyens de producshytion Cette inteacutegration des technologies nest toutefois pas complegravete ni ideacuteale Ainshysi les derniers deacutetails de limpression sont tregraves souvent ajusteacutes de maniegravere non inforshymatique par exemple le traitement de cershytaines images en proceacutedeacute photo le monshytage de diffeacuterents fichiers en un document

1 Pour en savoir plus sur le projet Eacuterudit et pour consulter le rapport complet sur le projet voir ltUBJL http www eacuterudit orggt

2 Hypertext Markup Language norme du World Wide Web Consortium Voir ltURL httpwwww3org MarkUpgt

3 Le format PDF (Portable Document Format) est un format de document eacutelectronique deacuteveloppeacute par la compagnie Adobe Un document PDF conserve lalshylure originale de la forme imprimeacutee du document (textes graphiques couleurs) peu importe la plateshyforme utiliseacutee

162 octobre-deacutecembre 1999

Documentation et bibliothegraveques

continu ou lajout de pages disparates (enshycarts annexes) De plus mecircme si ces chaicircnes de traitement utilisent massiveshyment linformatique leur finaliteacute est de proshyduire des documents imprimeacutes et non des documents eacutelectroniques

Nous pouvons tirer de ces meacutethodes deux conclusions en apparence contradicshytoires presque tous les documents imprishymeacutes mecircme ceux produits de faccedilon tradishytionnelle existent sous une forme eacutelectroshynique quelconque mais pour plusieurs documents imprimeacutes nous navons pas de version finale et deacutefinitive en format eacutelectronique Par conseacutequent mecircme si en apparence les outils de PAO nous pershymettent de faire un pas vers de la veacuteritable eacutedition eacutelectronique des ajustements doivent ecirctre faits afin dobtenir un docushyment eacutelectronique qui soit fidegravele agrave la vershysion imprimeacutee quant au contenu Cette utilishysation de la PAO nest donc pas suffisante pour obtenir un document eacutelectronique de qualiteacute et pour assurer la diffusion ainsi que la conservation sur support eacutelectroshynique Cette approche est donc nettement insuffisante ce qui demande aux eacutediteurs de remettre en question non seulement leurs faccedilons de diffuser et de conserver leur information mais eacutegalement de la proshyduire

Cette courte reacuteflexion sur les meacutethoshydes actuelles nous amegravene agrave identifier trois grands sceacutenarios pour la production de doshycuments eacutelectroniques dans le monde de leacutedition

m La forme eacutelectronique en aval de la forme imprimeacutee Conserver les technishyques de PAO traditionnelles et agrave partir des reacutesultats de celles-ci creacuteer des vershysions eacutelectroniques des documents

s Les chaicircnes parallegraveles Continuer agrave travailler avec les outils de PAO pour les versions imprimeacutees mais laquo remonterraquo agrave la source (par exemple des documents de traitement de texte produits par les auteurs) pour creacuteer des versions eacutelectroshyniques

bull Un seul document source et des produits deacuteriveacutes Produire dabord un doshycument riche et par la suite deacuteriver des produits dinformation y compris lutilisashytion de la PAO pour des versions imprishymeacutees

La premiegravere approche souffre de deux lacunes importantes Dabord elle ajoute des eacutetapes agrave la chaicircne de traiteshyment ce qui la rend neacutecessairement plus coucircteuse que le modegravele traditionnel ougrave

limprimeacute constituait lunique produit De plus puisque la chaicircne de traitement est dabord et avant tout orienteacutee vers limprishymeacute il sera difficile dexploiter les possibilishyteacutes des documents eacutelectroniques

La deuxiegraveme approche permet peut-ecirctre dexploiter les possibiliteacutes des documents eacutelectroniques mais encore une fois elle vient ajouter des eacutetapes agrave la chaicircne de traitement ce qui la rend neacutecesshysairement plus coucircteuse De plus une autre difficulteacute sajoute car le fait de meshyner deux chaicircnes de traitement en paralshylegravele rend les eacutetapes de correction plus diffishyciles et les possibiliteacutes derreurs plus proshybables

La troisiegraveme approche peut saveacuterer inteacuteressante et surtout efficace puisshyquune seule chaicircne de traitement est utishyliseacutee et quil ny a donc pas de reacutepeacutetition de linformation De plus elle peut utiliser toute la puissance des outils de PAO pour produire des versions imprimeacutees des docushyments si neacutecessaire Mais cette approche est possible seulement si on arrive agrave proshyduire ce document riche agrave partir duquel les autres formats seront deacuteriveacutes Ces proshyduits deacuteriveacutes pourraient ecirctre par exemple une version imprimeacutee et relieacutee un docushyment HTML sur le Web une version somshymaire de larticle (titre auteurs reacutesumeacute) envoyeacutee par courrier eacutelectronique agrave une liste de diffusion etc

Pour arriver agrave implanter un tel modegravele de traitement et de production il est neacutecesshysaire dutiliser une technologie qui permet de creacuteer des documents suffisamment rishyches pour repreacutesenter toutes les informashytions neacutecessaires aux traitements agrave effecshytuer immeacutediatement ou dans les anneacutees agrave venir Heureusement une telle technoshylogie existe et il sagit de la norme SGML (Standard Generalized Markup Lan-guage ISO 8879) et de sa cousine XML (Extensible Markup Language recommanshydation du World Wide Web Consortium4) Ces normes permettent de creacuteer des docushyments structureacutes cest-agrave-dire des docushyments (neacutecessairement eacutelectroniques) qui contiennent de linformation agrave propos de leur contenu et de leur structure plutocirct que des informations de formatage en fonction dun contexte particulier Par exemple pour un article scientifique un document structureacute contiendra de linforshymation sur la signification de ses diffeacuterenshytes parties par exemple un titre un chashypitre un auteur une reacutefeacuterence bibliograshyphique etc

Agrave partir de ce document structureacute il est possible de deacuteriver diffeacuterents produits car ceux-ci contiennent moins dinformashytion que le document structureacute ou encore ils contiennent des renseignements plus deacutetailleacutees mais faciles agrave deacuteduire Par exemple il est facile de convertir une inforshymation telle que laquoceci est un titre de section raquo en une seacuterie dinstructions de forshymatage telles que laquo mettre en caractegraveres gras 12 points police Arial espace de 12 points avant le paragrapheraquo Il faut noter et cest important que linverse nest pas vrai les instructions de formashytage peuvent difficilement ecirctre converties en informations sur la structure sauf si elles sont tregraves exclusives et surtout tregraves coshyheacuterentes agrave linteacuterieur du document Il se peut eacutegalement que certains composants naffichent aucun attribut de formatage particulier mais quil existe des besoins ougrave cette information doive ecirctre distingueacutee par exemple le nom de lorganisme dapshypartenance dun auteur dans le cas ougrave on deacutesirerait recycler cette information pour linclure dans un carnet dadresses ou une liste deacutetiquettes postales

Ce dernier modegravele de production censhytreacute sur lexploitation du document structushyreacute est fondamentalement diffeacuterent du moshydegravele de la PAO traditionnelle en ce quil nous permet de consideacuterer les diffeacuterents supports ou formats de diffusion ainsi que les diffeacuterents formats de conservation comme eacutetant des produits deacuteriveacutes agrave partir dune mecircme source Cette deacuterivation est en geacuteneacuteral assez aiseacutee et surtout elle peut ecirctre automatiseacutee

Dans le cadre du projet Eacuterudit nous avons implanteacute une chaicircne de traitement baseacutee sur une telle approche dont la meacuteshythodologie sera deacutecrite en deacutetails dans la deuxiegraveme partie de cet article

Formats de diffusion et de conservation

Tout document eacutelectronique sera reshypreacutesenteacute par un fichier informatique mais le contenu exact de ce fichier sera deacutetermishyneacute par le format utiliseacute pour repreacutesenter linformation Tregraves souvent les formats de documents sont associeacutes agrave lapplication qui produit le document par exemple les

4 Voir lthttp w w w3orgTR1998REC-xml-19980210gt

octobre-deacutecembre 1999 163

Documentation et bibliothegraveques

formats Excel ou WordPerfect (pour une discussion exhaustive sur la question des formats de documents eacutelectroniques voir Marcoux 1994)

La question des formats est probableshyment la plus importante dans un contexte deacutedition savante eacutelectronique Elle a des impacts majeurs sur la production la diffushysion ainsi que la conservation des docushyments

Conservation

Puisque les documents eacutelectroniques doivent ecirctre stockeacutes dans un format donshyneacute il est neacutecessaire de sinterroger sur les critegraveres agrave utiliser dans le choix dun format de document eacutelectronique en ayant pour objectif la conservation agrave long terme (voir une discussion inteacuteressante agrave ce sujet dans Bullock 1999)

Dabord il faut que le format soit cashypable de repreacutesenter correctement linforshymation contenue dans le document Par exemple sil y a du texte et des images il est neacutecessaire dutiliser un format qui pershymette dinteacutegrer agrave la fois des informations textuelles et graphiques De nos jours ce nest plus un veacuteritable problegraveme car la plushypart des formats de document permettent dinteacutegrer diffeacuterents types dinformation et sont agrave proprement parler des formats de documents laquo multimeacutedias raquo

Nous voulons eacutegalement un format qui puisse ecirctre laquo lu raquo par une application et ce aussi longtemps que nous le souhaishytons Cest agrave ce stade-ci que les difficulteacutes se preacutesentent habituellement les convershysions dun format agrave lautre (par exemple PashygeMakers Word) ou encore dune version agrave lautre dun mecircme format (par exemple WordPerfect 50 agrave WordPerfect 8) ne sont pas une solution agrave ce problegraveme puisque plus souvent quautrement il y a des pershytes dinformation des changements dans la preacutesentation et dautres manifestations indeacutesirables

Heureusement il existe une faccedilon inshyteacuteressante et eacuteprouveacutee de contourner ce problegraveme Il sagit dutiliser agrave la fois un forshymat de repreacutesentation de linformation tregraves simple et tregraves universel et dutiliser une technique qui rende ces documents laquolisishybles par lhumain raquo Un document structureacute repreacutesenteacute agrave laide de XML est un bel exemple dun tel document

En effet on peut repreacutesenter un docushyment XML agrave laide de caractegraveres faisant partie du jeu de caractegraveres ASCII Concregraveshy

tement le fichier produit sera un pur fichier ASCII5 soit le type de fichiers le plus unishyversel que lon trouve dans le monde inforshymatique Il y a de fortes chances quil exisshytera encore des plates-formes informashytiques et des applications qui nous permetshytront de laquo voir raquo un fichier ASCII et ce pour encore une tregraves longue peacuteriode De plus un document structureacute utilisant XML contient de l information du genre laquolttitregtlntroductionlttitregtraquo Mecircme sans application particuliegravere mecircme sans connaissances informatiques ou de XML il est assez facile de simaginer que le mot laquo Introduction raquo constitue ici un titre et non le nom dun auteur

Diffusion

Les formats de diffusion de docushyments eacutelectroniques sont multiples et vashyrieacutes Toutefois il y a preacutesentement une asshysez forte convergence vers deux formats associeacutes au Web HTML et PDF (voir agrave ce sujet Lieb 1999) Le format PDF est partishyculiegraverement bien adapteacute pour la repreacutesenshytation exacte de documents imprimeacutes dans un format facilement diffusible sur le Web car le logiciel pour consulter les docushyments PDF est gratuit disponible en plushysieurs langues et bien connu des utilisashyteurs De plus il est facile de produire des documents PDF agrave partir de nimporte quelle application informatique Il est donc tout agrave fait naturel dutiliser ce format agrave des fins dimpression agrave distance et sur deshymande ce qui reacutepond agrave de nombreux beshysoins pour leacutedition savante qui a souvent de faibles tirages ou encore parce que les usagers nont besoin que dune partie des documents (un article plutocirct quun numeacutero dune revue par exemple)

Lautre format de convergence est eacutevishydemment le format HTML neacute avec le Web et populariseacute avec leacutevolution de ce reacuteshyseau Presque toutes les applications doshycumentaires peuvent maintenant lire ou produire des documents HTML Lorsquon associe HTML avec le langage JavaScript et les feuilles de style CSS6 et quon obshytient ainsi du Dynamic HTML (DHTML) il est possible de creacuteer de veacuteritables interfashyces de consultation et non de simples doshycuments eacutelectroniques (Dugand-Saenz et Verdret 1998) HTML est donc un excellent format de diffusion mais malheureuseshyment trop pauvre pour la gestion ou la proshyduction de documents De plus pour proshyduire un document HTML de qualiteacute cest-

agrave-dire une interface de qualiteacute on doit trashyvailler agrave partir dune source dinformation tregraves riche sinon le travail devra ecirctre fait agrave la main et sera fastidieux

Ces deux remarques nous amegravenent agrave conclure que le format HTML savegravere un format de diffusion agrave privileacutegier en autant que lon utilise un autre format de gestion et que lon puisse produire facilement des documents HTML de qualiteacute Ajoutons que les formats de PAO ne remplissent ni lune ni lautre de ces conditions mais que les normes SGML et XML elles satisfont ces besoins

Format de production ou de gestion

Au moment de la production de linforshymation nous devons travailler avec un forshymat qui nous permette datteindre tous les objectifs fixeacutes dans les sections preacuteceacutedenshytes et ce de faccedilon efficace En reacutesumeacute nous recherchons un format dencodage de linformation qui nous permette de reacuteshypondre agrave nos besoins soit

laquo manipuler aiseacutement les documents pour effectuer toutes les activiteacutes de proshyduction (gestion workflow diffusion etc)

bull permettre lexploitation de toutes les possibiliteacutes quoffrent les documents eacutelectroniques (multimeacutedia hypertexte geacuteshyneacuteration dynamique de contenu reshycherche plein texte donneacutees compleacutemenshytairessuppleacutementaires etc)

bull produire des documents eacutelectronishyques dans dautres formats (par exemple HTML) et ce en exploitant toutes les posshysibiliteacutes de ces formats

bull permettre la diffusion sur diffeacuterents supports (ceacutedeacuterom DVD reacuteseaux etc) y compris le support imprimeacute agrave laide dapplishycations de PAO

bull conserver agrave long terme et dans des conditions optimales linformation et sa structure afin den assurer la peacuterenniteacute

Les documents structureacutes constituent la meilleure faccedilon de reacutepondre efficaceshyment agrave lensemble de ces critegraveres Agrave lopposhyseacute les formats associeacutes agrave la PAO noffrent pas la mecircme polyvalence ni la mecircme puisshysance car ils contiennent de linformation en fonction dun seul et unique support

5 Techniquement les documents XML sont stockeacutes en Unicode mais on peut les reacuteduire agrave du simple ASCII sans perte dinformation

6 Cascading style sheet voir lthttpwwww3org Stylecssgt

164 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Exploitation du format eacutelectronique

Passer de limprimeacute agrave leacutelectronique constitue un changement qui va bien au-delagrave du mode de diffusion dune revue sashyvante Les formats eacutelectroniques permetshytent en effet de repreacutesenter plusieurs tyshypes dinformation que lon ne peut retroushyver dans un document imprimeacute Une revue en transition vers leacutelectronique inteacutegrera peu agrave peu ces types dinformation et son eacutediteur devra mettre en place les outils neacuteshycessaires pour y arriver

^information statique est la plus eacutevishydente mais aussi la seule qui peut ecirctre veacuteshyritablement repreacutesenteacutee sur une feuille de papier Il sagit de textes ou dimages qui une fois laquo imprimeacutes raquo ou laquo stockeacutes raquo dans le document ne changeront pas La plupart des documents existants ne contiennent que de linformation statique car ils ont eacuteteacute produits dabord et avant tout pouf un support qui ne permet que ce genre dinforshymation soit limprimeacute

Linformation dynamique est celle qui laquo bouge raquo qui sanime Ces animations ne sont pas controcircleacutees par les utilisateurs (ou si peu) mais plutocirct par les producteurs de linformation Le meilleur exemple est la videacuteo ou les images en mouvement La plushypart du temps linteraction de lutilisateur se limite agrave des fonctions telles que laquomarche avantraquo ou laquoarriegravereraquo laquopauseraquo laquoarrecirctraquo etc Les seacutequences sonores font eacutegalement partie de ces informations dyshynamiques

Linformation interactive est celle qui peut prendre diffeacuterentes formes ou vashyleurs en fonction du deacutesir de lutilisateur Elle se distingue de linformation dynashymique par limportance quelle accorde au controcircle par lutilisateur Par exemple la sishymulation dune moleacutecule en trois dimenshysions avec la possibiliteacute pour lutilisateur de manipuler la moleacutecule dans tous les sens pour la voir sous tous ses aspects constitue de linformation fortement intershyactive Un autre exemple consiste en la pushyblication dun algorithme auquel lutilisashyteur peut fournir des valeurs de deacutepart et veacuterifier les reacutesultats et ce de faccedilon instanshytaneacutee ou presque Cela peut aller dune simple calculatrice dinteacuterecircts composeacutes agrave la simulation de la puissance dun moteur

Linformaticircon active permet aux utilishysateurs dagir sur le contenu du document ou encore sur lenvironnement de consulshy

tation Les liens hypertextuels font partie de cette cateacutegorie de mecircme que les forshymulaires interactifs Par exemple un sonshydage publieacute dans un article scientifique pourrait ecirctre mis agrave jour dynamiquement par des lecteurs qui pourraient faire connaicirctre leur opinion agrave partir du docushyment

Un des problegravemes majeurs pour les eacutediteurs et par le fait mecircme pour les utilishysateurs est labsence ou la surabondance de normes pour certains types dinformashytion Dans le cas du texte et des images simples la situation est assez facile agrave maicircshytriser de par lomnipreacutesence du format HTML et de ses formats dimage associeacutes GIF et JPEG Mais au-delagrave de ces quelshyques formats la situation devient plus diffishycile car le support nest habituellement pas inclus dans les navigateurs communs et il faut donc inciter les utilisateurs agrave instalshyler des modules externes ou des applicashytions suppleacutementaires afin de pouvoir consulter certaines parties de documents Un utilisateur sera enclin agrave installer un tel module sil en a besoin au moins occasionshynellement ou si linformation manquante est tregraves importante pour lui Sinon il va aller voir ailleurs ou il sen passera

Le deacutefi technologique est double troushyver des formats adeacutequats pour chaque type dinformation susceptible de se preacuteshysenter et trouver un format de base qui puisse lier tous ces types dinformation et qui serve de laquocimentraquo aux diffeacuterentes parshyties du document eacutelectronique

Dans le cas du format de base un moshydegravele de traitement centreacute sur XML peut saveacuterer suffisant En effet XML permet dinteacutegrer des parties de documents en difshyfeacuterents formats Ainsi assembler un docushyment ayant des composantes textuelles iconographiques videacuteo sonores et des alshygorithmes nest pas un reacuteel problegraveme De plus si on utilise HTML comme principal format de diffusion pour la consultation eacutelectronique de linformation nous avons lagrave eacutegalement un format qui peut assemshybler des documents tregraves complexes comshyprenant des parties tregraves diffeacuterentes et stocshykeacutes dans des formats varieacutes Bref XML et HTML sont tous deux des formats laquo hyper-meacutedias raquo et ils constituent des solutions inshyteacuteressantes pour la gestion et la diffusion de tels types de documents

Lautre partie du deacutefi est plus probleacuteshymatique quel(s) format(s) utiliser pour les diffeacuterents types dinformation Agrave ce sujet un grand effort de normalisation reste agrave

faire avant de sassurer que les navigashyteurs habituels puissent preacutesenter tous les types dinformation sur toutes les plates-formes Toutefois soulignons certains asshypects encourageants tels que la mise en place dune norme de lindustrie pour les images vectorielles (SVG7) et lutilisation croissante du langage de programmation Java pour les applications dynamiques (ce qui pourrait ecirctre utile pour les algorithmes et les simulations)

Aujourdhui un eacutediteur qui prend au seacuterieux leacutedition eacutelectronique et lexploitashytion optimale des possibiliteacutes quoffrent les documents eacutelectroniques devrait entreshyprendre ces diffeacuterentes deacutemarches

raquo sensibiliser instruire les auteurs poshytentiels aux possibiliteacutes des documents eacutelectroniques Sans matiegravere premiegravere il est inutile de mettre en place des systegraveshymes sophistiqueacutes

m sensibiliser les utilisateurs aux posshysibiliteacutes des documents eacutelectroniques Sans demande loffre ne sera pas neacutecesshysaire

m identifier les formats de diffusion les plus adeacutequats Il y a deux questions fondamentales agrave se poser Est-ce que le format choisi permettra de repreacutesenter adeacutequatement linformation agrave diffuser Est-ce que les utilisateurs possegravedent les eacutequipements et logiciels neacutecessaires pour pouvoir consulter des documents utilisant ce format

bull eacutetablir des protocoles pour leacutechange de tels documents Les auteurs et les eacutedishyteurs doivent ecirctre en mesure de se transshymettre efficacement ce genre dinformashytion

m mettre en place une infrastructure de gestion pour ces types de documents Leacutediteur doit ecirctre en mesure de manipuler et geacuterer ces parties de documents et bien souvent les formats de diffusion etou deacutechange ne sont pas les meilleurs pour y arriver surtout si lon considegravere la neacutecessishyteacute de conservation agrave long terme par exemple

bull participer aux efforts de normalisashytion des formats et des applications Les eacutediteurs ont leur mot agrave dire car ils pourshyraient en ecirctre les premiers beacuteneacuteficiaires

Il sagit donc dun agenda tregraves chargeacute pour une tacircche qui nest pas simple Lexpeacuteshyrimentation pourrait ecirctre la solution dans

7 Scalable Vector Graphics voir lthttp wwww3 org GraphicsSVGgt

octobre-deacutecembre 1999 165

Documentation et bibliothegraveques

bien des cas pour y arriver la meilleure meacutethode consiste probablement en la creacuteation dune nouvelle revue savante pushyrement eacutelectronique dans une discipline qui se precircte bien agrave la diffusion de diffeacuterents types dinformation

Conclusion sur les modegraveles techniques de publication

Cette premiegravere partie avait pour objecshytif de preacutesenter les diffeacuterentes techniques relieacutees agrave leacutedition eacutelectronique Nous avons surtout chercheacute agrave montrer que sans un modegravele technologique solide et orienteacute vers le document eacutelectronique et la reacuteutilishysation de linformation il est impossible dexploiter un tant soit peu les possibiliteacutes des documents eacutelectroniques Les asshypects importants de ce modegravele sont les meacutethodes de production et les formats de documents (pour la gestion la diffusion et la conservation) et ils doivent mener agrave une exploitation optimale des possibiliteacutes de leacutelectronique Heureusement un tel modegravele existe et il a eacuteteacute expeacuterimenteacute dans le cadre du projet Eacuterudit Il sagit de baser la chaicircne de traitement sur un document structureacute en format XML agrave partir duquel les diffeacuterents formats de diffusion y comshypris sur support imprimeacute sont produits (dautres eacutediteurs sont aussi arriveacutes agrave cette conclusion voir entre autres Kasdorf 1998) Les deacutetails techniques de ce moshydegravele seront preacutesenteacutes dans la seconde partie

Lexistence dun tel modegravele ne signifie malheureusement pas labsence de tout problegraveme ou la reacutealisation sans douleur de projets deacutedition eacutelectronique Les veacuteritashybles documents eacutelectroniques qui inshycluent de linformation dynamique et intershyactive sont des objets avec lesquels on doit continuer agrave se familiariser afin de troushyver des applications et des formats adeacuteshyquats Mais surtout il est important de reshyvoir notre conception de ce quest un docushyment et de le consideacuterer plutocirct comme une interface agrave un reacuteservoir dinformation Dune part linterface peut ecirctre individuashyliseacutee pour chaque utilisateur agrave chaque consultation dautre part le reacuteservoir dinshyformation peut ecirctre en constante modificashytion Cela demande un changement de culshyture important chez les eacutediteurs et les aushyteurs et agrave un degreacute moindre chez les lecshyteurs-utilisateurs Ce changement sexshyprime bien entendu par de nouvelles chaicircnes de traitement ou de nouveaux moshy

degraveles techniques mais il doit eacutegalement sexprimer par de nouvelles mentaliteacutes

Preacutesentation dune chaicircne de traitement lexemple du projet Eacuterudit

Lhistoire nous a montreacute que tout noushyveau meacutedia a deacutebuteacute en tentant dabord de calquer un moyen de diffusion existant Eacuteventuellement ce nouveau meacutedia eacutevolue et arrive agrave se deacutefinir et agrave deacutevelopshyper ses propres caracteacuteristiques devenant ainsi reacuteellement novateur Ainsi pour la plupart des initiatives et des innovations dans le domaine de la publication scientishyfique le modegravele de lagrave revue savante sur le Web commence par une transposition du modegravele imprimeacute deacutejagrave existant

Pour en assurer la reacuteussite la laquotransishytion raquo du format papier agrave leacutelectronique imshyplique dune part de travailler selon des faccedilons de faire deacutejagrave existantes et dautre part de graduellement en implanter de nouvelles propres aux impeacuteratifs et aux possibiliteacutes dun traitement eacutelectronique Dans le cadre du projet pilote Eacuterudit cette nouvelle chaicircne de production a eacuteteacute reacuteashyliseacutee parallegravelement au processus de proshyduction courant des revues Il a eacuteteacute eacutetabli quon tenterait de reproduire le plus fidegraveleshyment possible la signature (apparence) et la structure (construction) quaffichait la forme imprimeacutee des revues participantes afin dassurer une transition en douceur de mecircme que pour respecter linteacutegriteacute des contenus Dun point de vue techshynique cela sapparente agrave faire un traiteshyment reacutetrospectif des documents puisque aucune intervention de notre part ne poushyvait ecirctre faite preacutealablement ou parallegraveleshyment agrave la creacuteation du document Ainsi la meacutethodologie mise en place et exposeacutee ici est-elle le fruit dun meacutelange de condishytions de contraintes et de possibiliteacutes dicshyteacutees par cette situation Cette meacutethodoshylogie on le comprendra aiseacutement est bien diffeacuterente de celle qui pourrait ecirctre mise en place pour la production dune revue unishyquement eacutelectronique et cela serait daushytant plus vrai sil sagissait dune toute noushyvelle revue Dans ce dernier cas toutes les conventions et interventions neacutecessaishyres agrave la production dune revue eacutelectroshynique peuvent ecirctre consideacutereacutees et implanshy

teacutees degraves le deacutebut de sa conception Nous devons aussi souligner que

cette chaicircne est baseacutee sur la norme SGML mais en fait elle pourrait tregraves bien lecirctre sur XML la norme plus reacutecente En effet aucune fonctionnaliteacute de SGML non preacutesente dans XML na eacuteteacute utiliseacutee Par conseacutequent dans la description qui suit les expressions laquoSGMLraquo et laquoXMLraquo sont interchangeables

Deacutefinition du type de document (DTD)

Au deacutebut dun projet baseacute sur SGML le choix ou la creacuteation dune Deacutefinition du type de document (DTD) est une eacutetape prishymordiale La DTD est le fondement dune application SGML Cest elle qui deacutetershymine de quelle faccedilon les documents seront repreacutesenteacutes les traitements qui seront possibles etc En quelque sorte il sagit du veacuteritable laquoformatraquo des docushyments Les reacuteponses aux questions suishyvantes orienteront la creacuteation ou le choix dune DTD

bull Quels sont les types de documents agrave traiter Quels sont les types de docushyments semblables

bull Quelles sont les composantes structurelles des documents Quels sont les autres types deacuteleacutements logiques appashyraissant dans chaque type de document

bull En plus des contenus textuels quelshyles autres informations ou proprieacuteteacutes peuvent ecirctre assigneacutees agrave chaque type deacuteleacutement

laquoQuelles sont les relations logiques entre chacun des eacuteleacutements

bull Que veut-on faire de linformation Quelles sont les types de structures et de relations que lon veut encoder dans le balishysage SGML de faccedilon agrave pouvoir reacutepondre aux besoins deacutechange (partage) de repeacuteshyrage de diffusion et de reacuteutilisation de linshyformation

Cet exercice en est un danalyse de besoins en fonction des coucircts encourus et des beacuteneacutefices retireacutes Ainsi un balisage fin et hautement structureacute insufflant de ce fait une laquointelligenceraquo aux documents pershymettra une exploitation plus performante des donneacutees tandis quun balisage plus grossier effectueacute agrave moindre coucirct trouvera une possibiliteacute de reacuteutilisation reacuteduite ou demandant certaines interventions

En matiegravere de revues savantes leacutequipe deacutes publications eacutelectroniques

166 octobre-deacutecembre 1999

Documentation et bibliothegraveques

des Presses de lUniversiteacute de Montreacuteal a eu dans des projets anteacuterieurs agrave celui-ci lopportuniteacute deacutetudier la question du choix de la DTD pour ce type de publication8 La DTD IS012083 Article ayant eacuteteacute deacutecreacuteteacutee trop limiteacutee on a jugeacute souhaitable dadapshyter cette derniegravere aux besoins des revues savantes Du noyau de la DTD ISO 12083 auquel on a greffeacute des fragments dautres DTD normaliseacutees mdash CALS (Continuous Acquisition and Life Cycle Support) TEI (Text Encoding Initiative) DTD de la revue Earth Interactions^ mdash nous en sommes arriveacutes agrave creacuteer la DTD des Presses de lUniversiteacute de Montreacuteal (alias DTD PUM) laquelle devait deacutecrire la structure dun arshyticle de peacuteriodique dune revue savante On a eacutegalement proceacutedeacute agrave certains ajouts maison concernant entre autres la gesshytion des diffeacuterentes langues le deacutecoupage des reacutefeacuterences bibliographiques etc

Description des eacutetapes de la chaicircne de traitement

Analyse preacuteliminaire

Avant dutiliser la chaicircne de traiteshyment proprement dite un examen attentif de plusieurs numeacuteros deacutejagrave parus doit ecirctre meneacute pour chaque revue Cet examen doit ecirctre fait pour chaque nouvelle revue Ideacuteashylement lanalyse doit porter sur une peacuteshyriode reacutetrospective suffisamment longue et un nombre de numeacuteros suffisamment important pour englober lensemble des caracteacuteristiques et variations de la revue Cette analyse servira agrave identifier les types de documents (articles comptes rendus notes eacutetudes etc) et leur structure seacuteshymantique10 MHV (titres reacutesumeacutes secshytions subdivisions tableaux eacutequations ilshylustrations citations renvois reacutefeacuterences notes infrapaginales etc)

Cest aussi loccasion dobserver la reacuteshygulariteacute et la conformiteacute de lapplication du protocole de reacutedaction en vigueur ce qui a un impact important sur la qualiteacute En prinshycipe si les documents preacutesentent une structure uniforme et constante (agrave linteacuteshyrieur dun mecircme document et dun docushyment agrave lautre) si le protocole de reacutedaction a ducircment eacuteteacute respecteacute et si leacutetape du choix ou de la creacuteation de la DTD a eacuteteacute bien faite les composants seacutemantiques rencontreacutes leur nombre et lordre dans leshyquel ils se preacutesentent devraient tous ecirctre conformes agrave la DTD Dans la situation ougrave

la correspondance entre la DTD et cershytains eacuteleacutements logiques se retrouvant dans les documents est impossible il faushydra apporter des modifications soit agrave la DTD soit aux documents soit agrave la fois agrave la DTD et aux documents Cette intervention meacuterite une reacuteflexion importante puisshyquelle est lourde de conseacutequences Dans un contexte de conversion reacutetrospective il est impossible dintervenir sur le contenu des documents Les changements agrave la DTD doivent ecirctre faits en consideacuterant un eacuteventail de besoins et non seulement le beshysoin preacutecis qui nous amegravene agrave vouloir modishyfier la DTD Aussi les changements agrave la DTD doivent ecirctre additifs et non correctifs de faccedilon agrave garder une certaine compatibilishyteacute avec les documents produits anteacuterieureshyment agrave ces changements

Outre les modifications de nature seacuteshymantique les amendements doivent sinsshycrire plus largement dans lutilisation soushyhaiteacutee tant agrave court quagrave plus long terme des documents En effet la mise en page en fonction de diffeacuterents meacutedias (papier eacutecran etc) la recherche structureacutee la reacuteushytilisation de certaines parties de docushyments etc deacutependront toutes dune indicashytion SGML (un eacuteleacutement speacutecifique une valeur dattribut etc) En principe cette reacuteshyflexion a ducircment eacuteteacute faite lors de leacutetape du choix ou encore de la conception de la DTD de sorte que les eacuteleacutements logiques devraient tous sharmoniser avec la DTD Cependant puisque aucun controcircle na pu ecirctre exerceacute sur la structuration initiale des documents comme il a eacuteteacute expliqueacute plus haut il se peut que certains eacuteleacutements logishyques ne trouvent pas de correspondance dans la DTD

Il faut eacutegalement discerner les caprishyces de la mise en page papier actuelle faite de faccedilon manuelle la plupart du temps des veacuteritables besoins de discerneshyment visuel des composants logiques Ainsi une information SGML doit ecirctre preacutevue pour faire en sorte quune liste orshydonneacutee soit rendue de faccedilon diffeacuterente dune liste agrave puces On pourra ainsi agrave leacutetape de production dune sortie papier produire respectivement un numeacutero seacuteshyquentiel ou un symbole tel un rond plein (laquo bull raquo) devant chaque item de liste

En theacuteorie la production du SGML et les ajustements agrave la DTD ne devraient pas ecirctre faits en fonction des limites des outils employeacutes cependant en pratique on ne peut ignorer cet aspect Par exemple une formule matheacutematique peut ecirctre finement

baliseacutee selon un modegravele de DTD approshyprieacute (fonction numeacuterateur deacutenominateur arguments etc) En pratique cependant plusieurs logiciels de notre chaicircne de traishytement ne peuvent reconnaicirctre et traiter adeacutequatement une formule reproduite sous cette forme On se rabattra alors sur une repreacutesentation graphique de la forshymule cest-agrave-dire linsertion dun fichier image Ceci peut demander des modificashytions agrave la DTD Autre exemple lemploi de jeux de caractegraveres eacutetrangers bien quils puissent ecirctre repreacutesenteacutes en SGML (entre autres par lemploi dentiteacutes caractegraveres coshydeacutees en Unicode11) peut nous faire renshycontrer les limites des outils de traitement Ici encore on preacuteconisera une solution de rechange impliquant des modifications au SGML produit et conseacutequemment agrave la DTD Si le nombre de limitations renconshytreacutees par les outils est tregraves important on deacutecidera afin de ne pas laquocorrompreraquo abushysivement la source SGML de produire (aushytomatiquement de preacutefeacuterence) des vershysions SGML transitoires

Nous avons recours agrave une version SGML transitoire pour la production du PDF (une eacutetape plus en aval de la chaicircne qui sera expliqueacutee plus loin) Cette version transitoire sert agrave reacuteordonner et qualifier certains eacuteleacutements de faccedilon agrave accommoshyder certaines caracteacuteristiques propres aux revues (par exemple le fait de preacutesenter les reacutesumeacutes agrave la toute fin de larticle plutocirct quau deacutebut) Elle est produite automatishyquement avec le logiciel OmniMark

Preacutetraitement

Mise en styles et preacuteparation des textes

La chaicircne de traitement proposeacutee comporte une eacutetape de preacutetraitement des documents originaux (Figure 1) Cette

8 Voir Un nouveau modegravele de publication eacutelectronique ltURL http wwwpumumontrealcapubl__electr vision htmlgt

9 ltURL http EarthInteractionsorggt 10 Nous employons dans cet article lexpression laquostrucshy

ture seacutemantiqueraquo pour souligner lorganisation dun document textuel baseacute sur le sens de ses composhysants par opposition agrave leur apparence

11 La norme Unicode est un jeu de caractegraveres eacutetaleacute sur 16 bits ce qui permet la repreacutesentation dun maxishymum de 65 536 caractegraveres diffeacuterents Elle corresshypond au premier plan agrave 2 octets (le BMP Basic Multishylingual Plane) dune norme plus universelle (baseacutee sur 4 octets) soit la norme ISO 10646 Voir ltURL http wwwunicodeorggt

octobre-deacutecembre 1999 167

Documentation et bibliothegraveques

Figure 1 Chaicircne de traitement du projet Eacuterudit

Documents mis en styles (Word)

1 r f bull -

Documents originaux (WordJ

Documents 1 k | ltSfiMI 1

^ 1 wninii 1 mdash

[DTDPUMJ Formats de diffusion 1 HTML

SGML

flHGIiHiB

eacutetape consiste agrave appliquer un ensemble de styles contenus dans un modegravele de doshycument (feuille de style) agrave un document original en format MS Word Utilisation de styles sur des parties de texte inscrit dans le format intrinsegraveque du traitement de texte des codes qui nous permettront daushytomatiser le balisage en SGML

Cest agrave cette eacutetape que lon insuffle une certaine laquointelligenceraquo au document Ainsi le modegravele de document et les styles quil contient ne sont pas destineacutes agrave modishyfier lapparence des documents comme lont dabord penseacute les concepteurs de cette fonctionnaliteacute mais plutocirct agrave identifier certaines parties des documents Par exemple nous chercherons agrave identifier les titres les auteurs les reacutefeacuterences bibliograshyphiques les reacutesumeacutes etc Il est important de comprendre que nous nutiliserons pas les styles agrave des fins de mise en page mais bien didentification des diffeacuterents composhysants du texte

Outre lapplication des styles luniforshymisation et la normalisation des textes doivent ecirctre effectueacutees Ainsi les tashybleaux les listes et les notes infrapagina-les doivent avoir eacuteteacute produits avec les foncshytionnaliteacutes approprieacutees du traitement de texte (en dautres mots que ce soient de vrais tableaux et non des chaicircnes de texte seacutepareacutees par des tabulations par exemple) Nous analysons agrave leacutetape de la programmation lensemble des codes du traitement de texte les liens entre les apshypels de notes et les notes la largeur relashytive des colonnes des tableaux laligneshy

ment des contenus des cellules des tableaux etc et nous reproduisons cette information dans les documents SGML Au besoin certains composants doivent ecirctre reacuteordonneacutes (par exemple si lauteur a ajouteacute son reacutesumeacute agrave la fin on devra le repishyquer au deacutebut du document agrave la suite des eacuteleacutements de titres et dauteurs tel que le preacutevoit la DTD)

Nous avons deacuteveloppeacute un modegravele de document pour chacune des revues Ces modegraveles contiennent en moyenne de 30 agrave 50 styles diffeacuterents en fonction du nombre de composants retrouveacutes Parmi ces styles certains sont de type paragraphe (blocs de texte) et dautres de type caracshytegravere (chaicircnes de texte agrave linteacuterieur des blocs)

Leacutetape de mise en styles pourra ecirctre reacutealiseacutee par la personne responsable de la preacuteparation des textes agrave publier soit habishytuellement une personne faisant partie du comiteacute de production de la revue Agrave cet effet nous avons dans le cadre du projet Eacuterudit entrepris de donner des seacuteances de formation personnaliseacutee aux responsashybles des revues lesquelles portaient sur la preacuteparation des documents et lapplication des feuilles de style Notre expeacuterience deacuteshymontre que cette eacutetape est plus facilement reacutealisable par des personnes maicirctrisant bien leur outil de traitement de texte Un certain controcircle de qualiteacute doit ecirctre effecshytueacute sur les premiers documents styleacutes

Une fois styleacute le document servira dintrant (input) agrave leacutetape de conversion SGML Cest pourquoi il doit sagir dune

version finale du texte cest-agrave-dire quil doit ecirctre complet et deacutejagrave comprendre toushytes les corrections neacutecessaires Agrave cet effet nous avons rencontreacute quelques proshyblegravemes puisque le traitement traditionnel des revues comporte une ou plusieurs eacutetashypes de correction deacutepreuves une fois le document mis en page agrave laide dun logishyciel de PAO (tel PageMaker ou XPress) Les corrections sont alors effectueacutees direcshytement dans ces logiciels et ne sont pas reshypiqueacutees dans la copie de traitement de texte initiale Notre systegraveme de traitement preacuteconise une utilisation de fonctionnalishyteacutes approprieacutees du traitement de texte (styles notes tableaux etc) De plus les corrections de nature textuelle (orthoshygraphe et syntaxe de mecircme que la plushypart des corrections de nature typograshyphique) doivent ecirctre faites dans le fichier de traitement de texte Il faut prendre en consideacuteration le fait que ce fichier sert agrave la production de documents darchivage de documents deacuteriveacutes (sommaires tables des matiegraveres listes de reacutesultats de reshycherche etc) ainsi que de plusieurs forshymats de diffusion Ce fichier source de par son contenu et sa structure doit donc ecirctre le plus acheveacute possible Cela exige de la personne qui preacutepare les textes de bonnes connaissances linguistiques et tyshypographiques Les erreurs reacuteveacuteleacutees en aval dans la chaicircne de production doivent ecirctre corrigeacutees dans les fichiers de traiteshyment de texte

168 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Eacutepreuves eacutelectroniques

Depuis la fin du projet Eacuterudit nous avons testeacute linteacutegration du processus de reacutevision des eacutepreuves dans la chaicircne de traitement Dans un processus plus tradishytionnel cette reacutevision se fait habituelleshyment sur les eacutepreuves imprimeacutees des artishycles une fois la mise en page effectueacutee agrave laide de logiciels de PAO Les corrections apporteacutees peuvent ecirctre agrave la fois de nature orthographique syntaxique typograshyphique et peuvent aussi concerner des asshypects du montage La diffusion du mecircme contenu sur plusieurs supports de diffushysion nous amegravene agrave discerner entre les corshyrections devant ecirctre repiqueacutees dans le fishychier initial de traitement de texte (de fashyccedilon agrave ce que lensemble des formats de difshyfusion profitent de ces modifications) des corrections sappliquant uniquement agrave la mise en page papier Nous produisons donc maintenant des laquoeacutepreuves eacutelectronishyques raquo cest-agrave-dire des sorties imprimeacutees obtenues agrave partir dun logiciel de PAO soit FrameMaker+SGML (voir plus loin pour la description de cette eacutetape) sans avoir agrave efshyfectuer dimportantes interventions mashynuelles au niveau du montage Sur ces eacutepreuves sont apporteacutees les corrections se rapportant au texte (et non agrave sa mise en page en vue de limprimeacute) lesquelles seshyront ensuite repiqueacutees dans le fichier Word initial qui servira agrave la reacutegeacuteneacuteration des diffeacuterents formats produits Dans la perspective ougrave plusieurs formats diffeacuteshyrents (SGML HTML PDF) sont produits agrave partir dun mecircme fichier initial on comprenshydra linteacuterecirct deffectuer un maximum de corrections en amont (donc degraves la reacutevision du fichier Word) et non en aval sur un forshymat en particulier plutocirct que sur un autre

Traitement des images

Les illustrations que peuvent comporshyter les articles parviennent habituellement aux responsables des revues sous diffeacuteshyrentes formes photos impressions laser velox etc et plus rarement sous forme eacutelectronique fichiers vectoriel ou bitmap provenant de logiciels graphiques et imashyges numeacuteriseacutees Traditionnellement ces images sont inseacutereacutees dans le texte au moment du montage de la copie agrave imprishymer par le typographe qui les numeacuterise et les retouche ou encore par le technicien de latelier de preacuteimpression qui les reproshyduit par proceacutedeacute photographique

Linteacutegration des images dans la chaicircne de traitement Eacuterudit est de beaushycoup faciliteacutee si ces documents nous parshyviennent en format numeacuterique Les imashyges sont traiteacutees comme des fichiers seacutepashyreacutes qui sont reacutefeacutereacutes agrave partir des docushyments

Les secreacutetariats des revues neacutetant habituellement pas eacutequipeacutes en mateacuteriel et savoir-faire pour manipuler des images ce type dintervention sera effectueacute par le fournisseur de services en loccurrence leacutequipe dEacuterudit Cependant les comiteacutes de revues devraient tenter dobtenir des auteurs autant que faire se peut une vershysion des images en format eacutelectronique Ces images devraient toujours ecirctre de tregraves bonne qualiteacute (avec une haute reacutesolution et si deacutesireacute en couleurs) afin de servir agrave larchivage Cest agrave partir des images de bonne qualiteacute quon effectuera le traiteshyment (surtout des modifications de forshymats de fichiers des baisses de reacutesolushytion des sauvegardes en noir et blanc) en vue des diffeacuterents modes de diffusion (arshychivage Web et imprimeacute) Afin de standarshydiser le processus de traitement des imashyges nous avons eacutetabli des proceacutedures norshymaliseacutees Enfin bien que cela ne se soit pas encore produit un type dintervention de mecircme nature est agrave preacuteconiser pour dautres formats non textuels (videacuteo son images 3D etc)

Nous avons exposeacute dans cette section les diffeacuterents eacuteleacutements portant sur le preacutetraitement des textes soit lapplicashytion des styles et le traitement des images Une fois le document preacutetraiteacute il est precirct agrave ecirctre converti en SGML

Conversion en SGML

Puisque la feuille de style utiliseacutee pour styler les documents a eacuteteacute conccedilue en fonction dun passage efficace vers un doshycument SGML respectant la DTD PUM une conversion relativement automatique est possible Cette conversion qui consiste en linterpreacutetation des informashytions existantes et lajout dinformations deacuteshyriveacutees requiert cependant un outil speacutecialishyseacute Il serait agrave ce point-ci de la discussion important dexpliquer la diffeacuterence entre Une conversion de donneacutees au sens SGML et une traduction de donneacutees

Une traduction est une opeacuteration qui consiste agrave prendre un ensemble de donshyneacutees (information et mise en forme confonshydus) dun format proprieacutetaire et le traduire

en un ensemble eacutequivalent qui peut ecirctre inshyterpreacuteteacute et eacutediteacute dans un autre logiciel utilishysant un format proprieacutetaire (par exemple passer un document de Word agrave WordPershyfect) Au contraire une conversion vers SGML implique deacutetablir un lien entre un document dans un format proprieacutetaire (ougrave la structure logique est habituellement perccedilue de faccedilon visuelle par le lecteur) agrave un document SGML laquointelligentraquo (ougrave la structure logique est codeacutee de faccedilon explishycite suivant une DTD donneacutee)

Une conversion enrichissante (traducshytion libre de up conversion) est une convershysion dun format plat vers un format seacutemanshytique structureacute (par exemple dun format WordPerfect vers un format SGML) ou plus preacuteciseacutement une conversion de donshyneacutees textuelles dun format dencodage arshybitraire vers une instance SGML valide Une conversion appauvrissante (traducshytion libre de down conversion) quant agrave elle consiste en une conversion dun forshymat logique vers un format proprieacutetaire (par exemple dun format SGML vers un format MS Word) Ce type de conversion est la cleacute du succegraves de SGML puisquelle assure une complegravete reacuteutilisation des donshyneacutees Agrave partir dun format SGML la convershysion peut ecirctre facilement automatiseacutee tout en conservant linteacutegriteacute des donneacutees

Il existe plusieurs produits logiciels apshytes agrave convertir des textes dun format agrave un autre Ces produits sont disponibles essenshytiellement sous la forme de programmes ou de solutions parameacutetrables12 Nous avons opteacute pour le langage de programmashytion speacutecialiseacute OmniMarkreg

Nous effectuons la conversion en deux eacutetapes dont la premiegravere est reacutealiseacutee agrave laide dun programme en langage OmnishyMark disponible gratuitement13 La seshyconde eacutetape se charge dajouter une strucshyture seacutemantique normaliseacutee pour la desshycription darticles savants et introduira de linformation suppleacutementaire agrave valeur ajouteacutee Ainsi nous creacuteons sans aucune intervention manuelle des liens entre les appels de reacutefeacuterences dans le texte et les reacutefeacuterences bibliographiques agrave la fin du

12 Pour une liste exhaustive de ce genre de produit consulter la rubrique laquo Conversion Program raquo dans Survey of software for structured text par Eila Kuikka et Erja Nikunen ltURL http www xsukufi~kuikkasys-temshtmlgt

13 Il sagit de RTF2XML (auparavant RTF2SGML) deacuteshyveloppeacute par Rick Geimer ltURLhttpwwwxme-ta comomlettegt

octobre-deacutecembre 1999 169

Documentation et bibliothegraveques

texte Pour ce faire il faut analyser meacuteticu-leusement les syntaxes de reacutefeacuterences utilishyseacutees par chaque revue [par exemple laquo(Vaugeois et Hubert 1993a)raquo ou laquo(Va-Hu93a) raquo] afin deacutetablir des patrons de reshyconnaissance sur lesquels on peut enshysuite bacirctir des regravegles de programmation Cette deuxiegraveme eacutetape est effectueacutee par un programme en langage OmniMark reacutealiseacute dans le cadre du projet Eacuterudit

Formats de diffusion

Les formats de diffusion choisis doishyvent permettre de satisfaire les habitudes de lecture et les besoins de consultation qui diffegraverent dun usager agrave lautre Ainsi nous preacuteconisons la diffusion des docushyments en plusieurs formats Notre modegravele de diffusion est baseacute sur le document dans sa version SGML Ce document eacutelecshytronique unique constitue la source de plushysieurs sous-produits qui sont autant de forshymats de sortie possibles Les supports de diffusion qui sont compatibles avec ces forshymats sont divers diffusion en ligne (Web) diffusion sur ceacutedeacuterom diffusion sur papier Dans le cadre du projet Eacuterudit nous avons consideacutereacute trois formats de sortie (HTML SGML et PDF) Nous avons eacutegalement deacuteshycideacute deacute rendre disponible le format SGML ce dernier se precirctant tregraves bien agrave la consulshytation dans la mesure ougrave les navigateurs SGML sont capables dexploiter la strucshyture des documents de faccedilon agrave offrir un enshyvironnement de lecture plus sophistiqueacute et complet Enfin le format PDF permet la difshyfusion de documents eacutelectroniques reproshyduisant la mise en page choisie par les difshyfuseurs Ce format est tout agrave fait approprieacute pour limpression agrave distance Nous envisashygeons agrave court terme doffrir eacutegalement le format XML qui peut ecirctre consulteacute agrave laide des versions 5 des navigateurs Internet Explorer et Netscape Navigator

Un principe de base de la philosophie SGML voulant que linformation une fois baliseacutee en SGML puisse ecirctre reacuteutiliseacutee plusieurs fois et cela avec diffeacuterentes sashyveurs tant dans linteacutegraliteacute du contenu (en tout ou en parties) que dans la forme du contenant (dans un format particulier) il est tout naturel de convertir les fichiers SGML en fichiers HTML Il sagit en fait dune conversion SGML (DTD PUM soit la DTD deacuteveloppeacutee aux Presses de lUnishyversiteacute de Montreacuteal pour reacutepondre aux beshysoins de balisage des revues savantes) vers SGML (DTD HTML) Ainsi les artishy

cles sont convertis automatiquement en HTML agrave laide dun autre programme OmniMark Nous produisons de la mecircme faccedilon une table des matiegraveres pour chaque numeacutero de revue Cette table des matiegraveres ne provient pas dun document initial unique saisi sous forme de table des matiegraveres mais plutocirct de la concateacutenation dinformations reacutecupeacutereacutees dans lenshysemble des articles (titres sous-titres auteurs) en format SGML Cest un bon exemple de reacuteutilisation de linformation

Puisque lensemble des documents produits sont baseacutes sur la DTD PUM la conversion du SGML vers le HTML est reacuteashyliseacutee par un seul programme de convershysion pour lensemble des revues Ce proshygramme comporte cependant quelques particulariteacutes de preacutesentation propres agrave chaque revue et dune telle pratique reacuteshysulte une apparence assez semblable pour chacune des revues La fabrication dune signature dune maquette diffeacuterente pour chaque revue est reacutealiseacutee agrave laide dune feuille de style CSS (Cascading Style Sheet) fonction de plus en plus supshyporteacutee par les navigateurs Web

Pour linstant nous stockons sur notre serveur Web la version HTML preacuteshyconvertie Cependant la conversion tant pour les articles que pour la table des mashytiegraveres pourrait aiseacutement ecirctre faite laquoagrave la voleacutee raquo (on the fy) puisquil ny a aucune inshytervention manuelle sur les fichiers HTML On pourrait facilement faire en sorte quau moment ougrave lutilisateur par le biais de son client Web fait la demande dun fichier HTML (par exemple un article donneacute) le serveur (sur lequel serait installeacute OmnishyMark) convertisse leacute fichier SGML en fishychier HTML Ceci aurait pour avantage doccuper moins despace disque (environ la moitieacute de moins puisque seule la vershysion SGML serait stockeacutee et que le rapport SGMLHTML doit plus ou moins ecirctre eacutegal agrave 1 ) Il resterait agrave sassurer de deacutelais de reacuteshyponses acceptables

SGML

Les utilisateurs peuvent visionner les documents SGML agrave laide de Panorama Viewer de Interleaf14 un navigateur SGML qui sinstalle comme module exshyterne (plug-in) dun navigateur Web tel Netscape Navigator

Panorama Viewer permet de creacuteer des liens entre diffeacuterentes parties des doshycuments ou diffeacuterents documents Il pershy

met eacutegalement de preacutesenter des tables des matiegraveres dynamiques qui constituent des aides agrave la navigation Une autre foncshytion de Panorama offre la possibiliteacute danshynoter nimporte quelle partie dun docushyment y compris une zone dune figure deacuteshytermineacutee par le lecteur Enfin il permet dajouter des signets dans un document

La diffusion des articles en format SGML requiert peu defforts puisquil sagit du format natif des documents Pour ecirctre plus exact nous diffusons une vershysion SGML agrave peine diffeacuterente de la version produite lors de leffort de conversion enshyrichie deacutecrite preacuteceacutedemment Cette diffeacuteshyrence minime tient exclusivement agrave la non-reconnaissance par le navigateur SGML de certains caractegraveres eacutetrangers et symshyboles particuliers Panorama Viewer eacutetant en mesure de lire du SGML il faut simpleshyment lui indiquer la mise en forme propre aux diffeacuterents eacuteleacutements rencontreacutes Ces instructions de formatage sont donneacutees sous la forme dune feuille de style La creacuteation dune feuille de style ne seffectue normalement quune seule fois par revue (voire mecircme par DTD utiliseacutee si on deacutesire des produits normaliseacutes et identiques) Ainsi nous avons creacuteeacute des feuilles de style et des formats de tables des matiegraveres dyshynamiques (navigators) pour chaque revue de maniegravere agrave donner agrave chacune une signashyture caracteacuteristique

PDF

Linteacuterecirct du PDF reacuteside dans lobtenshytion dun document eacutelectronique arborant un format de preacutesentation semblable agrave limshyprimeacute Un tel format permet aux lecteurs dimprimer une version laquomise en page papierraquo des articles diffuseacutes en ligne Les navigateurs SGML ou HTML dont nous avons discuteacute preacuteceacutedemment permettent eacutegalement limpression mais la qualiteacute de la mise en page nest pas aussi complexe et soigneacutee puisque les feuilles de style des navigateurs Web sont destineacutees avant tout agrave la preacutesentation agrave leacutecran Notons cepenshydant quil existe des feuilles de style (CSS et XSL) normaliseacutees ougrave on a preacutevu une mise en page sophistiqueacutee en fonction de diffeacuterents meacutedias (eacutecran terminal reacuteduit imprimeacute synthegravese vocale) Agrave moyen terme on pourrait entrevoir que les

14 ltURL http wwwinterleafcomPanoramapa -ge3htmlgt

170 octobre-deacutecembre 1999

Documentation et bibliothegraveques

formats HTML et PDF seront remplaceacutes par un seul document source XML coupleacute agrave des feuilles de style qui seront fonction du meacutedia employeacute

laquo La grande majoriteacute des logiciels de PAO sur le marcheacute (les plus connus eacutetant PageMaker et Xpress) permettent une saushyvegarde en format PDF pour diffusion sur le Web Ces logiciels ne sont cependant pas en mesure de lire en intrant input) un fichier SGML ni de linterpreacuteter correcteshyment Il existe toutefois des outils perforshymants capables agrave la fois de prendre en inshytrant du SGML et de permettre une mise en page professionnelle (FrameMaker+ SGML^ocirce Adobe Interleaf 6 SGMLtrade de la compagnie Interleaf et ADEPT Publisshyher17 reacutealiseacute par ArborText) Il sagit touteshyfois de produits dispendieux et assez comshyplexes agrave manipuler

Notre choix sest arrecircteacute sur le logiciel FrameMaker+SGML en raison de son coucirct abordable et de sa plus grande facilishyteacute de parameacutetrage FrameMaker+SGML permet la creacuteation la modification et la pushyblication de documents SGML dans un enshyvironnement convivial Dans le cadre du projet Eacuterudit nous utilisons uniquement les fonctionnaliteacutes dimportation du SGML et de mise en page sophistiqueacutees offertes par loutil Il sagit ici aussi de deacutefinir un meacutecanisme dapplication de style pour chaque eacuteleacutement en fonction de son contexte SGML Cette feuille de style est dirigeacutee vers la mise en page sur papier (et non agrave leacutecran) et agrave cet effet FrameMashyker+SGML offre la possibiliteacute de parameacuteshytrer plusieurs des caracteacuteristiques requishyses par limprimeacute (par exemple la gestion des veuves et orphelins des paragraphes solidaires les colonnes multiples les noshytes en bas de page les patrons de ceacutesure approprieacutes agrave la fin des lignes les formes des en-tecirctes et bas de pages etc)

Chaque revue possegravede une feuille de style diffeacuterente laquelle a eacuteteacute conccedilue en se basant sur la maquette de la forme imshyprimeacutee deacutejagrave existante des revues particishypantes Les fonctionnaliteacutes de FrameMashyker+SGML nous permettent sans difficulteacute de reproduire de faccedilon presque identique laspect habituel des revues Lapplication dune feuille de style exhaustive et bien conccedilue (quon arrive geacuteneacuteralement agrave obteshynir apregraves un processus de reacuteajustement lors des premiegraveres productions) permet dautomatiser agrave 90 le montage du docushyment ce qui constitue un excellent rendeshyment On doit toutefois faire certaines intershy

ventions manuellement afin de compleacuteter le travail (par exemple deacuteplacer des figushyres condenser lespacement du texte ccedila et lagrave pour forcer un saut de page fractionshyner des notes de bas de page trop lonshygues etc)

Une fois le document monteacute avec FrashymeMaker+SGML il ne reste quagrave produire une version PDF agrave laide du logiciel Acroshybat de Adobe Il sagit lagrave dune opeacuteration sans grande difficulteacute quon peut apparenshyter agrave un simple laquosauvegarder sous PDFraquo On peut ainsi produire un premier fichier PDF de faible reacutesolution destineacute agrave ecirctre vishysionneacute sur le Web et un second fichier PDF de meilleure reacutesolution (ou encore un fichier PostScript) pouvant ecirctre achemineacute agrave latelier de preacutepresse en vue de limpresshysion des exemplaires papier

Pour les usagers la consultation des documents PDF se fait avec le logiciel Acrobat Reader qui existe comme moshydule externe (plug-in) pour les navigateurs Web On peut consulter les documents PDF agrave leacutecran avec ce logiciel mais ils sont plutocirct destineacutes agrave ecirctre imprimeacutes localeshyment par les usagers

Dans le cadre du projet Eacuterudit nous avons produit uniquement des documents PDF destineacutes au Web agrave raison dun fichier unique par article (et non dun fichier regroushypant tout un numeacutero dune revue) puisque les revues poursuivaient pendant la mecircme peacuteriode le traitement habituel pour la proshyduction de la version imprimeacutee de la revue

Diffusion sur le Web

Pour diffuser des documents sur le Web nous avons creacuteeacute un site Web18 heacuteshybergeacute sur notre serveur Web Ce site est la porte dentreacutee principale pour laccegraves aux articles

La diffusion en ligne (et eacutegalement sur ceacutedeacuterom) permet pour le lecteur dacshyceacuteder aux textes agrave laide dun outil de reshycherche Pour ce faire on doit implanter un outil de recherche en texte inteacutegral qui peut indexer des documents SGML tout en conservant linformation sur la strucshyture de faccedilon agrave permettre aux usagers dexprimer des contraintes sur la structure dans leurs requecirctes On peut par exemple preacuteciser la recherche de textes comporshytant le nom dun chercheur mais uniqueshyment lorsque celui-ci se retrouve dans une bibliographie et non en tant quauteur de larticle Dans le cadre du projet Eacuterudit nous avons installeacute sur le site Web un

prototype de moteur de recherche qui doit encore ecirctre ameacutelioreacute La collection indexeacutee comprend lensemble des articles ayant eacuteteacute publieacutes par les revues pendant la dureacutee du projet pilote Il sagit dun mode daccegraves au texte tregraves performant que seule la version eacutelectronique permet dobtenir

Recommandations

Dans la mesure ougrave notre mandat consistait moins en la mise au point dune solution theacuteoriquement optimale quen la conception dune chaicircne de traitement adapteacutee aux besoins du projet (reproducshytion de la forme papier deacutejagrave existante imshypossibiliteacute dintervenir en amont de la chaicircne de production optimisation du traishytement par ladoption dune DTD unique production de divers formats de diffusion) nous avons opteacute pour une solution compreshynant plusieurs sorties intermeacutediaires et cela de faccedilon agrave atteindre de bons reacutesulshytats en matiegravere dautomatisation et de quashyliteacute des textes produits Nous estimons avoir atteint agrave 95 ces objectifs de producshytion

Il va sans dire que la DTD a ducirc ecirctre constamment remanieacutee afin de sadapter agrave lensemble des documents agrave produire Nous avons ducirc opter pour une DTD qui au fur et agrave mesure de lavancement du projet devenait plus permissive de maniegravere agrave geacuteshyneacuterer en bout de ligne du SGML valide respectant linteacutegriteacute et la preacutesentation des contenus des articles

Le projet Eacuterudit aura mis en lumiegravere lextrecircme importance dans une perspecshytive dautomatisation des opeacuterations de la chaicircne documentaire de deacutefinir une strucshyture une preacutesentation et dans une cershytaine mesure un contenu normaliseacute des documents agrave traiter La production mecircme de textes destineacutes agrave ecirctre baliseacutes en SGML peut donc faire lobjet de certaines recomshymandations dont plusieurs savegraverent applishycables dans une optique de sensibilisation des comiteacutes de revues et de formation du personnel chargeacute de la reacutevision et de la correction des textes Cest ainsi quil y aushyrait lieu de deacutefinir (ou renforcer) pour chaque revueraquo un modegravele normaliseacute quant

15 ltURL http wwwadobecomprodindexframe makerprodinfosgmlhtmlgt

16 ltUEL http wwwinterleafcomproducts p_sgmlhtmlgt

17 ltURL http wwwarbortextcomProducts AcircDEPT_Seriesadept_serieshtmlgt

18 ltURLhttpwwweruditorggt

octobre-deacutecembre 1999 171

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999

Page 4: De l’imprimé vers l’électronique : réflexions et solutions

Documentation et bibliothegraveques

continu ou lajout de pages disparates (enshycarts annexes) De plus mecircme si ces chaicircnes de traitement utilisent massiveshyment linformatique leur finaliteacute est de proshyduire des documents imprimeacutes et non des documents eacutelectroniques

Nous pouvons tirer de ces meacutethodes deux conclusions en apparence contradicshytoires presque tous les documents imprishymeacutes mecircme ceux produits de faccedilon tradishytionnelle existent sous une forme eacutelectroshynique quelconque mais pour plusieurs documents imprimeacutes nous navons pas de version finale et deacutefinitive en format eacutelectronique Par conseacutequent mecircme si en apparence les outils de PAO nous pershymettent de faire un pas vers de la veacuteritable eacutedition eacutelectronique des ajustements doivent ecirctre faits afin dobtenir un docushyment eacutelectronique qui soit fidegravele agrave la vershysion imprimeacutee quant au contenu Cette utilishysation de la PAO nest donc pas suffisante pour obtenir un document eacutelectronique de qualiteacute et pour assurer la diffusion ainsi que la conservation sur support eacutelectroshynique Cette approche est donc nettement insuffisante ce qui demande aux eacutediteurs de remettre en question non seulement leurs faccedilons de diffuser et de conserver leur information mais eacutegalement de la proshyduire

Cette courte reacuteflexion sur les meacutethoshydes actuelles nous amegravene agrave identifier trois grands sceacutenarios pour la production de doshycuments eacutelectroniques dans le monde de leacutedition

m La forme eacutelectronique en aval de la forme imprimeacutee Conserver les technishyques de PAO traditionnelles et agrave partir des reacutesultats de celles-ci creacuteer des vershysions eacutelectroniques des documents

s Les chaicircnes parallegraveles Continuer agrave travailler avec les outils de PAO pour les versions imprimeacutees mais laquo remonterraquo agrave la source (par exemple des documents de traitement de texte produits par les auteurs) pour creacuteer des versions eacutelectroshyniques

bull Un seul document source et des produits deacuteriveacutes Produire dabord un doshycument riche et par la suite deacuteriver des produits dinformation y compris lutilisashytion de la PAO pour des versions imprishymeacutees

La premiegravere approche souffre de deux lacunes importantes Dabord elle ajoute des eacutetapes agrave la chaicircne de traiteshyment ce qui la rend neacutecessairement plus coucircteuse que le modegravele traditionnel ougrave

limprimeacute constituait lunique produit De plus puisque la chaicircne de traitement est dabord et avant tout orienteacutee vers limprishymeacute il sera difficile dexploiter les possibilishyteacutes des documents eacutelectroniques

La deuxiegraveme approche permet peut-ecirctre dexploiter les possibiliteacutes des documents eacutelectroniques mais encore une fois elle vient ajouter des eacutetapes agrave la chaicircne de traitement ce qui la rend neacutecesshysairement plus coucircteuse De plus une autre difficulteacute sajoute car le fait de meshyner deux chaicircnes de traitement en paralshylegravele rend les eacutetapes de correction plus diffishyciles et les possibiliteacutes derreurs plus proshybables

La troisiegraveme approche peut saveacuterer inteacuteressante et surtout efficace puisshyquune seule chaicircne de traitement est utishyliseacutee et quil ny a donc pas de reacutepeacutetition de linformation De plus elle peut utiliser toute la puissance des outils de PAO pour produire des versions imprimeacutees des docushyments si neacutecessaire Mais cette approche est possible seulement si on arrive agrave proshyduire ce document riche agrave partir duquel les autres formats seront deacuteriveacutes Ces proshyduits deacuteriveacutes pourraient ecirctre par exemple une version imprimeacutee et relieacutee un docushyment HTML sur le Web une version somshymaire de larticle (titre auteurs reacutesumeacute) envoyeacutee par courrier eacutelectronique agrave une liste de diffusion etc

Pour arriver agrave implanter un tel modegravele de traitement et de production il est neacutecesshysaire dutiliser une technologie qui permet de creacuteer des documents suffisamment rishyches pour repreacutesenter toutes les informashytions neacutecessaires aux traitements agrave effecshytuer immeacutediatement ou dans les anneacutees agrave venir Heureusement une telle technoshylogie existe et il sagit de la norme SGML (Standard Generalized Markup Lan-guage ISO 8879) et de sa cousine XML (Extensible Markup Language recommanshydation du World Wide Web Consortium4) Ces normes permettent de creacuteer des docushyments structureacutes cest-agrave-dire des docushyments (neacutecessairement eacutelectroniques) qui contiennent de linformation agrave propos de leur contenu et de leur structure plutocirct que des informations de formatage en fonction dun contexte particulier Par exemple pour un article scientifique un document structureacute contiendra de linforshymation sur la signification de ses diffeacuterenshytes parties par exemple un titre un chashypitre un auteur une reacutefeacuterence bibliograshyphique etc

Agrave partir de ce document structureacute il est possible de deacuteriver diffeacuterents produits car ceux-ci contiennent moins dinformashytion que le document structureacute ou encore ils contiennent des renseignements plus deacutetailleacutees mais faciles agrave deacuteduire Par exemple il est facile de convertir une inforshymation telle que laquoceci est un titre de section raquo en une seacuterie dinstructions de forshymatage telles que laquo mettre en caractegraveres gras 12 points police Arial espace de 12 points avant le paragrapheraquo Il faut noter et cest important que linverse nest pas vrai les instructions de formashytage peuvent difficilement ecirctre converties en informations sur la structure sauf si elles sont tregraves exclusives et surtout tregraves coshyheacuterentes agrave linteacuterieur du document Il se peut eacutegalement que certains composants naffichent aucun attribut de formatage particulier mais quil existe des besoins ougrave cette information doive ecirctre distingueacutee par exemple le nom de lorganisme dapshypartenance dun auteur dans le cas ougrave on deacutesirerait recycler cette information pour linclure dans un carnet dadresses ou une liste deacutetiquettes postales

Ce dernier modegravele de production censhytreacute sur lexploitation du document structushyreacute est fondamentalement diffeacuterent du moshydegravele de la PAO traditionnelle en ce quil nous permet de consideacuterer les diffeacuterents supports ou formats de diffusion ainsi que les diffeacuterents formats de conservation comme eacutetant des produits deacuteriveacutes agrave partir dune mecircme source Cette deacuterivation est en geacuteneacuteral assez aiseacutee et surtout elle peut ecirctre automatiseacutee

Dans le cadre du projet Eacuterudit nous avons implanteacute une chaicircne de traitement baseacutee sur une telle approche dont la meacuteshythodologie sera deacutecrite en deacutetails dans la deuxiegraveme partie de cet article

Formats de diffusion et de conservation

Tout document eacutelectronique sera reshypreacutesenteacute par un fichier informatique mais le contenu exact de ce fichier sera deacutetermishyneacute par le format utiliseacute pour repreacutesenter linformation Tregraves souvent les formats de documents sont associeacutes agrave lapplication qui produit le document par exemple les

4 Voir lthttp w w w3orgTR1998REC-xml-19980210gt

octobre-deacutecembre 1999 163

Documentation et bibliothegraveques

formats Excel ou WordPerfect (pour une discussion exhaustive sur la question des formats de documents eacutelectroniques voir Marcoux 1994)

La question des formats est probableshyment la plus importante dans un contexte deacutedition savante eacutelectronique Elle a des impacts majeurs sur la production la diffushysion ainsi que la conservation des docushyments

Conservation

Puisque les documents eacutelectroniques doivent ecirctre stockeacutes dans un format donshyneacute il est neacutecessaire de sinterroger sur les critegraveres agrave utiliser dans le choix dun format de document eacutelectronique en ayant pour objectif la conservation agrave long terme (voir une discussion inteacuteressante agrave ce sujet dans Bullock 1999)

Dabord il faut que le format soit cashypable de repreacutesenter correctement linforshymation contenue dans le document Par exemple sil y a du texte et des images il est neacutecessaire dutiliser un format qui pershymette dinteacutegrer agrave la fois des informations textuelles et graphiques De nos jours ce nest plus un veacuteritable problegraveme car la plushypart des formats de document permettent dinteacutegrer diffeacuterents types dinformation et sont agrave proprement parler des formats de documents laquo multimeacutedias raquo

Nous voulons eacutegalement un format qui puisse ecirctre laquo lu raquo par une application et ce aussi longtemps que nous le souhaishytons Cest agrave ce stade-ci que les difficulteacutes se preacutesentent habituellement les convershysions dun format agrave lautre (par exemple PashygeMakers Word) ou encore dune version agrave lautre dun mecircme format (par exemple WordPerfect 50 agrave WordPerfect 8) ne sont pas une solution agrave ce problegraveme puisque plus souvent quautrement il y a des pershytes dinformation des changements dans la preacutesentation et dautres manifestations indeacutesirables

Heureusement il existe une faccedilon inshyteacuteressante et eacuteprouveacutee de contourner ce problegraveme Il sagit dutiliser agrave la fois un forshymat de repreacutesentation de linformation tregraves simple et tregraves universel et dutiliser une technique qui rende ces documents laquolisishybles par lhumain raquo Un document structureacute repreacutesenteacute agrave laide de XML est un bel exemple dun tel document

En effet on peut repreacutesenter un docushyment XML agrave laide de caractegraveres faisant partie du jeu de caractegraveres ASCII Concregraveshy

tement le fichier produit sera un pur fichier ASCII5 soit le type de fichiers le plus unishyversel que lon trouve dans le monde inforshymatique Il y a de fortes chances quil exisshytera encore des plates-formes informashytiques et des applications qui nous permetshytront de laquo voir raquo un fichier ASCII et ce pour encore une tregraves longue peacuteriode De plus un document structureacute utilisant XML contient de l information du genre laquolttitregtlntroductionlttitregtraquo Mecircme sans application particuliegravere mecircme sans connaissances informatiques ou de XML il est assez facile de simaginer que le mot laquo Introduction raquo constitue ici un titre et non le nom dun auteur

Diffusion

Les formats de diffusion de docushyments eacutelectroniques sont multiples et vashyrieacutes Toutefois il y a preacutesentement une asshysez forte convergence vers deux formats associeacutes au Web HTML et PDF (voir agrave ce sujet Lieb 1999) Le format PDF est partishyculiegraverement bien adapteacute pour la repreacutesenshytation exacte de documents imprimeacutes dans un format facilement diffusible sur le Web car le logiciel pour consulter les docushyments PDF est gratuit disponible en plushysieurs langues et bien connu des utilisashyteurs De plus il est facile de produire des documents PDF agrave partir de nimporte quelle application informatique Il est donc tout agrave fait naturel dutiliser ce format agrave des fins dimpression agrave distance et sur deshymande ce qui reacutepond agrave de nombreux beshysoins pour leacutedition savante qui a souvent de faibles tirages ou encore parce que les usagers nont besoin que dune partie des documents (un article plutocirct quun numeacutero dune revue par exemple)

Lautre format de convergence est eacutevishydemment le format HTML neacute avec le Web et populariseacute avec leacutevolution de ce reacuteshyseau Presque toutes les applications doshycumentaires peuvent maintenant lire ou produire des documents HTML Lorsquon associe HTML avec le langage JavaScript et les feuilles de style CSS6 et quon obshytient ainsi du Dynamic HTML (DHTML) il est possible de creacuteer de veacuteritables interfashyces de consultation et non de simples doshycuments eacutelectroniques (Dugand-Saenz et Verdret 1998) HTML est donc un excellent format de diffusion mais malheureuseshyment trop pauvre pour la gestion ou la proshyduction de documents De plus pour proshyduire un document HTML de qualiteacute cest-

agrave-dire une interface de qualiteacute on doit trashyvailler agrave partir dune source dinformation tregraves riche sinon le travail devra ecirctre fait agrave la main et sera fastidieux

Ces deux remarques nous amegravenent agrave conclure que le format HTML savegravere un format de diffusion agrave privileacutegier en autant que lon utilise un autre format de gestion et que lon puisse produire facilement des documents HTML de qualiteacute Ajoutons que les formats de PAO ne remplissent ni lune ni lautre de ces conditions mais que les normes SGML et XML elles satisfont ces besoins

Format de production ou de gestion

Au moment de la production de linforshymation nous devons travailler avec un forshymat qui nous permette datteindre tous les objectifs fixeacutes dans les sections preacuteceacutedenshytes et ce de faccedilon efficace En reacutesumeacute nous recherchons un format dencodage de linformation qui nous permette de reacuteshypondre agrave nos besoins soit

laquo manipuler aiseacutement les documents pour effectuer toutes les activiteacutes de proshyduction (gestion workflow diffusion etc)

bull permettre lexploitation de toutes les possibiliteacutes quoffrent les documents eacutelectroniques (multimeacutedia hypertexte geacuteshyneacuteration dynamique de contenu reshycherche plein texte donneacutees compleacutemenshytairessuppleacutementaires etc)

bull produire des documents eacutelectronishyques dans dautres formats (par exemple HTML) et ce en exploitant toutes les posshysibiliteacutes de ces formats

bull permettre la diffusion sur diffeacuterents supports (ceacutedeacuterom DVD reacuteseaux etc) y compris le support imprimeacute agrave laide dapplishycations de PAO

bull conserver agrave long terme et dans des conditions optimales linformation et sa structure afin den assurer la peacuterenniteacute

Les documents structureacutes constituent la meilleure faccedilon de reacutepondre efficaceshyment agrave lensemble de ces critegraveres Agrave lopposhyseacute les formats associeacutes agrave la PAO noffrent pas la mecircme polyvalence ni la mecircme puisshysance car ils contiennent de linformation en fonction dun seul et unique support

5 Techniquement les documents XML sont stockeacutes en Unicode mais on peut les reacuteduire agrave du simple ASCII sans perte dinformation

6 Cascading style sheet voir lthttpwwww3org Stylecssgt

164 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Exploitation du format eacutelectronique

Passer de limprimeacute agrave leacutelectronique constitue un changement qui va bien au-delagrave du mode de diffusion dune revue sashyvante Les formats eacutelectroniques permetshytent en effet de repreacutesenter plusieurs tyshypes dinformation que lon ne peut retroushyver dans un document imprimeacute Une revue en transition vers leacutelectronique inteacutegrera peu agrave peu ces types dinformation et son eacutediteur devra mettre en place les outils neacuteshycessaires pour y arriver

^information statique est la plus eacutevishydente mais aussi la seule qui peut ecirctre veacuteshyritablement repreacutesenteacutee sur une feuille de papier Il sagit de textes ou dimages qui une fois laquo imprimeacutes raquo ou laquo stockeacutes raquo dans le document ne changeront pas La plupart des documents existants ne contiennent que de linformation statique car ils ont eacuteteacute produits dabord et avant tout pouf un support qui ne permet que ce genre dinforshymation soit limprimeacute

Linformation dynamique est celle qui laquo bouge raquo qui sanime Ces animations ne sont pas controcircleacutees par les utilisateurs (ou si peu) mais plutocirct par les producteurs de linformation Le meilleur exemple est la videacuteo ou les images en mouvement La plushypart du temps linteraction de lutilisateur se limite agrave des fonctions telles que laquomarche avantraquo ou laquoarriegravereraquo laquopauseraquo laquoarrecirctraquo etc Les seacutequences sonores font eacutegalement partie de ces informations dyshynamiques

Linformation interactive est celle qui peut prendre diffeacuterentes formes ou vashyleurs en fonction du deacutesir de lutilisateur Elle se distingue de linformation dynashymique par limportance quelle accorde au controcircle par lutilisateur Par exemple la sishymulation dune moleacutecule en trois dimenshysions avec la possibiliteacute pour lutilisateur de manipuler la moleacutecule dans tous les sens pour la voir sous tous ses aspects constitue de linformation fortement intershyactive Un autre exemple consiste en la pushyblication dun algorithme auquel lutilisashyteur peut fournir des valeurs de deacutepart et veacuterifier les reacutesultats et ce de faccedilon instanshytaneacutee ou presque Cela peut aller dune simple calculatrice dinteacuterecircts composeacutes agrave la simulation de la puissance dun moteur

Linformaticircon active permet aux utilishysateurs dagir sur le contenu du document ou encore sur lenvironnement de consulshy

tation Les liens hypertextuels font partie de cette cateacutegorie de mecircme que les forshymulaires interactifs Par exemple un sonshydage publieacute dans un article scientifique pourrait ecirctre mis agrave jour dynamiquement par des lecteurs qui pourraient faire connaicirctre leur opinion agrave partir du docushyment

Un des problegravemes majeurs pour les eacutediteurs et par le fait mecircme pour les utilishysateurs est labsence ou la surabondance de normes pour certains types dinformashytion Dans le cas du texte et des images simples la situation est assez facile agrave maicircshytriser de par lomnipreacutesence du format HTML et de ses formats dimage associeacutes GIF et JPEG Mais au-delagrave de ces quelshyques formats la situation devient plus diffishycile car le support nest habituellement pas inclus dans les navigateurs communs et il faut donc inciter les utilisateurs agrave instalshyler des modules externes ou des applicashytions suppleacutementaires afin de pouvoir consulter certaines parties de documents Un utilisateur sera enclin agrave installer un tel module sil en a besoin au moins occasionshynellement ou si linformation manquante est tregraves importante pour lui Sinon il va aller voir ailleurs ou il sen passera

Le deacutefi technologique est double troushyver des formats adeacutequats pour chaque type dinformation susceptible de se preacuteshysenter et trouver un format de base qui puisse lier tous ces types dinformation et qui serve de laquocimentraquo aux diffeacuterentes parshyties du document eacutelectronique

Dans le cas du format de base un moshydegravele de traitement centreacute sur XML peut saveacuterer suffisant En effet XML permet dinteacutegrer des parties de documents en difshyfeacuterents formats Ainsi assembler un docushyment ayant des composantes textuelles iconographiques videacuteo sonores et des alshygorithmes nest pas un reacuteel problegraveme De plus si on utilise HTML comme principal format de diffusion pour la consultation eacutelectronique de linformation nous avons lagrave eacutegalement un format qui peut assemshybler des documents tregraves complexes comshyprenant des parties tregraves diffeacuterentes et stocshykeacutes dans des formats varieacutes Bref XML et HTML sont tous deux des formats laquo hyper-meacutedias raquo et ils constituent des solutions inshyteacuteressantes pour la gestion et la diffusion de tels types de documents

Lautre partie du deacutefi est plus probleacuteshymatique quel(s) format(s) utiliser pour les diffeacuterents types dinformation Agrave ce sujet un grand effort de normalisation reste agrave

faire avant de sassurer que les navigashyteurs habituels puissent preacutesenter tous les types dinformation sur toutes les plates-formes Toutefois soulignons certains asshypects encourageants tels que la mise en place dune norme de lindustrie pour les images vectorielles (SVG7) et lutilisation croissante du langage de programmation Java pour les applications dynamiques (ce qui pourrait ecirctre utile pour les algorithmes et les simulations)

Aujourdhui un eacutediteur qui prend au seacuterieux leacutedition eacutelectronique et lexploitashytion optimale des possibiliteacutes quoffrent les documents eacutelectroniques devrait entreshyprendre ces diffeacuterentes deacutemarches

raquo sensibiliser instruire les auteurs poshytentiels aux possibiliteacutes des documents eacutelectroniques Sans matiegravere premiegravere il est inutile de mettre en place des systegraveshymes sophistiqueacutes

m sensibiliser les utilisateurs aux posshysibiliteacutes des documents eacutelectroniques Sans demande loffre ne sera pas neacutecesshysaire

m identifier les formats de diffusion les plus adeacutequats Il y a deux questions fondamentales agrave se poser Est-ce que le format choisi permettra de repreacutesenter adeacutequatement linformation agrave diffuser Est-ce que les utilisateurs possegravedent les eacutequipements et logiciels neacutecessaires pour pouvoir consulter des documents utilisant ce format

bull eacutetablir des protocoles pour leacutechange de tels documents Les auteurs et les eacutedishyteurs doivent ecirctre en mesure de se transshymettre efficacement ce genre dinformashytion

m mettre en place une infrastructure de gestion pour ces types de documents Leacutediteur doit ecirctre en mesure de manipuler et geacuterer ces parties de documents et bien souvent les formats de diffusion etou deacutechange ne sont pas les meilleurs pour y arriver surtout si lon considegravere la neacutecessishyteacute de conservation agrave long terme par exemple

bull participer aux efforts de normalisashytion des formats et des applications Les eacutediteurs ont leur mot agrave dire car ils pourshyraient en ecirctre les premiers beacuteneacuteficiaires

Il sagit donc dun agenda tregraves chargeacute pour une tacircche qui nest pas simple Lexpeacuteshyrimentation pourrait ecirctre la solution dans

7 Scalable Vector Graphics voir lthttp wwww3 org GraphicsSVGgt

octobre-deacutecembre 1999 165

Documentation et bibliothegraveques

bien des cas pour y arriver la meilleure meacutethode consiste probablement en la creacuteation dune nouvelle revue savante pushyrement eacutelectronique dans une discipline qui se precircte bien agrave la diffusion de diffeacuterents types dinformation

Conclusion sur les modegraveles techniques de publication

Cette premiegravere partie avait pour objecshytif de preacutesenter les diffeacuterentes techniques relieacutees agrave leacutedition eacutelectronique Nous avons surtout chercheacute agrave montrer que sans un modegravele technologique solide et orienteacute vers le document eacutelectronique et la reacuteutilishysation de linformation il est impossible dexploiter un tant soit peu les possibiliteacutes des documents eacutelectroniques Les asshypects importants de ce modegravele sont les meacutethodes de production et les formats de documents (pour la gestion la diffusion et la conservation) et ils doivent mener agrave une exploitation optimale des possibiliteacutes de leacutelectronique Heureusement un tel modegravele existe et il a eacuteteacute expeacuterimenteacute dans le cadre du projet Eacuterudit Il sagit de baser la chaicircne de traitement sur un document structureacute en format XML agrave partir duquel les diffeacuterents formats de diffusion y comshypris sur support imprimeacute sont produits (dautres eacutediteurs sont aussi arriveacutes agrave cette conclusion voir entre autres Kasdorf 1998) Les deacutetails techniques de ce moshydegravele seront preacutesenteacutes dans la seconde partie

Lexistence dun tel modegravele ne signifie malheureusement pas labsence de tout problegraveme ou la reacutealisation sans douleur de projets deacutedition eacutelectronique Les veacuteritashybles documents eacutelectroniques qui inshycluent de linformation dynamique et intershyactive sont des objets avec lesquels on doit continuer agrave se familiariser afin de troushyver des applications et des formats adeacuteshyquats Mais surtout il est important de reshyvoir notre conception de ce quest un docushyment et de le consideacuterer plutocirct comme une interface agrave un reacuteservoir dinformation Dune part linterface peut ecirctre individuashyliseacutee pour chaque utilisateur agrave chaque consultation dautre part le reacuteservoir dinshyformation peut ecirctre en constante modificashytion Cela demande un changement de culshyture important chez les eacutediteurs et les aushyteurs et agrave un degreacute moindre chez les lecshyteurs-utilisateurs Ce changement sexshyprime bien entendu par de nouvelles chaicircnes de traitement ou de nouveaux moshy

degraveles techniques mais il doit eacutegalement sexprimer par de nouvelles mentaliteacutes

Preacutesentation dune chaicircne de traitement lexemple du projet Eacuterudit

Lhistoire nous a montreacute que tout noushyveau meacutedia a deacutebuteacute en tentant dabord de calquer un moyen de diffusion existant Eacuteventuellement ce nouveau meacutedia eacutevolue et arrive agrave se deacutefinir et agrave deacutevelopshyper ses propres caracteacuteristiques devenant ainsi reacuteellement novateur Ainsi pour la plupart des initiatives et des innovations dans le domaine de la publication scientishyfique le modegravele de lagrave revue savante sur le Web commence par une transposition du modegravele imprimeacute deacutejagrave existant

Pour en assurer la reacuteussite la laquotransishytion raquo du format papier agrave leacutelectronique imshyplique dune part de travailler selon des faccedilons de faire deacutejagrave existantes et dautre part de graduellement en implanter de nouvelles propres aux impeacuteratifs et aux possibiliteacutes dun traitement eacutelectronique Dans le cadre du projet pilote Eacuterudit cette nouvelle chaicircne de production a eacuteteacute reacuteashyliseacutee parallegravelement au processus de proshyduction courant des revues Il a eacuteteacute eacutetabli quon tenterait de reproduire le plus fidegraveleshyment possible la signature (apparence) et la structure (construction) quaffichait la forme imprimeacutee des revues participantes afin dassurer une transition en douceur de mecircme que pour respecter linteacutegriteacute des contenus Dun point de vue techshynique cela sapparente agrave faire un traiteshyment reacutetrospectif des documents puisque aucune intervention de notre part ne poushyvait ecirctre faite preacutealablement ou parallegraveleshyment agrave la creacuteation du document Ainsi la meacutethodologie mise en place et exposeacutee ici est-elle le fruit dun meacutelange de condishytions de contraintes et de possibiliteacutes dicshyteacutees par cette situation Cette meacutethodoshylogie on le comprendra aiseacutement est bien diffeacuterente de celle qui pourrait ecirctre mise en place pour la production dune revue unishyquement eacutelectronique et cela serait daushytant plus vrai sil sagissait dune toute noushyvelle revue Dans ce dernier cas toutes les conventions et interventions neacutecessaishyres agrave la production dune revue eacutelectroshynique peuvent ecirctre consideacutereacutees et implanshy

teacutees degraves le deacutebut de sa conception Nous devons aussi souligner que

cette chaicircne est baseacutee sur la norme SGML mais en fait elle pourrait tregraves bien lecirctre sur XML la norme plus reacutecente En effet aucune fonctionnaliteacute de SGML non preacutesente dans XML na eacuteteacute utiliseacutee Par conseacutequent dans la description qui suit les expressions laquoSGMLraquo et laquoXMLraquo sont interchangeables

Deacutefinition du type de document (DTD)

Au deacutebut dun projet baseacute sur SGML le choix ou la creacuteation dune Deacutefinition du type de document (DTD) est une eacutetape prishymordiale La DTD est le fondement dune application SGML Cest elle qui deacutetershymine de quelle faccedilon les documents seront repreacutesenteacutes les traitements qui seront possibles etc En quelque sorte il sagit du veacuteritable laquoformatraquo des docushyments Les reacuteponses aux questions suishyvantes orienteront la creacuteation ou le choix dune DTD

bull Quels sont les types de documents agrave traiter Quels sont les types de docushyments semblables

bull Quelles sont les composantes structurelles des documents Quels sont les autres types deacuteleacutements logiques appashyraissant dans chaque type de document

bull En plus des contenus textuels quelshyles autres informations ou proprieacuteteacutes peuvent ecirctre assigneacutees agrave chaque type deacuteleacutement

laquoQuelles sont les relations logiques entre chacun des eacuteleacutements

bull Que veut-on faire de linformation Quelles sont les types de structures et de relations que lon veut encoder dans le balishysage SGML de faccedilon agrave pouvoir reacutepondre aux besoins deacutechange (partage) de repeacuteshyrage de diffusion et de reacuteutilisation de linshyformation

Cet exercice en est un danalyse de besoins en fonction des coucircts encourus et des beacuteneacutefices retireacutes Ainsi un balisage fin et hautement structureacute insufflant de ce fait une laquointelligenceraquo aux documents pershymettra une exploitation plus performante des donneacutees tandis quun balisage plus grossier effectueacute agrave moindre coucirct trouvera une possibiliteacute de reacuteutilisation reacuteduite ou demandant certaines interventions

En matiegravere de revues savantes leacutequipe deacutes publications eacutelectroniques

166 octobre-deacutecembre 1999

Documentation et bibliothegraveques

des Presses de lUniversiteacute de Montreacuteal a eu dans des projets anteacuterieurs agrave celui-ci lopportuniteacute deacutetudier la question du choix de la DTD pour ce type de publication8 La DTD IS012083 Article ayant eacuteteacute deacutecreacuteteacutee trop limiteacutee on a jugeacute souhaitable dadapshyter cette derniegravere aux besoins des revues savantes Du noyau de la DTD ISO 12083 auquel on a greffeacute des fragments dautres DTD normaliseacutees mdash CALS (Continuous Acquisition and Life Cycle Support) TEI (Text Encoding Initiative) DTD de la revue Earth Interactions^ mdash nous en sommes arriveacutes agrave creacuteer la DTD des Presses de lUniversiteacute de Montreacuteal (alias DTD PUM) laquelle devait deacutecrire la structure dun arshyticle de peacuteriodique dune revue savante On a eacutegalement proceacutedeacute agrave certains ajouts maison concernant entre autres la gesshytion des diffeacuterentes langues le deacutecoupage des reacutefeacuterences bibliographiques etc

Description des eacutetapes de la chaicircne de traitement

Analyse preacuteliminaire

Avant dutiliser la chaicircne de traiteshyment proprement dite un examen attentif de plusieurs numeacuteros deacutejagrave parus doit ecirctre meneacute pour chaque revue Cet examen doit ecirctre fait pour chaque nouvelle revue Ideacuteashylement lanalyse doit porter sur une peacuteshyriode reacutetrospective suffisamment longue et un nombre de numeacuteros suffisamment important pour englober lensemble des caracteacuteristiques et variations de la revue Cette analyse servira agrave identifier les types de documents (articles comptes rendus notes eacutetudes etc) et leur structure seacuteshymantique10 MHV (titres reacutesumeacutes secshytions subdivisions tableaux eacutequations ilshylustrations citations renvois reacutefeacuterences notes infrapaginales etc)

Cest aussi loccasion dobserver la reacuteshygulariteacute et la conformiteacute de lapplication du protocole de reacutedaction en vigueur ce qui a un impact important sur la qualiteacute En prinshycipe si les documents preacutesentent une structure uniforme et constante (agrave linteacuteshyrieur dun mecircme document et dun docushyment agrave lautre) si le protocole de reacutedaction a ducircment eacuteteacute respecteacute et si leacutetape du choix ou de la creacuteation de la DTD a eacuteteacute bien faite les composants seacutemantiques rencontreacutes leur nombre et lordre dans leshyquel ils se preacutesentent devraient tous ecirctre conformes agrave la DTD Dans la situation ougrave

la correspondance entre la DTD et cershytains eacuteleacutements logiques se retrouvant dans les documents est impossible il faushydra apporter des modifications soit agrave la DTD soit aux documents soit agrave la fois agrave la DTD et aux documents Cette intervention meacuterite une reacuteflexion importante puisshyquelle est lourde de conseacutequences Dans un contexte de conversion reacutetrospective il est impossible dintervenir sur le contenu des documents Les changements agrave la DTD doivent ecirctre faits en consideacuterant un eacuteventail de besoins et non seulement le beshysoin preacutecis qui nous amegravene agrave vouloir modishyfier la DTD Aussi les changements agrave la DTD doivent ecirctre additifs et non correctifs de faccedilon agrave garder une certaine compatibilishyteacute avec les documents produits anteacuterieureshyment agrave ces changements

Outre les modifications de nature seacuteshymantique les amendements doivent sinsshycrire plus largement dans lutilisation soushyhaiteacutee tant agrave court quagrave plus long terme des documents En effet la mise en page en fonction de diffeacuterents meacutedias (papier eacutecran etc) la recherche structureacutee la reacuteushytilisation de certaines parties de docushyments etc deacutependront toutes dune indicashytion SGML (un eacuteleacutement speacutecifique une valeur dattribut etc) En principe cette reacuteshyflexion a ducircment eacuteteacute faite lors de leacutetape du choix ou encore de la conception de la DTD de sorte que les eacuteleacutements logiques devraient tous sharmoniser avec la DTD Cependant puisque aucun controcircle na pu ecirctre exerceacute sur la structuration initiale des documents comme il a eacuteteacute expliqueacute plus haut il se peut que certains eacuteleacutements logishyques ne trouvent pas de correspondance dans la DTD

Il faut eacutegalement discerner les caprishyces de la mise en page papier actuelle faite de faccedilon manuelle la plupart du temps des veacuteritables besoins de discerneshyment visuel des composants logiques Ainsi une information SGML doit ecirctre preacutevue pour faire en sorte quune liste orshydonneacutee soit rendue de faccedilon diffeacuterente dune liste agrave puces On pourra ainsi agrave leacutetape de production dune sortie papier produire respectivement un numeacutero seacuteshyquentiel ou un symbole tel un rond plein (laquo bull raquo) devant chaque item de liste

En theacuteorie la production du SGML et les ajustements agrave la DTD ne devraient pas ecirctre faits en fonction des limites des outils employeacutes cependant en pratique on ne peut ignorer cet aspect Par exemple une formule matheacutematique peut ecirctre finement

baliseacutee selon un modegravele de DTD approshyprieacute (fonction numeacuterateur deacutenominateur arguments etc) En pratique cependant plusieurs logiciels de notre chaicircne de traishytement ne peuvent reconnaicirctre et traiter adeacutequatement une formule reproduite sous cette forme On se rabattra alors sur une repreacutesentation graphique de la forshymule cest-agrave-dire linsertion dun fichier image Ceci peut demander des modificashytions agrave la DTD Autre exemple lemploi de jeux de caractegraveres eacutetrangers bien quils puissent ecirctre repreacutesenteacutes en SGML (entre autres par lemploi dentiteacutes caractegraveres coshydeacutees en Unicode11) peut nous faire renshycontrer les limites des outils de traitement Ici encore on preacuteconisera une solution de rechange impliquant des modifications au SGML produit et conseacutequemment agrave la DTD Si le nombre de limitations renconshytreacutees par les outils est tregraves important on deacutecidera afin de ne pas laquocorrompreraquo abushysivement la source SGML de produire (aushytomatiquement de preacutefeacuterence) des vershysions SGML transitoires

Nous avons recours agrave une version SGML transitoire pour la production du PDF (une eacutetape plus en aval de la chaicircne qui sera expliqueacutee plus loin) Cette version transitoire sert agrave reacuteordonner et qualifier certains eacuteleacutements de faccedilon agrave accommoshyder certaines caracteacuteristiques propres aux revues (par exemple le fait de preacutesenter les reacutesumeacutes agrave la toute fin de larticle plutocirct quau deacutebut) Elle est produite automatishyquement avec le logiciel OmniMark

Preacutetraitement

Mise en styles et preacuteparation des textes

La chaicircne de traitement proposeacutee comporte une eacutetape de preacutetraitement des documents originaux (Figure 1) Cette

8 Voir Un nouveau modegravele de publication eacutelectronique ltURL http wwwpumumontrealcapubl__electr vision htmlgt

9 ltURL http EarthInteractionsorggt 10 Nous employons dans cet article lexpression laquostrucshy

ture seacutemantiqueraquo pour souligner lorganisation dun document textuel baseacute sur le sens de ses composhysants par opposition agrave leur apparence

11 La norme Unicode est un jeu de caractegraveres eacutetaleacute sur 16 bits ce qui permet la repreacutesentation dun maxishymum de 65 536 caractegraveres diffeacuterents Elle corresshypond au premier plan agrave 2 octets (le BMP Basic Multishylingual Plane) dune norme plus universelle (baseacutee sur 4 octets) soit la norme ISO 10646 Voir ltURL http wwwunicodeorggt

octobre-deacutecembre 1999 167

Documentation et bibliothegraveques

Figure 1 Chaicircne de traitement du projet Eacuterudit

Documents mis en styles (Word)

1 r f bull -

Documents originaux (WordJ

Documents 1 k | ltSfiMI 1

^ 1 wninii 1 mdash

[DTDPUMJ Formats de diffusion 1 HTML

SGML

flHGIiHiB

eacutetape consiste agrave appliquer un ensemble de styles contenus dans un modegravele de doshycument (feuille de style) agrave un document original en format MS Word Utilisation de styles sur des parties de texte inscrit dans le format intrinsegraveque du traitement de texte des codes qui nous permettront daushytomatiser le balisage en SGML

Cest agrave cette eacutetape que lon insuffle une certaine laquointelligenceraquo au document Ainsi le modegravele de document et les styles quil contient ne sont pas destineacutes agrave modishyfier lapparence des documents comme lont dabord penseacute les concepteurs de cette fonctionnaliteacute mais plutocirct agrave identifier certaines parties des documents Par exemple nous chercherons agrave identifier les titres les auteurs les reacutefeacuterences bibliograshyphiques les reacutesumeacutes etc Il est important de comprendre que nous nutiliserons pas les styles agrave des fins de mise en page mais bien didentification des diffeacuterents composhysants du texte

Outre lapplication des styles luniforshymisation et la normalisation des textes doivent ecirctre effectueacutees Ainsi les tashybleaux les listes et les notes infrapagina-les doivent avoir eacuteteacute produits avec les foncshytionnaliteacutes approprieacutees du traitement de texte (en dautres mots que ce soient de vrais tableaux et non des chaicircnes de texte seacutepareacutees par des tabulations par exemple) Nous analysons agrave leacutetape de la programmation lensemble des codes du traitement de texte les liens entre les apshypels de notes et les notes la largeur relashytive des colonnes des tableaux laligneshy

ment des contenus des cellules des tableaux etc et nous reproduisons cette information dans les documents SGML Au besoin certains composants doivent ecirctre reacuteordonneacutes (par exemple si lauteur a ajouteacute son reacutesumeacute agrave la fin on devra le repishyquer au deacutebut du document agrave la suite des eacuteleacutements de titres et dauteurs tel que le preacutevoit la DTD)

Nous avons deacuteveloppeacute un modegravele de document pour chacune des revues Ces modegraveles contiennent en moyenne de 30 agrave 50 styles diffeacuterents en fonction du nombre de composants retrouveacutes Parmi ces styles certains sont de type paragraphe (blocs de texte) et dautres de type caracshytegravere (chaicircnes de texte agrave linteacuterieur des blocs)

Leacutetape de mise en styles pourra ecirctre reacutealiseacutee par la personne responsable de la preacuteparation des textes agrave publier soit habishytuellement une personne faisant partie du comiteacute de production de la revue Agrave cet effet nous avons dans le cadre du projet Eacuterudit entrepris de donner des seacuteances de formation personnaliseacutee aux responsashybles des revues lesquelles portaient sur la preacuteparation des documents et lapplication des feuilles de style Notre expeacuterience deacuteshymontre que cette eacutetape est plus facilement reacutealisable par des personnes maicirctrisant bien leur outil de traitement de texte Un certain controcircle de qualiteacute doit ecirctre effecshytueacute sur les premiers documents styleacutes

Une fois styleacute le document servira dintrant (input) agrave leacutetape de conversion SGML Cest pourquoi il doit sagir dune

version finale du texte cest-agrave-dire quil doit ecirctre complet et deacutejagrave comprendre toushytes les corrections neacutecessaires Agrave cet effet nous avons rencontreacute quelques proshyblegravemes puisque le traitement traditionnel des revues comporte une ou plusieurs eacutetashypes de correction deacutepreuves une fois le document mis en page agrave laide dun logishyciel de PAO (tel PageMaker ou XPress) Les corrections sont alors effectueacutees direcshytement dans ces logiciels et ne sont pas reshypiqueacutees dans la copie de traitement de texte initiale Notre systegraveme de traitement preacuteconise une utilisation de fonctionnalishyteacutes approprieacutees du traitement de texte (styles notes tableaux etc) De plus les corrections de nature textuelle (orthoshygraphe et syntaxe de mecircme que la plushypart des corrections de nature typograshyphique) doivent ecirctre faites dans le fichier de traitement de texte Il faut prendre en consideacuteration le fait que ce fichier sert agrave la production de documents darchivage de documents deacuteriveacutes (sommaires tables des matiegraveres listes de reacutesultats de reshycherche etc) ainsi que de plusieurs forshymats de diffusion Ce fichier source de par son contenu et sa structure doit donc ecirctre le plus acheveacute possible Cela exige de la personne qui preacutepare les textes de bonnes connaissances linguistiques et tyshypographiques Les erreurs reacuteveacuteleacutees en aval dans la chaicircne de production doivent ecirctre corrigeacutees dans les fichiers de traiteshyment de texte

168 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Eacutepreuves eacutelectroniques

Depuis la fin du projet Eacuterudit nous avons testeacute linteacutegration du processus de reacutevision des eacutepreuves dans la chaicircne de traitement Dans un processus plus tradishytionnel cette reacutevision se fait habituelleshyment sur les eacutepreuves imprimeacutees des artishycles une fois la mise en page effectueacutee agrave laide de logiciels de PAO Les corrections apporteacutees peuvent ecirctre agrave la fois de nature orthographique syntaxique typograshyphique et peuvent aussi concerner des asshypects du montage La diffusion du mecircme contenu sur plusieurs supports de diffushysion nous amegravene agrave discerner entre les corshyrections devant ecirctre repiqueacutees dans le fishychier initial de traitement de texte (de fashyccedilon agrave ce que lensemble des formats de difshyfusion profitent de ces modifications) des corrections sappliquant uniquement agrave la mise en page papier Nous produisons donc maintenant des laquoeacutepreuves eacutelectronishyques raquo cest-agrave-dire des sorties imprimeacutees obtenues agrave partir dun logiciel de PAO soit FrameMaker+SGML (voir plus loin pour la description de cette eacutetape) sans avoir agrave efshyfectuer dimportantes interventions mashynuelles au niveau du montage Sur ces eacutepreuves sont apporteacutees les corrections se rapportant au texte (et non agrave sa mise en page en vue de limprimeacute) lesquelles seshyront ensuite repiqueacutees dans le fichier Word initial qui servira agrave la reacutegeacuteneacuteration des diffeacuterents formats produits Dans la perspective ougrave plusieurs formats diffeacuteshyrents (SGML HTML PDF) sont produits agrave partir dun mecircme fichier initial on comprenshydra linteacuterecirct deffectuer un maximum de corrections en amont (donc degraves la reacutevision du fichier Word) et non en aval sur un forshymat en particulier plutocirct que sur un autre

Traitement des images

Les illustrations que peuvent comporshyter les articles parviennent habituellement aux responsables des revues sous diffeacuteshyrentes formes photos impressions laser velox etc et plus rarement sous forme eacutelectronique fichiers vectoriel ou bitmap provenant de logiciels graphiques et imashyges numeacuteriseacutees Traditionnellement ces images sont inseacutereacutees dans le texte au moment du montage de la copie agrave imprishymer par le typographe qui les numeacuterise et les retouche ou encore par le technicien de latelier de preacuteimpression qui les reproshyduit par proceacutedeacute photographique

Linteacutegration des images dans la chaicircne de traitement Eacuterudit est de beaushycoup faciliteacutee si ces documents nous parshyviennent en format numeacuterique Les imashyges sont traiteacutees comme des fichiers seacutepashyreacutes qui sont reacutefeacutereacutes agrave partir des docushyments

Les secreacutetariats des revues neacutetant habituellement pas eacutequipeacutes en mateacuteriel et savoir-faire pour manipuler des images ce type dintervention sera effectueacute par le fournisseur de services en loccurrence leacutequipe dEacuterudit Cependant les comiteacutes de revues devraient tenter dobtenir des auteurs autant que faire se peut une vershysion des images en format eacutelectronique Ces images devraient toujours ecirctre de tregraves bonne qualiteacute (avec une haute reacutesolution et si deacutesireacute en couleurs) afin de servir agrave larchivage Cest agrave partir des images de bonne qualiteacute quon effectuera le traiteshyment (surtout des modifications de forshymats de fichiers des baisses de reacutesolushytion des sauvegardes en noir et blanc) en vue des diffeacuterents modes de diffusion (arshychivage Web et imprimeacute) Afin de standarshydiser le processus de traitement des imashyges nous avons eacutetabli des proceacutedures norshymaliseacutees Enfin bien que cela ne se soit pas encore produit un type dintervention de mecircme nature est agrave preacuteconiser pour dautres formats non textuels (videacuteo son images 3D etc)

Nous avons exposeacute dans cette section les diffeacuterents eacuteleacutements portant sur le preacutetraitement des textes soit lapplicashytion des styles et le traitement des images Une fois le document preacutetraiteacute il est precirct agrave ecirctre converti en SGML

Conversion en SGML

Puisque la feuille de style utiliseacutee pour styler les documents a eacuteteacute conccedilue en fonction dun passage efficace vers un doshycument SGML respectant la DTD PUM une conversion relativement automatique est possible Cette conversion qui consiste en linterpreacutetation des informashytions existantes et lajout dinformations deacuteshyriveacutees requiert cependant un outil speacutecialishyseacute Il serait agrave ce point-ci de la discussion important dexpliquer la diffeacuterence entre Une conversion de donneacutees au sens SGML et une traduction de donneacutees

Une traduction est une opeacuteration qui consiste agrave prendre un ensemble de donshyneacutees (information et mise en forme confonshydus) dun format proprieacutetaire et le traduire

en un ensemble eacutequivalent qui peut ecirctre inshyterpreacuteteacute et eacutediteacute dans un autre logiciel utilishysant un format proprieacutetaire (par exemple passer un document de Word agrave WordPershyfect) Au contraire une conversion vers SGML implique deacutetablir un lien entre un document dans un format proprieacutetaire (ougrave la structure logique est habituellement perccedilue de faccedilon visuelle par le lecteur) agrave un document SGML laquointelligentraquo (ougrave la structure logique est codeacutee de faccedilon explishycite suivant une DTD donneacutee)

Une conversion enrichissante (traducshytion libre de up conversion) est une convershysion dun format plat vers un format seacutemanshytique structureacute (par exemple dun format WordPerfect vers un format SGML) ou plus preacuteciseacutement une conversion de donshyneacutees textuelles dun format dencodage arshybitraire vers une instance SGML valide Une conversion appauvrissante (traducshytion libre de down conversion) quant agrave elle consiste en une conversion dun forshymat logique vers un format proprieacutetaire (par exemple dun format SGML vers un format MS Word) Ce type de conversion est la cleacute du succegraves de SGML puisquelle assure une complegravete reacuteutilisation des donshyneacutees Agrave partir dun format SGML la convershysion peut ecirctre facilement automatiseacutee tout en conservant linteacutegriteacute des donneacutees

Il existe plusieurs produits logiciels apshytes agrave convertir des textes dun format agrave un autre Ces produits sont disponibles essenshytiellement sous la forme de programmes ou de solutions parameacutetrables12 Nous avons opteacute pour le langage de programmashytion speacutecialiseacute OmniMarkreg

Nous effectuons la conversion en deux eacutetapes dont la premiegravere est reacutealiseacutee agrave laide dun programme en langage OmnishyMark disponible gratuitement13 La seshyconde eacutetape se charge dajouter une strucshyture seacutemantique normaliseacutee pour la desshycription darticles savants et introduira de linformation suppleacutementaire agrave valeur ajouteacutee Ainsi nous creacuteons sans aucune intervention manuelle des liens entre les appels de reacutefeacuterences dans le texte et les reacutefeacuterences bibliographiques agrave la fin du

12 Pour une liste exhaustive de ce genre de produit consulter la rubrique laquo Conversion Program raquo dans Survey of software for structured text par Eila Kuikka et Erja Nikunen ltURL http www xsukufi~kuikkasys-temshtmlgt

13 Il sagit de RTF2XML (auparavant RTF2SGML) deacuteshyveloppeacute par Rick Geimer ltURLhttpwwwxme-ta comomlettegt

octobre-deacutecembre 1999 169

Documentation et bibliothegraveques

texte Pour ce faire il faut analyser meacuteticu-leusement les syntaxes de reacutefeacuterences utilishyseacutees par chaque revue [par exemple laquo(Vaugeois et Hubert 1993a)raquo ou laquo(Va-Hu93a) raquo] afin deacutetablir des patrons de reshyconnaissance sur lesquels on peut enshysuite bacirctir des regravegles de programmation Cette deuxiegraveme eacutetape est effectueacutee par un programme en langage OmniMark reacutealiseacute dans le cadre du projet Eacuterudit

Formats de diffusion

Les formats de diffusion choisis doishyvent permettre de satisfaire les habitudes de lecture et les besoins de consultation qui diffegraverent dun usager agrave lautre Ainsi nous preacuteconisons la diffusion des docushyments en plusieurs formats Notre modegravele de diffusion est baseacute sur le document dans sa version SGML Ce document eacutelecshytronique unique constitue la source de plushysieurs sous-produits qui sont autant de forshymats de sortie possibles Les supports de diffusion qui sont compatibles avec ces forshymats sont divers diffusion en ligne (Web) diffusion sur ceacutedeacuterom diffusion sur papier Dans le cadre du projet Eacuterudit nous avons consideacutereacute trois formats de sortie (HTML SGML et PDF) Nous avons eacutegalement deacuteshycideacute deacute rendre disponible le format SGML ce dernier se precirctant tregraves bien agrave la consulshytation dans la mesure ougrave les navigateurs SGML sont capables dexploiter la strucshyture des documents de faccedilon agrave offrir un enshyvironnement de lecture plus sophistiqueacute et complet Enfin le format PDF permet la difshyfusion de documents eacutelectroniques reproshyduisant la mise en page choisie par les difshyfuseurs Ce format est tout agrave fait approprieacute pour limpression agrave distance Nous envisashygeons agrave court terme doffrir eacutegalement le format XML qui peut ecirctre consulteacute agrave laide des versions 5 des navigateurs Internet Explorer et Netscape Navigator

Un principe de base de la philosophie SGML voulant que linformation une fois baliseacutee en SGML puisse ecirctre reacuteutiliseacutee plusieurs fois et cela avec diffeacuterentes sashyveurs tant dans linteacutegraliteacute du contenu (en tout ou en parties) que dans la forme du contenant (dans un format particulier) il est tout naturel de convertir les fichiers SGML en fichiers HTML Il sagit en fait dune conversion SGML (DTD PUM soit la DTD deacuteveloppeacutee aux Presses de lUnishyversiteacute de Montreacuteal pour reacutepondre aux beshysoins de balisage des revues savantes) vers SGML (DTD HTML) Ainsi les artishy

cles sont convertis automatiquement en HTML agrave laide dun autre programme OmniMark Nous produisons de la mecircme faccedilon une table des matiegraveres pour chaque numeacutero de revue Cette table des matiegraveres ne provient pas dun document initial unique saisi sous forme de table des matiegraveres mais plutocirct de la concateacutenation dinformations reacutecupeacutereacutees dans lenshysemble des articles (titres sous-titres auteurs) en format SGML Cest un bon exemple de reacuteutilisation de linformation

Puisque lensemble des documents produits sont baseacutes sur la DTD PUM la conversion du SGML vers le HTML est reacuteashyliseacutee par un seul programme de convershysion pour lensemble des revues Ce proshygramme comporte cependant quelques particulariteacutes de preacutesentation propres agrave chaque revue et dune telle pratique reacuteshysulte une apparence assez semblable pour chacune des revues La fabrication dune signature dune maquette diffeacuterente pour chaque revue est reacutealiseacutee agrave laide dune feuille de style CSS (Cascading Style Sheet) fonction de plus en plus supshyporteacutee par les navigateurs Web

Pour linstant nous stockons sur notre serveur Web la version HTML preacuteshyconvertie Cependant la conversion tant pour les articles que pour la table des mashytiegraveres pourrait aiseacutement ecirctre faite laquoagrave la voleacutee raquo (on the fy) puisquil ny a aucune inshytervention manuelle sur les fichiers HTML On pourrait facilement faire en sorte quau moment ougrave lutilisateur par le biais de son client Web fait la demande dun fichier HTML (par exemple un article donneacute) le serveur (sur lequel serait installeacute OmnishyMark) convertisse leacute fichier SGML en fishychier HTML Ceci aurait pour avantage doccuper moins despace disque (environ la moitieacute de moins puisque seule la vershysion SGML serait stockeacutee et que le rapport SGMLHTML doit plus ou moins ecirctre eacutegal agrave 1 ) Il resterait agrave sassurer de deacutelais de reacuteshyponses acceptables

SGML

Les utilisateurs peuvent visionner les documents SGML agrave laide de Panorama Viewer de Interleaf14 un navigateur SGML qui sinstalle comme module exshyterne (plug-in) dun navigateur Web tel Netscape Navigator

Panorama Viewer permet de creacuteer des liens entre diffeacuterentes parties des doshycuments ou diffeacuterents documents Il pershy

met eacutegalement de preacutesenter des tables des matiegraveres dynamiques qui constituent des aides agrave la navigation Une autre foncshytion de Panorama offre la possibiliteacute danshynoter nimporte quelle partie dun docushyment y compris une zone dune figure deacuteshytermineacutee par le lecteur Enfin il permet dajouter des signets dans un document

La diffusion des articles en format SGML requiert peu defforts puisquil sagit du format natif des documents Pour ecirctre plus exact nous diffusons une vershysion SGML agrave peine diffeacuterente de la version produite lors de leffort de conversion enshyrichie deacutecrite preacuteceacutedemment Cette diffeacuteshyrence minime tient exclusivement agrave la non-reconnaissance par le navigateur SGML de certains caractegraveres eacutetrangers et symshyboles particuliers Panorama Viewer eacutetant en mesure de lire du SGML il faut simpleshyment lui indiquer la mise en forme propre aux diffeacuterents eacuteleacutements rencontreacutes Ces instructions de formatage sont donneacutees sous la forme dune feuille de style La creacuteation dune feuille de style ne seffectue normalement quune seule fois par revue (voire mecircme par DTD utiliseacutee si on deacutesire des produits normaliseacutes et identiques) Ainsi nous avons creacuteeacute des feuilles de style et des formats de tables des matiegraveres dyshynamiques (navigators) pour chaque revue de maniegravere agrave donner agrave chacune une signashyture caracteacuteristique

PDF

Linteacuterecirct du PDF reacuteside dans lobtenshytion dun document eacutelectronique arborant un format de preacutesentation semblable agrave limshyprimeacute Un tel format permet aux lecteurs dimprimer une version laquomise en page papierraquo des articles diffuseacutes en ligne Les navigateurs SGML ou HTML dont nous avons discuteacute preacuteceacutedemment permettent eacutegalement limpression mais la qualiteacute de la mise en page nest pas aussi complexe et soigneacutee puisque les feuilles de style des navigateurs Web sont destineacutees avant tout agrave la preacutesentation agrave leacutecran Notons cepenshydant quil existe des feuilles de style (CSS et XSL) normaliseacutees ougrave on a preacutevu une mise en page sophistiqueacutee en fonction de diffeacuterents meacutedias (eacutecran terminal reacuteduit imprimeacute synthegravese vocale) Agrave moyen terme on pourrait entrevoir que les

14 ltURL http wwwinterleafcomPanoramapa -ge3htmlgt

170 octobre-deacutecembre 1999

Documentation et bibliothegraveques

formats HTML et PDF seront remplaceacutes par un seul document source XML coupleacute agrave des feuilles de style qui seront fonction du meacutedia employeacute

laquo La grande majoriteacute des logiciels de PAO sur le marcheacute (les plus connus eacutetant PageMaker et Xpress) permettent une saushyvegarde en format PDF pour diffusion sur le Web Ces logiciels ne sont cependant pas en mesure de lire en intrant input) un fichier SGML ni de linterpreacuteter correcteshyment Il existe toutefois des outils perforshymants capables agrave la fois de prendre en inshytrant du SGML et de permettre une mise en page professionnelle (FrameMaker+ SGML^ocirce Adobe Interleaf 6 SGMLtrade de la compagnie Interleaf et ADEPT Publisshyher17 reacutealiseacute par ArborText) Il sagit touteshyfois de produits dispendieux et assez comshyplexes agrave manipuler

Notre choix sest arrecircteacute sur le logiciel FrameMaker+SGML en raison de son coucirct abordable et de sa plus grande facilishyteacute de parameacutetrage FrameMaker+SGML permet la creacuteation la modification et la pushyblication de documents SGML dans un enshyvironnement convivial Dans le cadre du projet Eacuterudit nous utilisons uniquement les fonctionnaliteacutes dimportation du SGML et de mise en page sophistiqueacutees offertes par loutil Il sagit ici aussi de deacutefinir un meacutecanisme dapplication de style pour chaque eacuteleacutement en fonction de son contexte SGML Cette feuille de style est dirigeacutee vers la mise en page sur papier (et non agrave leacutecran) et agrave cet effet FrameMashyker+SGML offre la possibiliteacute de parameacuteshytrer plusieurs des caracteacuteristiques requishyses par limprimeacute (par exemple la gestion des veuves et orphelins des paragraphes solidaires les colonnes multiples les noshytes en bas de page les patrons de ceacutesure approprieacutes agrave la fin des lignes les formes des en-tecirctes et bas de pages etc)

Chaque revue possegravede une feuille de style diffeacuterente laquelle a eacuteteacute conccedilue en se basant sur la maquette de la forme imshyprimeacutee deacutejagrave existante des revues particishypantes Les fonctionnaliteacutes de FrameMashyker+SGML nous permettent sans difficulteacute de reproduire de faccedilon presque identique laspect habituel des revues Lapplication dune feuille de style exhaustive et bien conccedilue (quon arrive geacuteneacuteralement agrave obteshynir apregraves un processus de reacuteajustement lors des premiegraveres productions) permet dautomatiser agrave 90 le montage du docushyment ce qui constitue un excellent rendeshyment On doit toutefois faire certaines intershy

ventions manuellement afin de compleacuteter le travail (par exemple deacuteplacer des figushyres condenser lespacement du texte ccedila et lagrave pour forcer un saut de page fractionshyner des notes de bas de page trop lonshygues etc)

Une fois le document monteacute avec FrashymeMaker+SGML il ne reste quagrave produire une version PDF agrave laide du logiciel Acroshybat de Adobe Il sagit lagrave dune opeacuteration sans grande difficulteacute quon peut apparenshyter agrave un simple laquosauvegarder sous PDFraquo On peut ainsi produire un premier fichier PDF de faible reacutesolution destineacute agrave ecirctre vishysionneacute sur le Web et un second fichier PDF de meilleure reacutesolution (ou encore un fichier PostScript) pouvant ecirctre achemineacute agrave latelier de preacutepresse en vue de limpresshysion des exemplaires papier

Pour les usagers la consultation des documents PDF se fait avec le logiciel Acrobat Reader qui existe comme moshydule externe (plug-in) pour les navigateurs Web On peut consulter les documents PDF agrave leacutecran avec ce logiciel mais ils sont plutocirct destineacutes agrave ecirctre imprimeacutes localeshyment par les usagers

Dans le cadre du projet Eacuterudit nous avons produit uniquement des documents PDF destineacutes au Web agrave raison dun fichier unique par article (et non dun fichier regroushypant tout un numeacutero dune revue) puisque les revues poursuivaient pendant la mecircme peacuteriode le traitement habituel pour la proshyduction de la version imprimeacutee de la revue

Diffusion sur le Web

Pour diffuser des documents sur le Web nous avons creacuteeacute un site Web18 heacuteshybergeacute sur notre serveur Web Ce site est la porte dentreacutee principale pour laccegraves aux articles

La diffusion en ligne (et eacutegalement sur ceacutedeacuterom) permet pour le lecteur dacshyceacuteder aux textes agrave laide dun outil de reshycherche Pour ce faire on doit implanter un outil de recherche en texte inteacutegral qui peut indexer des documents SGML tout en conservant linformation sur la strucshyture de faccedilon agrave permettre aux usagers dexprimer des contraintes sur la structure dans leurs requecirctes On peut par exemple preacuteciser la recherche de textes comporshytant le nom dun chercheur mais uniqueshyment lorsque celui-ci se retrouve dans une bibliographie et non en tant quauteur de larticle Dans le cadre du projet Eacuterudit nous avons installeacute sur le site Web un

prototype de moteur de recherche qui doit encore ecirctre ameacutelioreacute La collection indexeacutee comprend lensemble des articles ayant eacuteteacute publieacutes par les revues pendant la dureacutee du projet pilote Il sagit dun mode daccegraves au texte tregraves performant que seule la version eacutelectronique permet dobtenir

Recommandations

Dans la mesure ougrave notre mandat consistait moins en la mise au point dune solution theacuteoriquement optimale quen la conception dune chaicircne de traitement adapteacutee aux besoins du projet (reproducshytion de la forme papier deacutejagrave existante imshypossibiliteacute dintervenir en amont de la chaicircne de production optimisation du traishytement par ladoption dune DTD unique production de divers formats de diffusion) nous avons opteacute pour une solution compreshynant plusieurs sorties intermeacutediaires et cela de faccedilon agrave atteindre de bons reacutesulshytats en matiegravere dautomatisation et de quashyliteacute des textes produits Nous estimons avoir atteint agrave 95 ces objectifs de producshytion

Il va sans dire que la DTD a ducirc ecirctre constamment remanieacutee afin de sadapter agrave lensemble des documents agrave produire Nous avons ducirc opter pour une DTD qui au fur et agrave mesure de lavancement du projet devenait plus permissive de maniegravere agrave geacuteshyneacuterer en bout de ligne du SGML valide respectant linteacutegriteacute et la preacutesentation des contenus des articles

Le projet Eacuterudit aura mis en lumiegravere lextrecircme importance dans une perspecshytive dautomatisation des opeacuterations de la chaicircne documentaire de deacutefinir une strucshyture une preacutesentation et dans une cershytaine mesure un contenu normaliseacute des documents agrave traiter La production mecircme de textes destineacutes agrave ecirctre baliseacutes en SGML peut donc faire lobjet de certaines recomshymandations dont plusieurs savegraverent applishycables dans une optique de sensibilisation des comiteacutes de revues et de formation du personnel chargeacute de la reacutevision et de la correction des textes Cest ainsi quil y aushyrait lieu de deacutefinir (ou renforcer) pour chaque revueraquo un modegravele normaliseacute quant

15 ltURL http wwwadobecomprodindexframe makerprodinfosgmlhtmlgt

16 ltUEL http wwwinterleafcomproducts p_sgmlhtmlgt

17 ltURL http wwwarbortextcomProducts AcircDEPT_Seriesadept_serieshtmlgt

18 ltURLhttpwwweruditorggt

octobre-deacutecembre 1999 171

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999

Page 5: De l’imprimé vers l’électronique : réflexions et solutions

Documentation et bibliothegraveques

formats Excel ou WordPerfect (pour une discussion exhaustive sur la question des formats de documents eacutelectroniques voir Marcoux 1994)

La question des formats est probableshyment la plus importante dans un contexte deacutedition savante eacutelectronique Elle a des impacts majeurs sur la production la diffushysion ainsi que la conservation des docushyments

Conservation

Puisque les documents eacutelectroniques doivent ecirctre stockeacutes dans un format donshyneacute il est neacutecessaire de sinterroger sur les critegraveres agrave utiliser dans le choix dun format de document eacutelectronique en ayant pour objectif la conservation agrave long terme (voir une discussion inteacuteressante agrave ce sujet dans Bullock 1999)

Dabord il faut que le format soit cashypable de repreacutesenter correctement linforshymation contenue dans le document Par exemple sil y a du texte et des images il est neacutecessaire dutiliser un format qui pershymette dinteacutegrer agrave la fois des informations textuelles et graphiques De nos jours ce nest plus un veacuteritable problegraveme car la plushypart des formats de document permettent dinteacutegrer diffeacuterents types dinformation et sont agrave proprement parler des formats de documents laquo multimeacutedias raquo

Nous voulons eacutegalement un format qui puisse ecirctre laquo lu raquo par une application et ce aussi longtemps que nous le souhaishytons Cest agrave ce stade-ci que les difficulteacutes se preacutesentent habituellement les convershysions dun format agrave lautre (par exemple PashygeMakers Word) ou encore dune version agrave lautre dun mecircme format (par exemple WordPerfect 50 agrave WordPerfect 8) ne sont pas une solution agrave ce problegraveme puisque plus souvent quautrement il y a des pershytes dinformation des changements dans la preacutesentation et dautres manifestations indeacutesirables

Heureusement il existe une faccedilon inshyteacuteressante et eacuteprouveacutee de contourner ce problegraveme Il sagit dutiliser agrave la fois un forshymat de repreacutesentation de linformation tregraves simple et tregraves universel et dutiliser une technique qui rende ces documents laquolisishybles par lhumain raquo Un document structureacute repreacutesenteacute agrave laide de XML est un bel exemple dun tel document

En effet on peut repreacutesenter un docushyment XML agrave laide de caractegraveres faisant partie du jeu de caractegraveres ASCII Concregraveshy

tement le fichier produit sera un pur fichier ASCII5 soit le type de fichiers le plus unishyversel que lon trouve dans le monde inforshymatique Il y a de fortes chances quil exisshytera encore des plates-formes informashytiques et des applications qui nous permetshytront de laquo voir raquo un fichier ASCII et ce pour encore une tregraves longue peacuteriode De plus un document structureacute utilisant XML contient de l information du genre laquolttitregtlntroductionlttitregtraquo Mecircme sans application particuliegravere mecircme sans connaissances informatiques ou de XML il est assez facile de simaginer que le mot laquo Introduction raquo constitue ici un titre et non le nom dun auteur

Diffusion

Les formats de diffusion de docushyments eacutelectroniques sont multiples et vashyrieacutes Toutefois il y a preacutesentement une asshysez forte convergence vers deux formats associeacutes au Web HTML et PDF (voir agrave ce sujet Lieb 1999) Le format PDF est partishyculiegraverement bien adapteacute pour la repreacutesenshytation exacte de documents imprimeacutes dans un format facilement diffusible sur le Web car le logiciel pour consulter les docushyments PDF est gratuit disponible en plushysieurs langues et bien connu des utilisashyteurs De plus il est facile de produire des documents PDF agrave partir de nimporte quelle application informatique Il est donc tout agrave fait naturel dutiliser ce format agrave des fins dimpression agrave distance et sur deshymande ce qui reacutepond agrave de nombreux beshysoins pour leacutedition savante qui a souvent de faibles tirages ou encore parce que les usagers nont besoin que dune partie des documents (un article plutocirct quun numeacutero dune revue par exemple)

Lautre format de convergence est eacutevishydemment le format HTML neacute avec le Web et populariseacute avec leacutevolution de ce reacuteshyseau Presque toutes les applications doshycumentaires peuvent maintenant lire ou produire des documents HTML Lorsquon associe HTML avec le langage JavaScript et les feuilles de style CSS6 et quon obshytient ainsi du Dynamic HTML (DHTML) il est possible de creacuteer de veacuteritables interfashyces de consultation et non de simples doshycuments eacutelectroniques (Dugand-Saenz et Verdret 1998) HTML est donc un excellent format de diffusion mais malheureuseshyment trop pauvre pour la gestion ou la proshyduction de documents De plus pour proshyduire un document HTML de qualiteacute cest-

agrave-dire une interface de qualiteacute on doit trashyvailler agrave partir dune source dinformation tregraves riche sinon le travail devra ecirctre fait agrave la main et sera fastidieux

Ces deux remarques nous amegravenent agrave conclure que le format HTML savegravere un format de diffusion agrave privileacutegier en autant que lon utilise un autre format de gestion et que lon puisse produire facilement des documents HTML de qualiteacute Ajoutons que les formats de PAO ne remplissent ni lune ni lautre de ces conditions mais que les normes SGML et XML elles satisfont ces besoins

Format de production ou de gestion

Au moment de la production de linforshymation nous devons travailler avec un forshymat qui nous permette datteindre tous les objectifs fixeacutes dans les sections preacuteceacutedenshytes et ce de faccedilon efficace En reacutesumeacute nous recherchons un format dencodage de linformation qui nous permette de reacuteshypondre agrave nos besoins soit

laquo manipuler aiseacutement les documents pour effectuer toutes les activiteacutes de proshyduction (gestion workflow diffusion etc)

bull permettre lexploitation de toutes les possibiliteacutes quoffrent les documents eacutelectroniques (multimeacutedia hypertexte geacuteshyneacuteration dynamique de contenu reshycherche plein texte donneacutees compleacutemenshytairessuppleacutementaires etc)

bull produire des documents eacutelectronishyques dans dautres formats (par exemple HTML) et ce en exploitant toutes les posshysibiliteacutes de ces formats

bull permettre la diffusion sur diffeacuterents supports (ceacutedeacuterom DVD reacuteseaux etc) y compris le support imprimeacute agrave laide dapplishycations de PAO

bull conserver agrave long terme et dans des conditions optimales linformation et sa structure afin den assurer la peacuterenniteacute

Les documents structureacutes constituent la meilleure faccedilon de reacutepondre efficaceshyment agrave lensemble de ces critegraveres Agrave lopposhyseacute les formats associeacutes agrave la PAO noffrent pas la mecircme polyvalence ni la mecircme puisshysance car ils contiennent de linformation en fonction dun seul et unique support

5 Techniquement les documents XML sont stockeacutes en Unicode mais on peut les reacuteduire agrave du simple ASCII sans perte dinformation

6 Cascading style sheet voir lthttpwwww3org Stylecssgt

164 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Exploitation du format eacutelectronique

Passer de limprimeacute agrave leacutelectronique constitue un changement qui va bien au-delagrave du mode de diffusion dune revue sashyvante Les formats eacutelectroniques permetshytent en effet de repreacutesenter plusieurs tyshypes dinformation que lon ne peut retroushyver dans un document imprimeacute Une revue en transition vers leacutelectronique inteacutegrera peu agrave peu ces types dinformation et son eacutediteur devra mettre en place les outils neacuteshycessaires pour y arriver

^information statique est la plus eacutevishydente mais aussi la seule qui peut ecirctre veacuteshyritablement repreacutesenteacutee sur une feuille de papier Il sagit de textes ou dimages qui une fois laquo imprimeacutes raquo ou laquo stockeacutes raquo dans le document ne changeront pas La plupart des documents existants ne contiennent que de linformation statique car ils ont eacuteteacute produits dabord et avant tout pouf un support qui ne permet que ce genre dinforshymation soit limprimeacute

Linformation dynamique est celle qui laquo bouge raquo qui sanime Ces animations ne sont pas controcircleacutees par les utilisateurs (ou si peu) mais plutocirct par les producteurs de linformation Le meilleur exemple est la videacuteo ou les images en mouvement La plushypart du temps linteraction de lutilisateur se limite agrave des fonctions telles que laquomarche avantraquo ou laquoarriegravereraquo laquopauseraquo laquoarrecirctraquo etc Les seacutequences sonores font eacutegalement partie de ces informations dyshynamiques

Linformation interactive est celle qui peut prendre diffeacuterentes formes ou vashyleurs en fonction du deacutesir de lutilisateur Elle se distingue de linformation dynashymique par limportance quelle accorde au controcircle par lutilisateur Par exemple la sishymulation dune moleacutecule en trois dimenshysions avec la possibiliteacute pour lutilisateur de manipuler la moleacutecule dans tous les sens pour la voir sous tous ses aspects constitue de linformation fortement intershyactive Un autre exemple consiste en la pushyblication dun algorithme auquel lutilisashyteur peut fournir des valeurs de deacutepart et veacuterifier les reacutesultats et ce de faccedilon instanshytaneacutee ou presque Cela peut aller dune simple calculatrice dinteacuterecircts composeacutes agrave la simulation de la puissance dun moteur

Linformaticircon active permet aux utilishysateurs dagir sur le contenu du document ou encore sur lenvironnement de consulshy

tation Les liens hypertextuels font partie de cette cateacutegorie de mecircme que les forshymulaires interactifs Par exemple un sonshydage publieacute dans un article scientifique pourrait ecirctre mis agrave jour dynamiquement par des lecteurs qui pourraient faire connaicirctre leur opinion agrave partir du docushyment

Un des problegravemes majeurs pour les eacutediteurs et par le fait mecircme pour les utilishysateurs est labsence ou la surabondance de normes pour certains types dinformashytion Dans le cas du texte et des images simples la situation est assez facile agrave maicircshytriser de par lomnipreacutesence du format HTML et de ses formats dimage associeacutes GIF et JPEG Mais au-delagrave de ces quelshyques formats la situation devient plus diffishycile car le support nest habituellement pas inclus dans les navigateurs communs et il faut donc inciter les utilisateurs agrave instalshyler des modules externes ou des applicashytions suppleacutementaires afin de pouvoir consulter certaines parties de documents Un utilisateur sera enclin agrave installer un tel module sil en a besoin au moins occasionshynellement ou si linformation manquante est tregraves importante pour lui Sinon il va aller voir ailleurs ou il sen passera

Le deacutefi technologique est double troushyver des formats adeacutequats pour chaque type dinformation susceptible de se preacuteshysenter et trouver un format de base qui puisse lier tous ces types dinformation et qui serve de laquocimentraquo aux diffeacuterentes parshyties du document eacutelectronique

Dans le cas du format de base un moshydegravele de traitement centreacute sur XML peut saveacuterer suffisant En effet XML permet dinteacutegrer des parties de documents en difshyfeacuterents formats Ainsi assembler un docushyment ayant des composantes textuelles iconographiques videacuteo sonores et des alshygorithmes nest pas un reacuteel problegraveme De plus si on utilise HTML comme principal format de diffusion pour la consultation eacutelectronique de linformation nous avons lagrave eacutegalement un format qui peut assemshybler des documents tregraves complexes comshyprenant des parties tregraves diffeacuterentes et stocshykeacutes dans des formats varieacutes Bref XML et HTML sont tous deux des formats laquo hyper-meacutedias raquo et ils constituent des solutions inshyteacuteressantes pour la gestion et la diffusion de tels types de documents

Lautre partie du deacutefi est plus probleacuteshymatique quel(s) format(s) utiliser pour les diffeacuterents types dinformation Agrave ce sujet un grand effort de normalisation reste agrave

faire avant de sassurer que les navigashyteurs habituels puissent preacutesenter tous les types dinformation sur toutes les plates-formes Toutefois soulignons certains asshypects encourageants tels que la mise en place dune norme de lindustrie pour les images vectorielles (SVG7) et lutilisation croissante du langage de programmation Java pour les applications dynamiques (ce qui pourrait ecirctre utile pour les algorithmes et les simulations)

Aujourdhui un eacutediteur qui prend au seacuterieux leacutedition eacutelectronique et lexploitashytion optimale des possibiliteacutes quoffrent les documents eacutelectroniques devrait entreshyprendre ces diffeacuterentes deacutemarches

raquo sensibiliser instruire les auteurs poshytentiels aux possibiliteacutes des documents eacutelectroniques Sans matiegravere premiegravere il est inutile de mettre en place des systegraveshymes sophistiqueacutes

m sensibiliser les utilisateurs aux posshysibiliteacutes des documents eacutelectroniques Sans demande loffre ne sera pas neacutecesshysaire

m identifier les formats de diffusion les plus adeacutequats Il y a deux questions fondamentales agrave se poser Est-ce que le format choisi permettra de repreacutesenter adeacutequatement linformation agrave diffuser Est-ce que les utilisateurs possegravedent les eacutequipements et logiciels neacutecessaires pour pouvoir consulter des documents utilisant ce format

bull eacutetablir des protocoles pour leacutechange de tels documents Les auteurs et les eacutedishyteurs doivent ecirctre en mesure de se transshymettre efficacement ce genre dinformashytion

m mettre en place une infrastructure de gestion pour ces types de documents Leacutediteur doit ecirctre en mesure de manipuler et geacuterer ces parties de documents et bien souvent les formats de diffusion etou deacutechange ne sont pas les meilleurs pour y arriver surtout si lon considegravere la neacutecessishyteacute de conservation agrave long terme par exemple

bull participer aux efforts de normalisashytion des formats et des applications Les eacutediteurs ont leur mot agrave dire car ils pourshyraient en ecirctre les premiers beacuteneacuteficiaires

Il sagit donc dun agenda tregraves chargeacute pour une tacircche qui nest pas simple Lexpeacuteshyrimentation pourrait ecirctre la solution dans

7 Scalable Vector Graphics voir lthttp wwww3 org GraphicsSVGgt

octobre-deacutecembre 1999 165

Documentation et bibliothegraveques

bien des cas pour y arriver la meilleure meacutethode consiste probablement en la creacuteation dune nouvelle revue savante pushyrement eacutelectronique dans une discipline qui se precircte bien agrave la diffusion de diffeacuterents types dinformation

Conclusion sur les modegraveles techniques de publication

Cette premiegravere partie avait pour objecshytif de preacutesenter les diffeacuterentes techniques relieacutees agrave leacutedition eacutelectronique Nous avons surtout chercheacute agrave montrer que sans un modegravele technologique solide et orienteacute vers le document eacutelectronique et la reacuteutilishysation de linformation il est impossible dexploiter un tant soit peu les possibiliteacutes des documents eacutelectroniques Les asshypects importants de ce modegravele sont les meacutethodes de production et les formats de documents (pour la gestion la diffusion et la conservation) et ils doivent mener agrave une exploitation optimale des possibiliteacutes de leacutelectronique Heureusement un tel modegravele existe et il a eacuteteacute expeacuterimenteacute dans le cadre du projet Eacuterudit Il sagit de baser la chaicircne de traitement sur un document structureacute en format XML agrave partir duquel les diffeacuterents formats de diffusion y comshypris sur support imprimeacute sont produits (dautres eacutediteurs sont aussi arriveacutes agrave cette conclusion voir entre autres Kasdorf 1998) Les deacutetails techniques de ce moshydegravele seront preacutesenteacutes dans la seconde partie

Lexistence dun tel modegravele ne signifie malheureusement pas labsence de tout problegraveme ou la reacutealisation sans douleur de projets deacutedition eacutelectronique Les veacuteritashybles documents eacutelectroniques qui inshycluent de linformation dynamique et intershyactive sont des objets avec lesquels on doit continuer agrave se familiariser afin de troushyver des applications et des formats adeacuteshyquats Mais surtout il est important de reshyvoir notre conception de ce quest un docushyment et de le consideacuterer plutocirct comme une interface agrave un reacuteservoir dinformation Dune part linterface peut ecirctre individuashyliseacutee pour chaque utilisateur agrave chaque consultation dautre part le reacuteservoir dinshyformation peut ecirctre en constante modificashytion Cela demande un changement de culshyture important chez les eacutediteurs et les aushyteurs et agrave un degreacute moindre chez les lecshyteurs-utilisateurs Ce changement sexshyprime bien entendu par de nouvelles chaicircnes de traitement ou de nouveaux moshy

degraveles techniques mais il doit eacutegalement sexprimer par de nouvelles mentaliteacutes

Preacutesentation dune chaicircne de traitement lexemple du projet Eacuterudit

Lhistoire nous a montreacute que tout noushyveau meacutedia a deacutebuteacute en tentant dabord de calquer un moyen de diffusion existant Eacuteventuellement ce nouveau meacutedia eacutevolue et arrive agrave se deacutefinir et agrave deacutevelopshyper ses propres caracteacuteristiques devenant ainsi reacuteellement novateur Ainsi pour la plupart des initiatives et des innovations dans le domaine de la publication scientishyfique le modegravele de lagrave revue savante sur le Web commence par une transposition du modegravele imprimeacute deacutejagrave existant

Pour en assurer la reacuteussite la laquotransishytion raquo du format papier agrave leacutelectronique imshyplique dune part de travailler selon des faccedilons de faire deacutejagrave existantes et dautre part de graduellement en implanter de nouvelles propres aux impeacuteratifs et aux possibiliteacutes dun traitement eacutelectronique Dans le cadre du projet pilote Eacuterudit cette nouvelle chaicircne de production a eacuteteacute reacuteashyliseacutee parallegravelement au processus de proshyduction courant des revues Il a eacuteteacute eacutetabli quon tenterait de reproduire le plus fidegraveleshyment possible la signature (apparence) et la structure (construction) quaffichait la forme imprimeacutee des revues participantes afin dassurer une transition en douceur de mecircme que pour respecter linteacutegriteacute des contenus Dun point de vue techshynique cela sapparente agrave faire un traiteshyment reacutetrospectif des documents puisque aucune intervention de notre part ne poushyvait ecirctre faite preacutealablement ou parallegraveleshyment agrave la creacuteation du document Ainsi la meacutethodologie mise en place et exposeacutee ici est-elle le fruit dun meacutelange de condishytions de contraintes et de possibiliteacutes dicshyteacutees par cette situation Cette meacutethodoshylogie on le comprendra aiseacutement est bien diffeacuterente de celle qui pourrait ecirctre mise en place pour la production dune revue unishyquement eacutelectronique et cela serait daushytant plus vrai sil sagissait dune toute noushyvelle revue Dans ce dernier cas toutes les conventions et interventions neacutecessaishyres agrave la production dune revue eacutelectroshynique peuvent ecirctre consideacutereacutees et implanshy

teacutees degraves le deacutebut de sa conception Nous devons aussi souligner que

cette chaicircne est baseacutee sur la norme SGML mais en fait elle pourrait tregraves bien lecirctre sur XML la norme plus reacutecente En effet aucune fonctionnaliteacute de SGML non preacutesente dans XML na eacuteteacute utiliseacutee Par conseacutequent dans la description qui suit les expressions laquoSGMLraquo et laquoXMLraquo sont interchangeables

Deacutefinition du type de document (DTD)

Au deacutebut dun projet baseacute sur SGML le choix ou la creacuteation dune Deacutefinition du type de document (DTD) est une eacutetape prishymordiale La DTD est le fondement dune application SGML Cest elle qui deacutetershymine de quelle faccedilon les documents seront repreacutesenteacutes les traitements qui seront possibles etc En quelque sorte il sagit du veacuteritable laquoformatraquo des docushyments Les reacuteponses aux questions suishyvantes orienteront la creacuteation ou le choix dune DTD

bull Quels sont les types de documents agrave traiter Quels sont les types de docushyments semblables

bull Quelles sont les composantes structurelles des documents Quels sont les autres types deacuteleacutements logiques appashyraissant dans chaque type de document

bull En plus des contenus textuels quelshyles autres informations ou proprieacuteteacutes peuvent ecirctre assigneacutees agrave chaque type deacuteleacutement

laquoQuelles sont les relations logiques entre chacun des eacuteleacutements

bull Que veut-on faire de linformation Quelles sont les types de structures et de relations que lon veut encoder dans le balishysage SGML de faccedilon agrave pouvoir reacutepondre aux besoins deacutechange (partage) de repeacuteshyrage de diffusion et de reacuteutilisation de linshyformation

Cet exercice en est un danalyse de besoins en fonction des coucircts encourus et des beacuteneacutefices retireacutes Ainsi un balisage fin et hautement structureacute insufflant de ce fait une laquointelligenceraquo aux documents pershymettra une exploitation plus performante des donneacutees tandis quun balisage plus grossier effectueacute agrave moindre coucirct trouvera une possibiliteacute de reacuteutilisation reacuteduite ou demandant certaines interventions

En matiegravere de revues savantes leacutequipe deacutes publications eacutelectroniques

166 octobre-deacutecembre 1999

Documentation et bibliothegraveques

des Presses de lUniversiteacute de Montreacuteal a eu dans des projets anteacuterieurs agrave celui-ci lopportuniteacute deacutetudier la question du choix de la DTD pour ce type de publication8 La DTD IS012083 Article ayant eacuteteacute deacutecreacuteteacutee trop limiteacutee on a jugeacute souhaitable dadapshyter cette derniegravere aux besoins des revues savantes Du noyau de la DTD ISO 12083 auquel on a greffeacute des fragments dautres DTD normaliseacutees mdash CALS (Continuous Acquisition and Life Cycle Support) TEI (Text Encoding Initiative) DTD de la revue Earth Interactions^ mdash nous en sommes arriveacutes agrave creacuteer la DTD des Presses de lUniversiteacute de Montreacuteal (alias DTD PUM) laquelle devait deacutecrire la structure dun arshyticle de peacuteriodique dune revue savante On a eacutegalement proceacutedeacute agrave certains ajouts maison concernant entre autres la gesshytion des diffeacuterentes langues le deacutecoupage des reacutefeacuterences bibliographiques etc

Description des eacutetapes de la chaicircne de traitement

Analyse preacuteliminaire

Avant dutiliser la chaicircne de traiteshyment proprement dite un examen attentif de plusieurs numeacuteros deacutejagrave parus doit ecirctre meneacute pour chaque revue Cet examen doit ecirctre fait pour chaque nouvelle revue Ideacuteashylement lanalyse doit porter sur une peacuteshyriode reacutetrospective suffisamment longue et un nombre de numeacuteros suffisamment important pour englober lensemble des caracteacuteristiques et variations de la revue Cette analyse servira agrave identifier les types de documents (articles comptes rendus notes eacutetudes etc) et leur structure seacuteshymantique10 MHV (titres reacutesumeacutes secshytions subdivisions tableaux eacutequations ilshylustrations citations renvois reacutefeacuterences notes infrapaginales etc)

Cest aussi loccasion dobserver la reacuteshygulariteacute et la conformiteacute de lapplication du protocole de reacutedaction en vigueur ce qui a un impact important sur la qualiteacute En prinshycipe si les documents preacutesentent une structure uniforme et constante (agrave linteacuteshyrieur dun mecircme document et dun docushyment agrave lautre) si le protocole de reacutedaction a ducircment eacuteteacute respecteacute et si leacutetape du choix ou de la creacuteation de la DTD a eacuteteacute bien faite les composants seacutemantiques rencontreacutes leur nombre et lordre dans leshyquel ils se preacutesentent devraient tous ecirctre conformes agrave la DTD Dans la situation ougrave

la correspondance entre la DTD et cershytains eacuteleacutements logiques se retrouvant dans les documents est impossible il faushydra apporter des modifications soit agrave la DTD soit aux documents soit agrave la fois agrave la DTD et aux documents Cette intervention meacuterite une reacuteflexion importante puisshyquelle est lourde de conseacutequences Dans un contexte de conversion reacutetrospective il est impossible dintervenir sur le contenu des documents Les changements agrave la DTD doivent ecirctre faits en consideacuterant un eacuteventail de besoins et non seulement le beshysoin preacutecis qui nous amegravene agrave vouloir modishyfier la DTD Aussi les changements agrave la DTD doivent ecirctre additifs et non correctifs de faccedilon agrave garder une certaine compatibilishyteacute avec les documents produits anteacuterieureshyment agrave ces changements

Outre les modifications de nature seacuteshymantique les amendements doivent sinsshycrire plus largement dans lutilisation soushyhaiteacutee tant agrave court quagrave plus long terme des documents En effet la mise en page en fonction de diffeacuterents meacutedias (papier eacutecran etc) la recherche structureacutee la reacuteushytilisation de certaines parties de docushyments etc deacutependront toutes dune indicashytion SGML (un eacuteleacutement speacutecifique une valeur dattribut etc) En principe cette reacuteshyflexion a ducircment eacuteteacute faite lors de leacutetape du choix ou encore de la conception de la DTD de sorte que les eacuteleacutements logiques devraient tous sharmoniser avec la DTD Cependant puisque aucun controcircle na pu ecirctre exerceacute sur la structuration initiale des documents comme il a eacuteteacute expliqueacute plus haut il se peut que certains eacuteleacutements logishyques ne trouvent pas de correspondance dans la DTD

Il faut eacutegalement discerner les caprishyces de la mise en page papier actuelle faite de faccedilon manuelle la plupart du temps des veacuteritables besoins de discerneshyment visuel des composants logiques Ainsi une information SGML doit ecirctre preacutevue pour faire en sorte quune liste orshydonneacutee soit rendue de faccedilon diffeacuterente dune liste agrave puces On pourra ainsi agrave leacutetape de production dune sortie papier produire respectivement un numeacutero seacuteshyquentiel ou un symbole tel un rond plein (laquo bull raquo) devant chaque item de liste

En theacuteorie la production du SGML et les ajustements agrave la DTD ne devraient pas ecirctre faits en fonction des limites des outils employeacutes cependant en pratique on ne peut ignorer cet aspect Par exemple une formule matheacutematique peut ecirctre finement

baliseacutee selon un modegravele de DTD approshyprieacute (fonction numeacuterateur deacutenominateur arguments etc) En pratique cependant plusieurs logiciels de notre chaicircne de traishytement ne peuvent reconnaicirctre et traiter adeacutequatement une formule reproduite sous cette forme On se rabattra alors sur une repreacutesentation graphique de la forshymule cest-agrave-dire linsertion dun fichier image Ceci peut demander des modificashytions agrave la DTD Autre exemple lemploi de jeux de caractegraveres eacutetrangers bien quils puissent ecirctre repreacutesenteacutes en SGML (entre autres par lemploi dentiteacutes caractegraveres coshydeacutees en Unicode11) peut nous faire renshycontrer les limites des outils de traitement Ici encore on preacuteconisera une solution de rechange impliquant des modifications au SGML produit et conseacutequemment agrave la DTD Si le nombre de limitations renconshytreacutees par les outils est tregraves important on deacutecidera afin de ne pas laquocorrompreraquo abushysivement la source SGML de produire (aushytomatiquement de preacutefeacuterence) des vershysions SGML transitoires

Nous avons recours agrave une version SGML transitoire pour la production du PDF (une eacutetape plus en aval de la chaicircne qui sera expliqueacutee plus loin) Cette version transitoire sert agrave reacuteordonner et qualifier certains eacuteleacutements de faccedilon agrave accommoshyder certaines caracteacuteristiques propres aux revues (par exemple le fait de preacutesenter les reacutesumeacutes agrave la toute fin de larticle plutocirct quau deacutebut) Elle est produite automatishyquement avec le logiciel OmniMark

Preacutetraitement

Mise en styles et preacuteparation des textes

La chaicircne de traitement proposeacutee comporte une eacutetape de preacutetraitement des documents originaux (Figure 1) Cette

8 Voir Un nouveau modegravele de publication eacutelectronique ltURL http wwwpumumontrealcapubl__electr vision htmlgt

9 ltURL http EarthInteractionsorggt 10 Nous employons dans cet article lexpression laquostrucshy

ture seacutemantiqueraquo pour souligner lorganisation dun document textuel baseacute sur le sens de ses composhysants par opposition agrave leur apparence

11 La norme Unicode est un jeu de caractegraveres eacutetaleacute sur 16 bits ce qui permet la repreacutesentation dun maxishymum de 65 536 caractegraveres diffeacuterents Elle corresshypond au premier plan agrave 2 octets (le BMP Basic Multishylingual Plane) dune norme plus universelle (baseacutee sur 4 octets) soit la norme ISO 10646 Voir ltURL http wwwunicodeorggt

octobre-deacutecembre 1999 167

Documentation et bibliothegraveques

Figure 1 Chaicircne de traitement du projet Eacuterudit

Documents mis en styles (Word)

1 r f bull -

Documents originaux (WordJ

Documents 1 k | ltSfiMI 1

^ 1 wninii 1 mdash

[DTDPUMJ Formats de diffusion 1 HTML

SGML

flHGIiHiB

eacutetape consiste agrave appliquer un ensemble de styles contenus dans un modegravele de doshycument (feuille de style) agrave un document original en format MS Word Utilisation de styles sur des parties de texte inscrit dans le format intrinsegraveque du traitement de texte des codes qui nous permettront daushytomatiser le balisage en SGML

Cest agrave cette eacutetape que lon insuffle une certaine laquointelligenceraquo au document Ainsi le modegravele de document et les styles quil contient ne sont pas destineacutes agrave modishyfier lapparence des documents comme lont dabord penseacute les concepteurs de cette fonctionnaliteacute mais plutocirct agrave identifier certaines parties des documents Par exemple nous chercherons agrave identifier les titres les auteurs les reacutefeacuterences bibliograshyphiques les reacutesumeacutes etc Il est important de comprendre que nous nutiliserons pas les styles agrave des fins de mise en page mais bien didentification des diffeacuterents composhysants du texte

Outre lapplication des styles luniforshymisation et la normalisation des textes doivent ecirctre effectueacutees Ainsi les tashybleaux les listes et les notes infrapagina-les doivent avoir eacuteteacute produits avec les foncshytionnaliteacutes approprieacutees du traitement de texte (en dautres mots que ce soient de vrais tableaux et non des chaicircnes de texte seacutepareacutees par des tabulations par exemple) Nous analysons agrave leacutetape de la programmation lensemble des codes du traitement de texte les liens entre les apshypels de notes et les notes la largeur relashytive des colonnes des tableaux laligneshy

ment des contenus des cellules des tableaux etc et nous reproduisons cette information dans les documents SGML Au besoin certains composants doivent ecirctre reacuteordonneacutes (par exemple si lauteur a ajouteacute son reacutesumeacute agrave la fin on devra le repishyquer au deacutebut du document agrave la suite des eacuteleacutements de titres et dauteurs tel que le preacutevoit la DTD)

Nous avons deacuteveloppeacute un modegravele de document pour chacune des revues Ces modegraveles contiennent en moyenne de 30 agrave 50 styles diffeacuterents en fonction du nombre de composants retrouveacutes Parmi ces styles certains sont de type paragraphe (blocs de texte) et dautres de type caracshytegravere (chaicircnes de texte agrave linteacuterieur des blocs)

Leacutetape de mise en styles pourra ecirctre reacutealiseacutee par la personne responsable de la preacuteparation des textes agrave publier soit habishytuellement une personne faisant partie du comiteacute de production de la revue Agrave cet effet nous avons dans le cadre du projet Eacuterudit entrepris de donner des seacuteances de formation personnaliseacutee aux responsashybles des revues lesquelles portaient sur la preacuteparation des documents et lapplication des feuilles de style Notre expeacuterience deacuteshymontre que cette eacutetape est plus facilement reacutealisable par des personnes maicirctrisant bien leur outil de traitement de texte Un certain controcircle de qualiteacute doit ecirctre effecshytueacute sur les premiers documents styleacutes

Une fois styleacute le document servira dintrant (input) agrave leacutetape de conversion SGML Cest pourquoi il doit sagir dune

version finale du texte cest-agrave-dire quil doit ecirctre complet et deacutejagrave comprendre toushytes les corrections neacutecessaires Agrave cet effet nous avons rencontreacute quelques proshyblegravemes puisque le traitement traditionnel des revues comporte une ou plusieurs eacutetashypes de correction deacutepreuves une fois le document mis en page agrave laide dun logishyciel de PAO (tel PageMaker ou XPress) Les corrections sont alors effectueacutees direcshytement dans ces logiciels et ne sont pas reshypiqueacutees dans la copie de traitement de texte initiale Notre systegraveme de traitement preacuteconise une utilisation de fonctionnalishyteacutes approprieacutees du traitement de texte (styles notes tableaux etc) De plus les corrections de nature textuelle (orthoshygraphe et syntaxe de mecircme que la plushypart des corrections de nature typograshyphique) doivent ecirctre faites dans le fichier de traitement de texte Il faut prendre en consideacuteration le fait que ce fichier sert agrave la production de documents darchivage de documents deacuteriveacutes (sommaires tables des matiegraveres listes de reacutesultats de reshycherche etc) ainsi que de plusieurs forshymats de diffusion Ce fichier source de par son contenu et sa structure doit donc ecirctre le plus acheveacute possible Cela exige de la personne qui preacutepare les textes de bonnes connaissances linguistiques et tyshypographiques Les erreurs reacuteveacuteleacutees en aval dans la chaicircne de production doivent ecirctre corrigeacutees dans les fichiers de traiteshyment de texte

168 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Eacutepreuves eacutelectroniques

Depuis la fin du projet Eacuterudit nous avons testeacute linteacutegration du processus de reacutevision des eacutepreuves dans la chaicircne de traitement Dans un processus plus tradishytionnel cette reacutevision se fait habituelleshyment sur les eacutepreuves imprimeacutees des artishycles une fois la mise en page effectueacutee agrave laide de logiciels de PAO Les corrections apporteacutees peuvent ecirctre agrave la fois de nature orthographique syntaxique typograshyphique et peuvent aussi concerner des asshypects du montage La diffusion du mecircme contenu sur plusieurs supports de diffushysion nous amegravene agrave discerner entre les corshyrections devant ecirctre repiqueacutees dans le fishychier initial de traitement de texte (de fashyccedilon agrave ce que lensemble des formats de difshyfusion profitent de ces modifications) des corrections sappliquant uniquement agrave la mise en page papier Nous produisons donc maintenant des laquoeacutepreuves eacutelectronishyques raquo cest-agrave-dire des sorties imprimeacutees obtenues agrave partir dun logiciel de PAO soit FrameMaker+SGML (voir plus loin pour la description de cette eacutetape) sans avoir agrave efshyfectuer dimportantes interventions mashynuelles au niveau du montage Sur ces eacutepreuves sont apporteacutees les corrections se rapportant au texte (et non agrave sa mise en page en vue de limprimeacute) lesquelles seshyront ensuite repiqueacutees dans le fichier Word initial qui servira agrave la reacutegeacuteneacuteration des diffeacuterents formats produits Dans la perspective ougrave plusieurs formats diffeacuteshyrents (SGML HTML PDF) sont produits agrave partir dun mecircme fichier initial on comprenshydra linteacuterecirct deffectuer un maximum de corrections en amont (donc degraves la reacutevision du fichier Word) et non en aval sur un forshymat en particulier plutocirct que sur un autre

Traitement des images

Les illustrations que peuvent comporshyter les articles parviennent habituellement aux responsables des revues sous diffeacuteshyrentes formes photos impressions laser velox etc et plus rarement sous forme eacutelectronique fichiers vectoriel ou bitmap provenant de logiciels graphiques et imashyges numeacuteriseacutees Traditionnellement ces images sont inseacutereacutees dans le texte au moment du montage de la copie agrave imprishymer par le typographe qui les numeacuterise et les retouche ou encore par le technicien de latelier de preacuteimpression qui les reproshyduit par proceacutedeacute photographique

Linteacutegration des images dans la chaicircne de traitement Eacuterudit est de beaushycoup faciliteacutee si ces documents nous parshyviennent en format numeacuterique Les imashyges sont traiteacutees comme des fichiers seacutepashyreacutes qui sont reacutefeacutereacutes agrave partir des docushyments

Les secreacutetariats des revues neacutetant habituellement pas eacutequipeacutes en mateacuteriel et savoir-faire pour manipuler des images ce type dintervention sera effectueacute par le fournisseur de services en loccurrence leacutequipe dEacuterudit Cependant les comiteacutes de revues devraient tenter dobtenir des auteurs autant que faire se peut une vershysion des images en format eacutelectronique Ces images devraient toujours ecirctre de tregraves bonne qualiteacute (avec une haute reacutesolution et si deacutesireacute en couleurs) afin de servir agrave larchivage Cest agrave partir des images de bonne qualiteacute quon effectuera le traiteshyment (surtout des modifications de forshymats de fichiers des baisses de reacutesolushytion des sauvegardes en noir et blanc) en vue des diffeacuterents modes de diffusion (arshychivage Web et imprimeacute) Afin de standarshydiser le processus de traitement des imashyges nous avons eacutetabli des proceacutedures norshymaliseacutees Enfin bien que cela ne se soit pas encore produit un type dintervention de mecircme nature est agrave preacuteconiser pour dautres formats non textuels (videacuteo son images 3D etc)

Nous avons exposeacute dans cette section les diffeacuterents eacuteleacutements portant sur le preacutetraitement des textes soit lapplicashytion des styles et le traitement des images Une fois le document preacutetraiteacute il est precirct agrave ecirctre converti en SGML

Conversion en SGML

Puisque la feuille de style utiliseacutee pour styler les documents a eacuteteacute conccedilue en fonction dun passage efficace vers un doshycument SGML respectant la DTD PUM une conversion relativement automatique est possible Cette conversion qui consiste en linterpreacutetation des informashytions existantes et lajout dinformations deacuteshyriveacutees requiert cependant un outil speacutecialishyseacute Il serait agrave ce point-ci de la discussion important dexpliquer la diffeacuterence entre Une conversion de donneacutees au sens SGML et une traduction de donneacutees

Une traduction est une opeacuteration qui consiste agrave prendre un ensemble de donshyneacutees (information et mise en forme confonshydus) dun format proprieacutetaire et le traduire

en un ensemble eacutequivalent qui peut ecirctre inshyterpreacuteteacute et eacutediteacute dans un autre logiciel utilishysant un format proprieacutetaire (par exemple passer un document de Word agrave WordPershyfect) Au contraire une conversion vers SGML implique deacutetablir un lien entre un document dans un format proprieacutetaire (ougrave la structure logique est habituellement perccedilue de faccedilon visuelle par le lecteur) agrave un document SGML laquointelligentraquo (ougrave la structure logique est codeacutee de faccedilon explishycite suivant une DTD donneacutee)

Une conversion enrichissante (traducshytion libre de up conversion) est une convershysion dun format plat vers un format seacutemanshytique structureacute (par exemple dun format WordPerfect vers un format SGML) ou plus preacuteciseacutement une conversion de donshyneacutees textuelles dun format dencodage arshybitraire vers une instance SGML valide Une conversion appauvrissante (traducshytion libre de down conversion) quant agrave elle consiste en une conversion dun forshymat logique vers un format proprieacutetaire (par exemple dun format SGML vers un format MS Word) Ce type de conversion est la cleacute du succegraves de SGML puisquelle assure une complegravete reacuteutilisation des donshyneacutees Agrave partir dun format SGML la convershysion peut ecirctre facilement automatiseacutee tout en conservant linteacutegriteacute des donneacutees

Il existe plusieurs produits logiciels apshytes agrave convertir des textes dun format agrave un autre Ces produits sont disponibles essenshytiellement sous la forme de programmes ou de solutions parameacutetrables12 Nous avons opteacute pour le langage de programmashytion speacutecialiseacute OmniMarkreg

Nous effectuons la conversion en deux eacutetapes dont la premiegravere est reacutealiseacutee agrave laide dun programme en langage OmnishyMark disponible gratuitement13 La seshyconde eacutetape se charge dajouter une strucshyture seacutemantique normaliseacutee pour la desshycription darticles savants et introduira de linformation suppleacutementaire agrave valeur ajouteacutee Ainsi nous creacuteons sans aucune intervention manuelle des liens entre les appels de reacutefeacuterences dans le texte et les reacutefeacuterences bibliographiques agrave la fin du

12 Pour une liste exhaustive de ce genre de produit consulter la rubrique laquo Conversion Program raquo dans Survey of software for structured text par Eila Kuikka et Erja Nikunen ltURL http www xsukufi~kuikkasys-temshtmlgt

13 Il sagit de RTF2XML (auparavant RTF2SGML) deacuteshyveloppeacute par Rick Geimer ltURLhttpwwwxme-ta comomlettegt

octobre-deacutecembre 1999 169

Documentation et bibliothegraveques

texte Pour ce faire il faut analyser meacuteticu-leusement les syntaxes de reacutefeacuterences utilishyseacutees par chaque revue [par exemple laquo(Vaugeois et Hubert 1993a)raquo ou laquo(Va-Hu93a) raquo] afin deacutetablir des patrons de reshyconnaissance sur lesquels on peut enshysuite bacirctir des regravegles de programmation Cette deuxiegraveme eacutetape est effectueacutee par un programme en langage OmniMark reacutealiseacute dans le cadre du projet Eacuterudit

Formats de diffusion

Les formats de diffusion choisis doishyvent permettre de satisfaire les habitudes de lecture et les besoins de consultation qui diffegraverent dun usager agrave lautre Ainsi nous preacuteconisons la diffusion des docushyments en plusieurs formats Notre modegravele de diffusion est baseacute sur le document dans sa version SGML Ce document eacutelecshytronique unique constitue la source de plushysieurs sous-produits qui sont autant de forshymats de sortie possibles Les supports de diffusion qui sont compatibles avec ces forshymats sont divers diffusion en ligne (Web) diffusion sur ceacutedeacuterom diffusion sur papier Dans le cadre du projet Eacuterudit nous avons consideacutereacute trois formats de sortie (HTML SGML et PDF) Nous avons eacutegalement deacuteshycideacute deacute rendre disponible le format SGML ce dernier se precirctant tregraves bien agrave la consulshytation dans la mesure ougrave les navigateurs SGML sont capables dexploiter la strucshyture des documents de faccedilon agrave offrir un enshyvironnement de lecture plus sophistiqueacute et complet Enfin le format PDF permet la difshyfusion de documents eacutelectroniques reproshyduisant la mise en page choisie par les difshyfuseurs Ce format est tout agrave fait approprieacute pour limpression agrave distance Nous envisashygeons agrave court terme doffrir eacutegalement le format XML qui peut ecirctre consulteacute agrave laide des versions 5 des navigateurs Internet Explorer et Netscape Navigator

Un principe de base de la philosophie SGML voulant que linformation une fois baliseacutee en SGML puisse ecirctre reacuteutiliseacutee plusieurs fois et cela avec diffeacuterentes sashyveurs tant dans linteacutegraliteacute du contenu (en tout ou en parties) que dans la forme du contenant (dans un format particulier) il est tout naturel de convertir les fichiers SGML en fichiers HTML Il sagit en fait dune conversion SGML (DTD PUM soit la DTD deacuteveloppeacutee aux Presses de lUnishyversiteacute de Montreacuteal pour reacutepondre aux beshysoins de balisage des revues savantes) vers SGML (DTD HTML) Ainsi les artishy

cles sont convertis automatiquement en HTML agrave laide dun autre programme OmniMark Nous produisons de la mecircme faccedilon une table des matiegraveres pour chaque numeacutero de revue Cette table des matiegraveres ne provient pas dun document initial unique saisi sous forme de table des matiegraveres mais plutocirct de la concateacutenation dinformations reacutecupeacutereacutees dans lenshysemble des articles (titres sous-titres auteurs) en format SGML Cest un bon exemple de reacuteutilisation de linformation

Puisque lensemble des documents produits sont baseacutes sur la DTD PUM la conversion du SGML vers le HTML est reacuteashyliseacutee par un seul programme de convershysion pour lensemble des revues Ce proshygramme comporte cependant quelques particulariteacutes de preacutesentation propres agrave chaque revue et dune telle pratique reacuteshysulte une apparence assez semblable pour chacune des revues La fabrication dune signature dune maquette diffeacuterente pour chaque revue est reacutealiseacutee agrave laide dune feuille de style CSS (Cascading Style Sheet) fonction de plus en plus supshyporteacutee par les navigateurs Web

Pour linstant nous stockons sur notre serveur Web la version HTML preacuteshyconvertie Cependant la conversion tant pour les articles que pour la table des mashytiegraveres pourrait aiseacutement ecirctre faite laquoagrave la voleacutee raquo (on the fy) puisquil ny a aucune inshytervention manuelle sur les fichiers HTML On pourrait facilement faire en sorte quau moment ougrave lutilisateur par le biais de son client Web fait la demande dun fichier HTML (par exemple un article donneacute) le serveur (sur lequel serait installeacute OmnishyMark) convertisse leacute fichier SGML en fishychier HTML Ceci aurait pour avantage doccuper moins despace disque (environ la moitieacute de moins puisque seule la vershysion SGML serait stockeacutee et que le rapport SGMLHTML doit plus ou moins ecirctre eacutegal agrave 1 ) Il resterait agrave sassurer de deacutelais de reacuteshyponses acceptables

SGML

Les utilisateurs peuvent visionner les documents SGML agrave laide de Panorama Viewer de Interleaf14 un navigateur SGML qui sinstalle comme module exshyterne (plug-in) dun navigateur Web tel Netscape Navigator

Panorama Viewer permet de creacuteer des liens entre diffeacuterentes parties des doshycuments ou diffeacuterents documents Il pershy

met eacutegalement de preacutesenter des tables des matiegraveres dynamiques qui constituent des aides agrave la navigation Une autre foncshytion de Panorama offre la possibiliteacute danshynoter nimporte quelle partie dun docushyment y compris une zone dune figure deacuteshytermineacutee par le lecteur Enfin il permet dajouter des signets dans un document

La diffusion des articles en format SGML requiert peu defforts puisquil sagit du format natif des documents Pour ecirctre plus exact nous diffusons une vershysion SGML agrave peine diffeacuterente de la version produite lors de leffort de conversion enshyrichie deacutecrite preacuteceacutedemment Cette diffeacuteshyrence minime tient exclusivement agrave la non-reconnaissance par le navigateur SGML de certains caractegraveres eacutetrangers et symshyboles particuliers Panorama Viewer eacutetant en mesure de lire du SGML il faut simpleshyment lui indiquer la mise en forme propre aux diffeacuterents eacuteleacutements rencontreacutes Ces instructions de formatage sont donneacutees sous la forme dune feuille de style La creacuteation dune feuille de style ne seffectue normalement quune seule fois par revue (voire mecircme par DTD utiliseacutee si on deacutesire des produits normaliseacutes et identiques) Ainsi nous avons creacuteeacute des feuilles de style et des formats de tables des matiegraveres dyshynamiques (navigators) pour chaque revue de maniegravere agrave donner agrave chacune une signashyture caracteacuteristique

PDF

Linteacuterecirct du PDF reacuteside dans lobtenshytion dun document eacutelectronique arborant un format de preacutesentation semblable agrave limshyprimeacute Un tel format permet aux lecteurs dimprimer une version laquomise en page papierraquo des articles diffuseacutes en ligne Les navigateurs SGML ou HTML dont nous avons discuteacute preacuteceacutedemment permettent eacutegalement limpression mais la qualiteacute de la mise en page nest pas aussi complexe et soigneacutee puisque les feuilles de style des navigateurs Web sont destineacutees avant tout agrave la preacutesentation agrave leacutecran Notons cepenshydant quil existe des feuilles de style (CSS et XSL) normaliseacutees ougrave on a preacutevu une mise en page sophistiqueacutee en fonction de diffeacuterents meacutedias (eacutecran terminal reacuteduit imprimeacute synthegravese vocale) Agrave moyen terme on pourrait entrevoir que les

14 ltURL http wwwinterleafcomPanoramapa -ge3htmlgt

170 octobre-deacutecembre 1999

Documentation et bibliothegraveques

formats HTML et PDF seront remplaceacutes par un seul document source XML coupleacute agrave des feuilles de style qui seront fonction du meacutedia employeacute

laquo La grande majoriteacute des logiciels de PAO sur le marcheacute (les plus connus eacutetant PageMaker et Xpress) permettent une saushyvegarde en format PDF pour diffusion sur le Web Ces logiciels ne sont cependant pas en mesure de lire en intrant input) un fichier SGML ni de linterpreacuteter correcteshyment Il existe toutefois des outils perforshymants capables agrave la fois de prendre en inshytrant du SGML et de permettre une mise en page professionnelle (FrameMaker+ SGML^ocirce Adobe Interleaf 6 SGMLtrade de la compagnie Interleaf et ADEPT Publisshyher17 reacutealiseacute par ArborText) Il sagit touteshyfois de produits dispendieux et assez comshyplexes agrave manipuler

Notre choix sest arrecircteacute sur le logiciel FrameMaker+SGML en raison de son coucirct abordable et de sa plus grande facilishyteacute de parameacutetrage FrameMaker+SGML permet la creacuteation la modification et la pushyblication de documents SGML dans un enshyvironnement convivial Dans le cadre du projet Eacuterudit nous utilisons uniquement les fonctionnaliteacutes dimportation du SGML et de mise en page sophistiqueacutees offertes par loutil Il sagit ici aussi de deacutefinir un meacutecanisme dapplication de style pour chaque eacuteleacutement en fonction de son contexte SGML Cette feuille de style est dirigeacutee vers la mise en page sur papier (et non agrave leacutecran) et agrave cet effet FrameMashyker+SGML offre la possibiliteacute de parameacuteshytrer plusieurs des caracteacuteristiques requishyses par limprimeacute (par exemple la gestion des veuves et orphelins des paragraphes solidaires les colonnes multiples les noshytes en bas de page les patrons de ceacutesure approprieacutes agrave la fin des lignes les formes des en-tecirctes et bas de pages etc)

Chaque revue possegravede une feuille de style diffeacuterente laquelle a eacuteteacute conccedilue en se basant sur la maquette de la forme imshyprimeacutee deacutejagrave existante des revues particishypantes Les fonctionnaliteacutes de FrameMashyker+SGML nous permettent sans difficulteacute de reproduire de faccedilon presque identique laspect habituel des revues Lapplication dune feuille de style exhaustive et bien conccedilue (quon arrive geacuteneacuteralement agrave obteshynir apregraves un processus de reacuteajustement lors des premiegraveres productions) permet dautomatiser agrave 90 le montage du docushyment ce qui constitue un excellent rendeshyment On doit toutefois faire certaines intershy

ventions manuellement afin de compleacuteter le travail (par exemple deacuteplacer des figushyres condenser lespacement du texte ccedila et lagrave pour forcer un saut de page fractionshyner des notes de bas de page trop lonshygues etc)

Une fois le document monteacute avec FrashymeMaker+SGML il ne reste quagrave produire une version PDF agrave laide du logiciel Acroshybat de Adobe Il sagit lagrave dune opeacuteration sans grande difficulteacute quon peut apparenshyter agrave un simple laquosauvegarder sous PDFraquo On peut ainsi produire un premier fichier PDF de faible reacutesolution destineacute agrave ecirctre vishysionneacute sur le Web et un second fichier PDF de meilleure reacutesolution (ou encore un fichier PostScript) pouvant ecirctre achemineacute agrave latelier de preacutepresse en vue de limpresshysion des exemplaires papier

Pour les usagers la consultation des documents PDF se fait avec le logiciel Acrobat Reader qui existe comme moshydule externe (plug-in) pour les navigateurs Web On peut consulter les documents PDF agrave leacutecran avec ce logiciel mais ils sont plutocirct destineacutes agrave ecirctre imprimeacutes localeshyment par les usagers

Dans le cadre du projet Eacuterudit nous avons produit uniquement des documents PDF destineacutes au Web agrave raison dun fichier unique par article (et non dun fichier regroushypant tout un numeacutero dune revue) puisque les revues poursuivaient pendant la mecircme peacuteriode le traitement habituel pour la proshyduction de la version imprimeacutee de la revue

Diffusion sur le Web

Pour diffuser des documents sur le Web nous avons creacuteeacute un site Web18 heacuteshybergeacute sur notre serveur Web Ce site est la porte dentreacutee principale pour laccegraves aux articles

La diffusion en ligne (et eacutegalement sur ceacutedeacuterom) permet pour le lecteur dacshyceacuteder aux textes agrave laide dun outil de reshycherche Pour ce faire on doit implanter un outil de recherche en texte inteacutegral qui peut indexer des documents SGML tout en conservant linformation sur la strucshyture de faccedilon agrave permettre aux usagers dexprimer des contraintes sur la structure dans leurs requecirctes On peut par exemple preacuteciser la recherche de textes comporshytant le nom dun chercheur mais uniqueshyment lorsque celui-ci se retrouve dans une bibliographie et non en tant quauteur de larticle Dans le cadre du projet Eacuterudit nous avons installeacute sur le site Web un

prototype de moteur de recherche qui doit encore ecirctre ameacutelioreacute La collection indexeacutee comprend lensemble des articles ayant eacuteteacute publieacutes par les revues pendant la dureacutee du projet pilote Il sagit dun mode daccegraves au texte tregraves performant que seule la version eacutelectronique permet dobtenir

Recommandations

Dans la mesure ougrave notre mandat consistait moins en la mise au point dune solution theacuteoriquement optimale quen la conception dune chaicircne de traitement adapteacutee aux besoins du projet (reproducshytion de la forme papier deacutejagrave existante imshypossibiliteacute dintervenir en amont de la chaicircne de production optimisation du traishytement par ladoption dune DTD unique production de divers formats de diffusion) nous avons opteacute pour une solution compreshynant plusieurs sorties intermeacutediaires et cela de faccedilon agrave atteindre de bons reacutesulshytats en matiegravere dautomatisation et de quashyliteacute des textes produits Nous estimons avoir atteint agrave 95 ces objectifs de producshytion

Il va sans dire que la DTD a ducirc ecirctre constamment remanieacutee afin de sadapter agrave lensemble des documents agrave produire Nous avons ducirc opter pour une DTD qui au fur et agrave mesure de lavancement du projet devenait plus permissive de maniegravere agrave geacuteshyneacuterer en bout de ligne du SGML valide respectant linteacutegriteacute et la preacutesentation des contenus des articles

Le projet Eacuterudit aura mis en lumiegravere lextrecircme importance dans une perspecshytive dautomatisation des opeacuterations de la chaicircne documentaire de deacutefinir une strucshyture une preacutesentation et dans une cershytaine mesure un contenu normaliseacute des documents agrave traiter La production mecircme de textes destineacutes agrave ecirctre baliseacutes en SGML peut donc faire lobjet de certaines recomshymandations dont plusieurs savegraverent applishycables dans une optique de sensibilisation des comiteacutes de revues et de formation du personnel chargeacute de la reacutevision et de la correction des textes Cest ainsi quil y aushyrait lieu de deacutefinir (ou renforcer) pour chaque revueraquo un modegravele normaliseacute quant

15 ltURL http wwwadobecomprodindexframe makerprodinfosgmlhtmlgt

16 ltUEL http wwwinterleafcomproducts p_sgmlhtmlgt

17 ltURL http wwwarbortextcomProducts AcircDEPT_Seriesadept_serieshtmlgt

18 ltURLhttpwwweruditorggt

octobre-deacutecembre 1999 171

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999

Page 6: De l’imprimé vers l’électronique : réflexions et solutions

Documentation et bibliothegraveques

Exploitation du format eacutelectronique

Passer de limprimeacute agrave leacutelectronique constitue un changement qui va bien au-delagrave du mode de diffusion dune revue sashyvante Les formats eacutelectroniques permetshytent en effet de repreacutesenter plusieurs tyshypes dinformation que lon ne peut retroushyver dans un document imprimeacute Une revue en transition vers leacutelectronique inteacutegrera peu agrave peu ces types dinformation et son eacutediteur devra mettre en place les outils neacuteshycessaires pour y arriver

^information statique est la plus eacutevishydente mais aussi la seule qui peut ecirctre veacuteshyritablement repreacutesenteacutee sur une feuille de papier Il sagit de textes ou dimages qui une fois laquo imprimeacutes raquo ou laquo stockeacutes raquo dans le document ne changeront pas La plupart des documents existants ne contiennent que de linformation statique car ils ont eacuteteacute produits dabord et avant tout pouf un support qui ne permet que ce genre dinforshymation soit limprimeacute

Linformation dynamique est celle qui laquo bouge raquo qui sanime Ces animations ne sont pas controcircleacutees par les utilisateurs (ou si peu) mais plutocirct par les producteurs de linformation Le meilleur exemple est la videacuteo ou les images en mouvement La plushypart du temps linteraction de lutilisateur se limite agrave des fonctions telles que laquomarche avantraquo ou laquoarriegravereraquo laquopauseraquo laquoarrecirctraquo etc Les seacutequences sonores font eacutegalement partie de ces informations dyshynamiques

Linformation interactive est celle qui peut prendre diffeacuterentes formes ou vashyleurs en fonction du deacutesir de lutilisateur Elle se distingue de linformation dynashymique par limportance quelle accorde au controcircle par lutilisateur Par exemple la sishymulation dune moleacutecule en trois dimenshysions avec la possibiliteacute pour lutilisateur de manipuler la moleacutecule dans tous les sens pour la voir sous tous ses aspects constitue de linformation fortement intershyactive Un autre exemple consiste en la pushyblication dun algorithme auquel lutilisashyteur peut fournir des valeurs de deacutepart et veacuterifier les reacutesultats et ce de faccedilon instanshytaneacutee ou presque Cela peut aller dune simple calculatrice dinteacuterecircts composeacutes agrave la simulation de la puissance dun moteur

Linformaticircon active permet aux utilishysateurs dagir sur le contenu du document ou encore sur lenvironnement de consulshy

tation Les liens hypertextuels font partie de cette cateacutegorie de mecircme que les forshymulaires interactifs Par exemple un sonshydage publieacute dans un article scientifique pourrait ecirctre mis agrave jour dynamiquement par des lecteurs qui pourraient faire connaicirctre leur opinion agrave partir du docushyment

Un des problegravemes majeurs pour les eacutediteurs et par le fait mecircme pour les utilishysateurs est labsence ou la surabondance de normes pour certains types dinformashytion Dans le cas du texte et des images simples la situation est assez facile agrave maicircshytriser de par lomnipreacutesence du format HTML et de ses formats dimage associeacutes GIF et JPEG Mais au-delagrave de ces quelshyques formats la situation devient plus diffishycile car le support nest habituellement pas inclus dans les navigateurs communs et il faut donc inciter les utilisateurs agrave instalshyler des modules externes ou des applicashytions suppleacutementaires afin de pouvoir consulter certaines parties de documents Un utilisateur sera enclin agrave installer un tel module sil en a besoin au moins occasionshynellement ou si linformation manquante est tregraves importante pour lui Sinon il va aller voir ailleurs ou il sen passera

Le deacutefi technologique est double troushyver des formats adeacutequats pour chaque type dinformation susceptible de se preacuteshysenter et trouver un format de base qui puisse lier tous ces types dinformation et qui serve de laquocimentraquo aux diffeacuterentes parshyties du document eacutelectronique

Dans le cas du format de base un moshydegravele de traitement centreacute sur XML peut saveacuterer suffisant En effet XML permet dinteacutegrer des parties de documents en difshyfeacuterents formats Ainsi assembler un docushyment ayant des composantes textuelles iconographiques videacuteo sonores et des alshygorithmes nest pas un reacuteel problegraveme De plus si on utilise HTML comme principal format de diffusion pour la consultation eacutelectronique de linformation nous avons lagrave eacutegalement un format qui peut assemshybler des documents tregraves complexes comshyprenant des parties tregraves diffeacuterentes et stocshykeacutes dans des formats varieacutes Bref XML et HTML sont tous deux des formats laquo hyper-meacutedias raquo et ils constituent des solutions inshyteacuteressantes pour la gestion et la diffusion de tels types de documents

Lautre partie du deacutefi est plus probleacuteshymatique quel(s) format(s) utiliser pour les diffeacuterents types dinformation Agrave ce sujet un grand effort de normalisation reste agrave

faire avant de sassurer que les navigashyteurs habituels puissent preacutesenter tous les types dinformation sur toutes les plates-formes Toutefois soulignons certains asshypects encourageants tels que la mise en place dune norme de lindustrie pour les images vectorielles (SVG7) et lutilisation croissante du langage de programmation Java pour les applications dynamiques (ce qui pourrait ecirctre utile pour les algorithmes et les simulations)

Aujourdhui un eacutediteur qui prend au seacuterieux leacutedition eacutelectronique et lexploitashytion optimale des possibiliteacutes quoffrent les documents eacutelectroniques devrait entreshyprendre ces diffeacuterentes deacutemarches

raquo sensibiliser instruire les auteurs poshytentiels aux possibiliteacutes des documents eacutelectroniques Sans matiegravere premiegravere il est inutile de mettre en place des systegraveshymes sophistiqueacutes

m sensibiliser les utilisateurs aux posshysibiliteacutes des documents eacutelectroniques Sans demande loffre ne sera pas neacutecesshysaire

m identifier les formats de diffusion les plus adeacutequats Il y a deux questions fondamentales agrave se poser Est-ce que le format choisi permettra de repreacutesenter adeacutequatement linformation agrave diffuser Est-ce que les utilisateurs possegravedent les eacutequipements et logiciels neacutecessaires pour pouvoir consulter des documents utilisant ce format

bull eacutetablir des protocoles pour leacutechange de tels documents Les auteurs et les eacutedishyteurs doivent ecirctre en mesure de se transshymettre efficacement ce genre dinformashytion

m mettre en place une infrastructure de gestion pour ces types de documents Leacutediteur doit ecirctre en mesure de manipuler et geacuterer ces parties de documents et bien souvent les formats de diffusion etou deacutechange ne sont pas les meilleurs pour y arriver surtout si lon considegravere la neacutecessishyteacute de conservation agrave long terme par exemple

bull participer aux efforts de normalisashytion des formats et des applications Les eacutediteurs ont leur mot agrave dire car ils pourshyraient en ecirctre les premiers beacuteneacuteficiaires

Il sagit donc dun agenda tregraves chargeacute pour une tacircche qui nest pas simple Lexpeacuteshyrimentation pourrait ecirctre la solution dans

7 Scalable Vector Graphics voir lthttp wwww3 org GraphicsSVGgt

octobre-deacutecembre 1999 165

Documentation et bibliothegraveques

bien des cas pour y arriver la meilleure meacutethode consiste probablement en la creacuteation dune nouvelle revue savante pushyrement eacutelectronique dans une discipline qui se precircte bien agrave la diffusion de diffeacuterents types dinformation

Conclusion sur les modegraveles techniques de publication

Cette premiegravere partie avait pour objecshytif de preacutesenter les diffeacuterentes techniques relieacutees agrave leacutedition eacutelectronique Nous avons surtout chercheacute agrave montrer que sans un modegravele technologique solide et orienteacute vers le document eacutelectronique et la reacuteutilishysation de linformation il est impossible dexploiter un tant soit peu les possibiliteacutes des documents eacutelectroniques Les asshypects importants de ce modegravele sont les meacutethodes de production et les formats de documents (pour la gestion la diffusion et la conservation) et ils doivent mener agrave une exploitation optimale des possibiliteacutes de leacutelectronique Heureusement un tel modegravele existe et il a eacuteteacute expeacuterimenteacute dans le cadre du projet Eacuterudit Il sagit de baser la chaicircne de traitement sur un document structureacute en format XML agrave partir duquel les diffeacuterents formats de diffusion y comshypris sur support imprimeacute sont produits (dautres eacutediteurs sont aussi arriveacutes agrave cette conclusion voir entre autres Kasdorf 1998) Les deacutetails techniques de ce moshydegravele seront preacutesenteacutes dans la seconde partie

Lexistence dun tel modegravele ne signifie malheureusement pas labsence de tout problegraveme ou la reacutealisation sans douleur de projets deacutedition eacutelectronique Les veacuteritashybles documents eacutelectroniques qui inshycluent de linformation dynamique et intershyactive sont des objets avec lesquels on doit continuer agrave se familiariser afin de troushyver des applications et des formats adeacuteshyquats Mais surtout il est important de reshyvoir notre conception de ce quest un docushyment et de le consideacuterer plutocirct comme une interface agrave un reacuteservoir dinformation Dune part linterface peut ecirctre individuashyliseacutee pour chaque utilisateur agrave chaque consultation dautre part le reacuteservoir dinshyformation peut ecirctre en constante modificashytion Cela demande un changement de culshyture important chez les eacutediteurs et les aushyteurs et agrave un degreacute moindre chez les lecshyteurs-utilisateurs Ce changement sexshyprime bien entendu par de nouvelles chaicircnes de traitement ou de nouveaux moshy

degraveles techniques mais il doit eacutegalement sexprimer par de nouvelles mentaliteacutes

Preacutesentation dune chaicircne de traitement lexemple du projet Eacuterudit

Lhistoire nous a montreacute que tout noushyveau meacutedia a deacutebuteacute en tentant dabord de calquer un moyen de diffusion existant Eacuteventuellement ce nouveau meacutedia eacutevolue et arrive agrave se deacutefinir et agrave deacutevelopshyper ses propres caracteacuteristiques devenant ainsi reacuteellement novateur Ainsi pour la plupart des initiatives et des innovations dans le domaine de la publication scientishyfique le modegravele de lagrave revue savante sur le Web commence par une transposition du modegravele imprimeacute deacutejagrave existant

Pour en assurer la reacuteussite la laquotransishytion raquo du format papier agrave leacutelectronique imshyplique dune part de travailler selon des faccedilons de faire deacutejagrave existantes et dautre part de graduellement en implanter de nouvelles propres aux impeacuteratifs et aux possibiliteacutes dun traitement eacutelectronique Dans le cadre du projet pilote Eacuterudit cette nouvelle chaicircne de production a eacuteteacute reacuteashyliseacutee parallegravelement au processus de proshyduction courant des revues Il a eacuteteacute eacutetabli quon tenterait de reproduire le plus fidegraveleshyment possible la signature (apparence) et la structure (construction) quaffichait la forme imprimeacutee des revues participantes afin dassurer une transition en douceur de mecircme que pour respecter linteacutegriteacute des contenus Dun point de vue techshynique cela sapparente agrave faire un traiteshyment reacutetrospectif des documents puisque aucune intervention de notre part ne poushyvait ecirctre faite preacutealablement ou parallegraveleshyment agrave la creacuteation du document Ainsi la meacutethodologie mise en place et exposeacutee ici est-elle le fruit dun meacutelange de condishytions de contraintes et de possibiliteacutes dicshyteacutees par cette situation Cette meacutethodoshylogie on le comprendra aiseacutement est bien diffeacuterente de celle qui pourrait ecirctre mise en place pour la production dune revue unishyquement eacutelectronique et cela serait daushytant plus vrai sil sagissait dune toute noushyvelle revue Dans ce dernier cas toutes les conventions et interventions neacutecessaishyres agrave la production dune revue eacutelectroshynique peuvent ecirctre consideacutereacutees et implanshy

teacutees degraves le deacutebut de sa conception Nous devons aussi souligner que

cette chaicircne est baseacutee sur la norme SGML mais en fait elle pourrait tregraves bien lecirctre sur XML la norme plus reacutecente En effet aucune fonctionnaliteacute de SGML non preacutesente dans XML na eacuteteacute utiliseacutee Par conseacutequent dans la description qui suit les expressions laquoSGMLraquo et laquoXMLraquo sont interchangeables

Deacutefinition du type de document (DTD)

Au deacutebut dun projet baseacute sur SGML le choix ou la creacuteation dune Deacutefinition du type de document (DTD) est une eacutetape prishymordiale La DTD est le fondement dune application SGML Cest elle qui deacutetershymine de quelle faccedilon les documents seront repreacutesenteacutes les traitements qui seront possibles etc En quelque sorte il sagit du veacuteritable laquoformatraquo des docushyments Les reacuteponses aux questions suishyvantes orienteront la creacuteation ou le choix dune DTD

bull Quels sont les types de documents agrave traiter Quels sont les types de docushyments semblables

bull Quelles sont les composantes structurelles des documents Quels sont les autres types deacuteleacutements logiques appashyraissant dans chaque type de document

bull En plus des contenus textuels quelshyles autres informations ou proprieacuteteacutes peuvent ecirctre assigneacutees agrave chaque type deacuteleacutement

laquoQuelles sont les relations logiques entre chacun des eacuteleacutements

bull Que veut-on faire de linformation Quelles sont les types de structures et de relations que lon veut encoder dans le balishysage SGML de faccedilon agrave pouvoir reacutepondre aux besoins deacutechange (partage) de repeacuteshyrage de diffusion et de reacuteutilisation de linshyformation

Cet exercice en est un danalyse de besoins en fonction des coucircts encourus et des beacuteneacutefices retireacutes Ainsi un balisage fin et hautement structureacute insufflant de ce fait une laquointelligenceraquo aux documents pershymettra une exploitation plus performante des donneacutees tandis quun balisage plus grossier effectueacute agrave moindre coucirct trouvera une possibiliteacute de reacuteutilisation reacuteduite ou demandant certaines interventions

En matiegravere de revues savantes leacutequipe deacutes publications eacutelectroniques

166 octobre-deacutecembre 1999

Documentation et bibliothegraveques

des Presses de lUniversiteacute de Montreacuteal a eu dans des projets anteacuterieurs agrave celui-ci lopportuniteacute deacutetudier la question du choix de la DTD pour ce type de publication8 La DTD IS012083 Article ayant eacuteteacute deacutecreacuteteacutee trop limiteacutee on a jugeacute souhaitable dadapshyter cette derniegravere aux besoins des revues savantes Du noyau de la DTD ISO 12083 auquel on a greffeacute des fragments dautres DTD normaliseacutees mdash CALS (Continuous Acquisition and Life Cycle Support) TEI (Text Encoding Initiative) DTD de la revue Earth Interactions^ mdash nous en sommes arriveacutes agrave creacuteer la DTD des Presses de lUniversiteacute de Montreacuteal (alias DTD PUM) laquelle devait deacutecrire la structure dun arshyticle de peacuteriodique dune revue savante On a eacutegalement proceacutedeacute agrave certains ajouts maison concernant entre autres la gesshytion des diffeacuterentes langues le deacutecoupage des reacutefeacuterences bibliographiques etc

Description des eacutetapes de la chaicircne de traitement

Analyse preacuteliminaire

Avant dutiliser la chaicircne de traiteshyment proprement dite un examen attentif de plusieurs numeacuteros deacutejagrave parus doit ecirctre meneacute pour chaque revue Cet examen doit ecirctre fait pour chaque nouvelle revue Ideacuteashylement lanalyse doit porter sur une peacuteshyriode reacutetrospective suffisamment longue et un nombre de numeacuteros suffisamment important pour englober lensemble des caracteacuteristiques et variations de la revue Cette analyse servira agrave identifier les types de documents (articles comptes rendus notes eacutetudes etc) et leur structure seacuteshymantique10 MHV (titres reacutesumeacutes secshytions subdivisions tableaux eacutequations ilshylustrations citations renvois reacutefeacuterences notes infrapaginales etc)

Cest aussi loccasion dobserver la reacuteshygulariteacute et la conformiteacute de lapplication du protocole de reacutedaction en vigueur ce qui a un impact important sur la qualiteacute En prinshycipe si les documents preacutesentent une structure uniforme et constante (agrave linteacuteshyrieur dun mecircme document et dun docushyment agrave lautre) si le protocole de reacutedaction a ducircment eacuteteacute respecteacute et si leacutetape du choix ou de la creacuteation de la DTD a eacuteteacute bien faite les composants seacutemantiques rencontreacutes leur nombre et lordre dans leshyquel ils se preacutesentent devraient tous ecirctre conformes agrave la DTD Dans la situation ougrave

la correspondance entre la DTD et cershytains eacuteleacutements logiques se retrouvant dans les documents est impossible il faushydra apporter des modifications soit agrave la DTD soit aux documents soit agrave la fois agrave la DTD et aux documents Cette intervention meacuterite une reacuteflexion importante puisshyquelle est lourde de conseacutequences Dans un contexte de conversion reacutetrospective il est impossible dintervenir sur le contenu des documents Les changements agrave la DTD doivent ecirctre faits en consideacuterant un eacuteventail de besoins et non seulement le beshysoin preacutecis qui nous amegravene agrave vouloir modishyfier la DTD Aussi les changements agrave la DTD doivent ecirctre additifs et non correctifs de faccedilon agrave garder une certaine compatibilishyteacute avec les documents produits anteacuterieureshyment agrave ces changements

Outre les modifications de nature seacuteshymantique les amendements doivent sinsshycrire plus largement dans lutilisation soushyhaiteacutee tant agrave court quagrave plus long terme des documents En effet la mise en page en fonction de diffeacuterents meacutedias (papier eacutecran etc) la recherche structureacutee la reacuteushytilisation de certaines parties de docushyments etc deacutependront toutes dune indicashytion SGML (un eacuteleacutement speacutecifique une valeur dattribut etc) En principe cette reacuteshyflexion a ducircment eacuteteacute faite lors de leacutetape du choix ou encore de la conception de la DTD de sorte que les eacuteleacutements logiques devraient tous sharmoniser avec la DTD Cependant puisque aucun controcircle na pu ecirctre exerceacute sur la structuration initiale des documents comme il a eacuteteacute expliqueacute plus haut il se peut que certains eacuteleacutements logishyques ne trouvent pas de correspondance dans la DTD

Il faut eacutegalement discerner les caprishyces de la mise en page papier actuelle faite de faccedilon manuelle la plupart du temps des veacuteritables besoins de discerneshyment visuel des composants logiques Ainsi une information SGML doit ecirctre preacutevue pour faire en sorte quune liste orshydonneacutee soit rendue de faccedilon diffeacuterente dune liste agrave puces On pourra ainsi agrave leacutetape de production dune sortie papier produire respectivement un numeacutero seacuteshyquentiel ou un symbole tel un rond plein (laquo bull raquo) devant chaque item de liste

En theacuteorie la production du SGML et les ajustements agrave la DTD ne devraient pas ecirctre faits en fonction des limites des outils employeacutes cependant en pratique on ne peut ignorer cet aspect Par exemple une formule matheacutematique peut ecirctre finement

baliseacutee selon un modegravele de DTD approshyprieacute (fonction numeacuterateur deacutenominateur arguments etc) En pratique cependant plusieurs logiciels de notre chaicircne de traishytement ne peuvent reconnaicirctre et traiter adeacutequatement une formule reproduite sous cette forme On se rabattra alors sur une repreacutesentation graphique de la forshymule cest-agrave-dire linsertion dun fichier image Ceci peut demander des modificashytions agrave la DTD Autre exemple lemploi de jeux de caractegraveres eacutetrangers bien quils puissent ecirctre repreacutesenteacutes en SGML (entre autres par lemploi dentiteacutes caractegraveres coshydeacutees en Unicode11) peut nous faire renshycontrer les limites des outils de traitement Ici encore on preacuteconisera une solution de rechange impliquant des modifications au SGML produit et conseacutequemment agrave la DTD Si le nombre de limitations renconshytreacutees par les outils est tregraves important on deacutecidera afin de ne pas laquocorrompreraquo abushysivement la source SGML de produire (aushytomatiquement de preacutefeacuterence) des vershysions SGML transitoires

Nous avons recours agrave une version SGML transitoire pour la production du PDF (une eacutetape plus en aval de la chaicircne qui sera expliqueacutee plus loin) Cette version transitoire sert agrave reacuteordonner et qualifier certains eacuteleacutements de faccedilon agrave accommoshyder certaines caracteacuteristiques propres aux revues (par exemple le fait de preacutesenter les reacutesumeacutes agrave la toute fin de larticle plutocirct quau deacutebut) Elle est produite automatishyquement avec le logiciel OmniMark

Preacutetraitement

Mise en styles et preacuteparation des textes

La chaicircne de traitement proposeacutee comporte une eacutetape de preacutetraitement des documents originaux (Figure 1) Cette

8 Voir Un nouveau modegravele de publication eacutelectronique ltURL http wwwpumumontrealcapubl__electr vision htmlgt

9 ltURL http EarthInteractionsorggt 10 Nous employons dans cet article lexpression laquostrucshy

ture seacutemantiqueraquo pour souligner lorganisation dun document textuel baseacute sur le sens de ses composhysants par opposition agrave leur apparence

11 La norme Unicode est un jeu de caractegraveres eacutetaleacute sur 16 bits ce qui permet la repreacutesentation dun maxishymum de 65 536 caractegraveres diffeacuterents Elle corresshypond au premier plan agrave 2 octets (le BMP Basic Multishylingual Plane) dune norme plus universelle (baseacutee sur 4 octets) soit la norme ISO 10646 Voir ltURL http wwwunicodeorggt

octobre-deacutecembre 1999 167

Documentation et bibliothegraveques

Figure 1 Chaicircne de traitement du projet Eacuterudit

Documents mis en styles (Word)

1 r f bull -

Documents originaux (WordJ

Documents 1 k | ltSfiMI 1

^ 1 wninii 1 mdash

[DTDPUMJ Formats de diffusion 1 HTML

SGML

flHGIiHiB

eacutetape consiste agrave appliquer un ensemble de styles contenus dans un modegravele de doshycument (feuille de style) agrave un document original en format MS Word Utilisation de styles sur des parties de texte inscrit dans le format intrinsegraveque du traitement de texte des codes qui nous permettront daushytomatiser le balisage en SGML

Cest agrave cette eacutetape que lon insuffle une certaine laquointelligenceraquo au document Ainsi le modegravele de document et les styles quil contient ne sont pas destineacutes agrave modishyfier lapparence des documents comme lont dabord penseacute les concepteurs de cette fonctionnaliteacute mais plutocirct agrave identifier certaines parties des documents Par exemple nous chercherons agrave identifier les titres les auteurs les reacutefeacuterences bibliograshyphiques les reacutesumeacutes etc Il est important de comprendre que nous nutiliserons pas les styles agrave des fins de mise en page mais bien didentification des diffeacuterents composhysants du texte

Outre lapplication des styles luniforshymisation et la normalisation des textes doivent ecirctre effectueacutees Ainsi les tashybleaux les listes et les notes infrapagina-les doivent avoir eacuteteacute produits avec les foncshytionnaliteacutes approprieacutees du traitement de texte (en dautres mots que ce soient de vrais tableaux et non des chaicircnes de texte seacutepareacutees par des tabulations par exemple) Nous analysons agrave leacutetape de la programmation lensemble des codes du traitement de texte les liens entre les apshypels de notes et les notes la largeur relashytive des colonnes des tableaux laligneshy

ment des contenus des cellules des tableaux etc et nous reproduisons cette information dans les documents SGML Au besoin certains composants doivent ecirctre reacuteordonneacutes (par exemple si lauteur a ajouteacute son reacutesumeacute agrave la fin on devra le repishyquer au deacutebut du document agrave la suite des eacuteleacutements de titres et dauteurs tel que le preacutevoit la DTD)

Nous avons deacuteveloppeacute un modegravele de document pour chacune des revues Ces modegraveles contiennent en moyenne de 30 agrave 50 styles diffeacuterents en fonction du nombre de composants retrouveacutes Parmi ces styles certains sont de type paragraphe (blocs de texte) et dautres de type caracshytegravere (chaicircnes de texte agrave linteacuterieur des blocs)

Leacutetape de mise en styles pourra ecirctre reacutealiseacutee par la personne responsable de la preacuteparation des textes agrave publier soit habishytuellement une personne faisant partie du comiteacute de production de la revue Agrave cet effet nous avons dans le cadre du projet Eacuterudit entrepris de donner des seacuteances de formation personnaliseacutee aux responsashybles des revues lesquelles portaient sur la preacuteparation des documents et lapplication des feuilles de style Notre expeacuterience deacuteshymontre que cette eacutetape est plus facilement reacutealisable par des personnes maicirctrisant bien leur outil de traitement de texte Un certain controcircle de qualiteacute doit ecirctre effecshytueacute sur les premiers documents styleacutes

Une fois styleacute le document servira dintrant (input) agrave leacutetape de conversion SGML Cest pourquoi il doit sagir dune

version finale du texte cest-agrave-dire quil doit ecirctre complet et deacutejagrave comprendre toushytes les corrections neacutecessaires Agrave cet effet nous avons rencontreacute quelques proshyblegravemes puisque le traitement traditionnel des revues comporte une ou plusieurs eacutetashypes de correction deacutepreuves une fois le document mis en page agrave laide dun logishyciel de PAO (tel PageMaker ou XPress) Les corrections sont alors effectueacutees direcshytement dans ces logiciels et ne sont pas reshypiqueacutees dans la copie de traitement de texte initiale Notre systegraveme de traitement preacuteconise une utilisation de fonctionnalishyteacutes approprieacutees du traitement de texte (styles notes tableaux etc) De plus les corrections de nature textuelle (orthoshygraphe et syntaxe de mecircme que la plushypart des corrections de nature typograshyphique) doivent ecirctre faites dans le fichier de traitement de texte Il faut prendre en consideacuteration le fait que ce fichier sert agrave la production de documents darchivage de documents deacuteriveacutes (sommaires tables des matiegraveres listes de reacutesultats de reshycherche etc) ainsi que de plusieurs forshymats de diffusion Ce fichier source de par son contenu et sa structure doit donc ecirctre le plus acheveacute possible Cela exige de la personne qui preacutepare les textes de bonnes connaissances linguistiques et tyshypographiques Les erreurs reacuteveacuteleacutees en aval dans la chaicircne de production doivent ecirctre corrigeacutees dans les fichiers de traiteshyment de texte

168 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Eacutepreuves eacutelectroniques

Depuis la fin du projet Eacuterudit nous avons testeacute linteacutegration du processus de reacutevision des eacutepreuves dans la chaicircne de traitement Dans un processus plus tradishytionnel cette reacutevision se fait habituelleshyment sur les eacutepreuves imprimeacutees des artishycles une fois la mise en page effectueacutee agrave laide de logiciels de PAO Les corrections apporteacutees peuvent ecirctre agrave la fois de nature orthographique syntaxique typograshyphique et peuvent aussi concerner des asshypects du montage La diffusion du mecircme contenu sur plusieurs supports de diffushysion nous amegravene agrave discerner entre les corshyrections devant ecirctre repiqueacutees dans le fishychier initial de traitement de texte (de fashyccedilon agrave ce que lensemble des formats de difshyfusion profitent de ces modifications) des corrections sappliquant uniquement agrave la mise en page papier Nous produisons donc maintenant des laquoeacutepreuves eacutelectronishyques raquo cest-agrave-dire des sorties imprimeacutees obtenues agrave partir dun logiciel de PAO soit FrameMaker+SGML (voir plus loin pour la description de cette eacutetape) sans avoir agrave efshyfectuer dimportantes interventions mashynuelles au niveau du montage Sur ces eacutepreuves sont apporteacutees les corrections se rapportant au texte (et non agrave sa mise en page en vue de limprimeacute) lesquelles seshyront ensuite repiqueacutees dans le fichier Word initial qui servira agrave la reacutegeacuteneacuteration des diffeacuterents formats produits Dans la perspective ougrave plusieurs formats diffeacuteshyrents (SGML HTML PDF) sont produits agrave partir dun mecircme fichier initial on comprenshydra linteacuterecirct deffectuer un maximum de corrections en amont (donc degraves la reacutevision du fichier Word) et non en aval sur un forshymat en particulier plutocirct que sur un autre

Traitement des images

Les illustrations que peuvent comporshyter les articles parviennent habituellement aux responsables des revues sous diffeacuteshyrentes formes photos impressions laser velox etc et plus rarement sous forme eacutelectronique fichiers vectoriel ou bitmap provenant de logiciels graphiques et imashyges numeacuteriseacutees Traditionnellement ces images sont inseacutereacutees dans le texte au moment du montage de la copie agrave imprishymer par le typographe qui les numeacuterise et les retouche ou encore par le technicien de latelier de preacuteimpression qui les reproshyduit par proceacutedeacute photographique

Linteacutegration des images dans la chaicircne de traitement Eacuterudit est de beaushycoup faciliteacutee si ces documents nous parshyviennent en format numeacuterique Les imashyges sont traiteacutees comme des fichiers seacutepashyreacutes qui sont reacutefeacutereacutes agrave partir des docushyments

Les secreacutetariats des revues neacutetant habituellement pas eacutequipeacutes en mateacuteriel et savoir-faire pour manipuler des images ce type dintervention sera effectueacute par le fournisseur de services en loccurrence leacutequipe dEacuterudit Cependant les comiteacutes de revues devraient tenter dobtenir des auteurs autant que faire se peut une vershysion des images en format eacutelectronique Ces images devraient toujours ecirctre de tregraves bonne qualiteacute (avec une haute reacutesolution et si deacutesireacute en couleurs) afin de servir agrave larchivage Cest agrave partir des images de bonne qualiteacute quon effectuera le traiteshyment (surtout des modifications de forshymats de fichiers des baisses de reacutesolushytion des sauvegardes en noir et blanc) en vue des diffeacuterents modes de diffusion (arshychivage Web et imprimeacute) Afin de standarshydiser le processus de traitement des imashyges nous avons eacutetabli des proceacutedures norshymaliseacutees Enfin bien que cela ne se soit pas encore produit un type dintervention de mecircme nature est agrave preacuteconiser pour dautres formats non textuels (videacuteo son images 3D etc)

Nous avons exposeacute dans cette section les diffeacuterents eacuteleacutements portant sur le preacutetraitement des textes soit lapplicashytion des styles et le traitement des images Une fois le document preacutetraiteacute il est precirct agrave ecirctre converti en SGML

Conversion en SGML

Puisque la feuille de style utiliseacutee pour styler les documents a eacuteteacute conccedilue en fonction dun passage efficace vers un doshycument SGML respectant la DTD PUM une conversion relativement automatique est possible Cette conversion qui consiste en linterpreacutetation des informashytions existantes et lajout dinformations deacuteshyriveacutees requiert cependant un outil speacutecialishyseacute Il serait agrave ce point-ci de la discussion important dexpliquer la diffeacuterence entre Une conversion de donneacutees au sens SGML et une traduction de donneacutees

Une traduction est une opeacuteration qui consiste agrave prendre un ensemble de donshyneacutees (information et mise en forme confonshydus) dun format proprieacutetaire et le traduire

en un ensemble eacutequivalent qui peut ecirctre inshyterpreacuteteacute et eacutediteacute dans un autre logiciel utilishysant un format proprieacutetaire (par exemple passer un document de Word agrave WordPershyfect) Au contraire une conversion vers SGML implique deacutetablir un lien entre un document dans un format proprieacutetaire (ougrave la structure logique est habituellement perccedilue de faccedilon visuelle par le lecteur) agrave un document SGML laquointelligentraquo (ougrave la structure logique est codeacutee de faccedilon explishycite suivant une DTD donneacutee)

Une conversion enrichissante (traducshytion libre de up conversion) est une convershysion dun format plat vers un format seacutemanshytique structureacute (par exemple dun format WordPerfect vers un format SGML) ou plus preacuteciseacutement une conversion de donshyneacutees textuelles dun format dencodage arshybitraire vers une instance SGML valide Une conversion appauvrissante (traducshytion libre de down conversion) quant agrave elle consiste en une conversion dun forshymat logique vers un format proprieacutetaire (par exemple dun format SGML vers un format MS Word) Ce type de conversion est la cleacute du succegraves de SGML puisquelle assure une complegravete reacuteutilisation des donshyneacutees Agrave partir dun format SGML la convershysion peut ecirctre facilement automatiseacutee tout en conservant linteacutegriteacute des donneacutees

Il existe plusieurs produits logiciels apshytes agrave convertir des textes dun format agrave un autre Ces produits sont disponibles essenshytiellement sous la forme de programmes ou de solutions parameacutetrables12 Nous avons opteacute pour le langage de programmashytion speacutecialiseacute OmniMarkreg

Nous effectuons la conversion en deux eacutetapes dont la premiegravere est reacutealiseacutee agrave laide dun programme en langage OmnishyMark disponible gratuitement13 La seshyconde eacutetape se charge dajouter une strucshyture seacutemantique normaliseacutee pour la desshycription darticles savants et introduira de linformation suppleacutementaire agrave valeur ajouteacutee Ainsi nous creacuteons sans aucune intervention manuelle des liens entre les appels de reacutefeacuterences dans le texte et les reacutefeacuterences bibliographiques agrave la fin du

12 Pour une liste exhaustive de ce genre de produit consulter la rubrique laquo Conversion Program raquo dans Survey of software for structured text par Eila Kuikka et Erja Nikunen ltURL http www xsukufi~kuikkasys-temshtmlgt

13 Il sagit de RTF2XML (auparavant RTF2SGML) deacuteshyveloppeacute par Rick Geimer ltURLhttpwwwxme-ta comomlettegt

octobre-deacutecembre 1999 169

Documentation et bibliothegraveques

texte Pour ce faire il faut analyser meacuteticu-leusement les syntaxes de reacutefeacuterences utilishyseacutees par chaque revue [par exemple laquo(Vaugeois et Hubert 1993a)raquo ou laquo(Va-Hu93a) raquo] afin deacutetablir des patrons de reshyconnaissance sur lesquels on peut enshysuite bacirctir des regravegles de programmation Cette deuxiegraveme eacutetape est effectueacutee par un programme en langage OmniMark reacutealiseacute dans le cadre du projet Eacuterudit

Formats de diffusion

Les formats de diffusion choisis doishyvent permettre de satisfaire les habitudes de lecture et les besoins de consultation qui diffegraverent dun usager agrave lautre Ainsi nous preacuteconisons la diffusion des docushyments en plusieurs formats Notre modegravele de diffusion est baseacute sur le document dans sa version SGML Ce document eacutelecshytronique unique constitue la source de plushysieurs sous-produits qui sont autant de forshymats de sortie possibles Les supports de diffusion qui sont compatibles avec ces forshymats sont divers diffusion en ligne (Web) diffusion sur ceacutedeacuterom diffusion sur papier Dans le cadre du projet Eacuterudit nous avons consideacutereacute trois formats de sortie (HTML SGML et PDF) Nous avons eacutegalement deacuteshycideacute deacute rendre disponible le format SGML ce dernier se precirctant tregraves bien agrave la consulshytation dans la mesure ougrave les navigateurs SGML sont capables dexploiter la strucshyture des documents de faccedilon agrave offrir un enshyvironnement de lecture plus sophistiqueacute et complet Enfin le format PDF permet la difshyfusion de documents eacutelectroniques reproshyduisant la mise en page choisie par les difshyfuseurs Ce format est tout agrave fait approprieacute pour limpression agrave distance Nous envisashygeons agrave court terme doffrir eacutegalement le format XML qui peut ecirctre consulteacute agrave laide des versions 5 des navigateurs Internet Explorer et Netscape Navigator

Un principe de base de la philosophie SGML voulant que linformation une fois baliseacutee en SGML puisse ecirctre reacuteutiliseacutee plusieurs fois et cela avec diffeacuterentes sashyveurs tant dans linteacutegraliteacute du contenu (en tout ou en parties) que dans la forme du contenant (dans un format particulier) il est tout naturel de convertir les fichiers SGML en fichiers HTML Il sagit en fait dune conversion SGML (DTD PUM soit la DTD deacuteveloppeacutee aux Presses de lUnishyversiteacute de Montreacuteal pour reacutepondre aux beshysoins de balisage des revues savantes) vers SGML (DTD HTML) Ainsi les artishy

cles sont convertis automatiquement en HTML agrave laide dun autre programme OmniMark Nous produisons de la mecircme faccedilon une table des matiegraveres pour chaque numeacutero de revue Cette table des matiegraveres ne provient pas dun document initial unique saisi sous forme de table des matiegraveres mais plutocirct de la concateacutenation dinformations reacutecupeacutereacutees dans lenshysemble des articles (titres sous-titres auteurs) en format SGML Cest un bon exemple de reacuteutilisation de linformation

Puisque lensemble des documents produits sont baseacutes sur la DTD PUM la conversion du SGML vers le HTML est reacuteashyliseacutee par un seul programme de convershysion pour lensemble des revues Ce proshygramme comporte cependant quelques particulariteacutes de preacutesentation propres agrave chaque revue et dune telle pratique reacuteshysulte une apparence assez semblable pour chacune des revues La fabrication dune signature dune maquette diffeacuterente pour chaque revue est reacutealiseacutee agrave laide dune feuille de style CSS (Cascading Style Sheet) fonction de plus en plus supshyporteacutee par les navigateurs Web

Pour linstant nous stockons sur notre serveur Web la version HTML preacuteshyconvertie Cependant la conversion tant pour les articles que pour la table des mashytiegraveres pourrait aiseacutement ecirctre faite laquoagrave la voleacutee raquo (on the fy) puisquil ny a aucune inshytervention manuelle sur les fichiers HTML On pourrait facilement faire en sorte quau moment ougrave lutilisateur par le biais de son client Web fait la demande dun fichier HTML (par exemple un article donneacute) le serveur (sur lequel serait installeacute OmnishyMark) convertisse leacute fichier SGML en fishychier HTML Ceci aurait pour avantage doccuper moins despace disque (environ la moitieacute de moins puisque seule la vershysion SGML serait stockeacutee et que le rapport SGMLHTML doit plus ou moins ecirctre eacutegal agrave 1 ) Il resterait agrave sassurer de deacutelais de reacuteshyponses acceptables

SGML

Les utilisateurs peuvent visionner les documents SGML agrave laide de Panorama Viewer de Interleaf14 un navigateur SGML qui sinstalle comme module exshyterne (plug-in) dun navigateur Web tel Netscape Navigator

Panorama Viewer permet de creacuteer des liens entre diffeacuterentes parties des doshycuments ou diffeacuterents documents Il pershy

met eacutegalement de preacutesenter des tables des matiegraveres dynamiques qui constituent des aides agrave la navigation Une autre foncshytion de Panorama offre la possibiliteacute danshynoter nimporte quelle partie dun docushyment y compris une zone dune figure deacuteshytermineacutee par le lecteur Enfin il permet dajouter des signets dans un document

La diffusion des articles en format SGML requiert peu defforts puisquil sagit du format natif des documents Pour ecirctre plus exact nous diffusons une vershysion SGML agrave peine diffeacuterente de la version produite lors de leffort de conversion enshyrichie deacutecrite preacuteceacutedemment Cette diffeacuteshyrence minime tient exclusivement agrave la non-reconnaissance par le navigateur SGML de certains caractegraveres eacutetrangers et symshyboles particuliers Panorama Viewer eacutetant en mesure de lire du SGML il faut simpleshyment lui indiquer la mise en forme propre aux diffeacuterents eacuteleacutements rencontreacutes Ces instructions de formatage sont donneacutees sous la forme dune feuille de style La creacuteation dune feuille de style ne seffectue normalement quune seule fois par revue (voire mecircme par DTD utiliseacutee si on deacutesire des produits normaliseacutes et identiques) Ainsi nous avons creacuteeacute des feuilles de style et des formats de tables des matiegraveres dyshynamiques (navigators) pour chaque revue de maniegravere agrave donner agrave chacune une signashyture caracteacuteristique

PDF

Linteacuterecirct du PDF reacuteside dans lobtenshytion dun document eacutelectronique arborant un format de preacutesentation semblable agrave limshyprimeacute Un tel format permet aux lecteurs dimprimer une version laquomise en page papierraquo des articles diffuseacutes en ligne Les navigateurs SGML ou HTML dont nous avons discuteacute preacuteceacutedemment permettent eacutegalement limpression mais la qualiteacute de la mise en page nest pas aussi complexe et soigneacutee puisque les feuilles de style des navigateurs Web sont destineacutees avant tout agrave la preacutesentation agrave leacutecran Notons cepenshydant quil existe des feuilles de style (CSS et XSL) normaliseacutees ougrave on a preacutevu une mise en page sophistiqueacutee en fonction de diffeacuterents meacutedias (eacutecran terminal reacuteduit imprimeacute synthegravese vocale) Agrave moyen terme on pourrait entrevoir que les

14 ltURL http wwwinterleafcomPanoramapa -ge3htmlgt

170 octobre-deacutecembre 1999

Documentation et bibliothegraveques

formats HTML et PDF seront remplaceacutes par un seul document source XML coupleacute agrave des feuilles de style qui seront fonction du meacutedia employeacute

laquo La grande majoriteacute des logiciels de PAO sur le marcheacute (les plus connus eacutetant PageMaker et Xpress) permettent une saushyvegarde en format PDF pour diffusion sur le Web Ces logiciels ne sont cependant pas en mesure de lire en intrant input) un fichier SGML ni de linterpreacuteter correcteshyment Il existe toutefois des outils perforshymants capables agrave la fois de prendre en inshytrant du SGML et de permettre une mise en page professionnelle (FrameMaker+ SGML^ocirce Adobe Interleaf 6 SGMLtrade de la compagnie Interleaf et ADEPT Publisshyher17 reacutealiseacute par ArborText) Il sagit touteshyfois de produits dispendieux et assez comshyplexes agrave manipuler

Notre choix sest arrecircteacute sur le logiciel FrameMaker+SGML en raison de son coucirct abordable et de sa plus grande facilishyteacute de parameacutetrage FrameMaker+SGML permet la creacuteation la modification et la pushyblication de documents SGML dans un enshyvironnement convivial Dans le cadre du projet Eacuterudit nous utilisons uniquement les fonctionnaliteacutes dimportation du SGML et de mise en page sophistiqueacutees offertes par loutil Il sagit ici aussi de deacutefinir un meacutecanisme dapplication de style pour chaque eacuteleacutement en fonction de son contexte SGML Cette feuille de style est dirigeacutee vers la mise en page sur papier (et non agrave leacutecran) et agrave cet effet FrameMashyker+SGML offre la possibiliteacute de parameacuteshytrer plusieurs des caracteacuteristiques requishyses par limprimeacute (par exemple la gestion des veuves et orphelins des paragraphes solidaires les colonnes multiples les noshytes en bas de page les patrons de ceacutesure approprieacutes agrave la fin des lignes les formes des en-tecirctes et bas de pages etc)

Chaque revue possegravede une feuille de style diffeacuterente laquelle a eacuteteacute conccedilue en se basant sur la maquette de la forme imshyprimeacutee deacutejagrave existante des revues particishypantes Les fonctionnaliteacutes de FrameMashyker+SGML nous permettent sans difficulteacute de reproduire de faccedilon presque identique laspect habituel des revues Lapplication dune feuille de style exhaustive et bien conccedilue (quon arrive geacuteneacuteralement agrave obteshynir apregraves un processus de reacuteajustement lors des premiegraveres productions) permet dautomatiser agrave 90 le montage du docushyment ce qui constitue un excellent rendeshyment On doit toutefois faire certaines intershy

ventions manuellement afin de compleacuteter le travail (par exemple deacuteplacer des figushyres condenser lespacement du texte ccedila et lagrave pour forcer un saut de page fractionshyner des notes de bas de page trop lonshygues etc)

Une fois le document monteacute avec FrashymeMaker+SGML il ne reste quagrave produire une version PDF agrave laide du logiciel Acroshybat de Adobe Il sagit lagrave dune opeacuteration sans grande difficulteacute quon peut apparenshyter agrave un simple laquosauvegarder sous PDFraquo On peut ainsi produire un premier fichier PDF de faible reacutesolution destineacute agrave ecirctre vishysionneacute sur le Web et un second fichier PDF de meilleure reacutesolution (ou encore un fichier PostScript) pouvant ecirctre achemineacute agrave latelier de preacutepresse en vue de limpresshysion des exemplaires papier

Pour les usagers la consultation des documents PDF se fait avec le logiciel Acrobat Reader qui existe comme moshydule externe (plug-in) pour les navigateurs Web On peut consulter les documents PDF agrave leacutecran avec ce logiciel mais ils sont plutocirct destineacutes agrave ecirctre imprimeacutes localeshyment par les usagers

Dans le cadre du projet Eacuterudit nous avons produit uniquement des documents PDF destineacutes au Web agrave raison dun fichier unique par article (et non dun fichier regroushypant tout un numeacutero dune revue) puisque les revues poursuivaient pendant la mecircme peacuteriode le traitement habituel pour la proshyduction de la version imprimeacutee de la revue

Diffusion sur le Web

Pour diffuser des documents sur le Web nous avons creacuteeacute un site Web18 heacuteshybergeacute sur notre serveur Web Ce site est la porte dentreacutee principale pour laccegraves aux articles

La diffusion en ligne (et eacutegalement sur ceacutedeacuterom) permet pour le lecteur dacshyceacuteder aux textes agrave laide dun outil de reshycherche Pour ce faire on doit implanter un outil de recherche en texte inteacutegral qui peut indexer des documents SGML tout en conservant linformation sur la strucshyture de faccedilon agrave permettre aux usagers dexprimer des contraintes sur la structure dans leurs requecirctes On peut par exemple preacuteciser la recherche de textes comporshytant le nom dun chercheur mais uniqueshyment lorsque celui-ci se retrouve dans une bibliographie et non en tant quauteur de larticle Dans le cadre du projet Eacuterudit nous avons installeacute sur le site Web un

prototype de moteur de recherche qui doit encore ecirctre ameacutelioreacute La collection indexeacutee comprend lensemble des articles ayant eacuteteacute publieacutes par les revues pendant la dureacutee du projet pilote Il sagit dun mode daccegraves au texte tregraves performant que seule la version eacutelectronique permet dobtenir

Recommandations

Dans la mesure ougrave notre mandat consistait moins en la mise au point dune solution theacuteoriquement optimale quen la conception dune chaicircne de traitement adapteacutee aux besoins du projet (reproducshytion de la forme papier deacutejagrave existante imshypossibiliteacute dintervenir en amont de la chaicircne de production optimisation du traishytement par ladoption dune DTD unique production de divers formats de diffusion) nous avons opteacute pour une solution compreshynant plusieurs sorties intermeacutediaires et cela de faccedilon agrave atteindre de bons reacutesulshytats en matiegravere dautomatisation et de quashyliteacute des textes produits Nous estimons avoir atteint agrave 95 ces objectifs de producshytion

Il va sans dire que la DTD a ducirc ecirctre constamment remanieacutee afin de sadapter agrave lensemble des documents agrave produire Nous avons ducirc opter pour une DTD qui au fur et agrave mesure de lavancement du projet devenait plus permissive de maniegravere agrave geacuteshyneacuterer en bout de ligne du SGML valide respectant linteacutegriteacute et la preacutesentation des contenus des articles

Le projet Eacuterudit aura mis en lumiegravere lextrecircme importance dans une perspecshytive dautomatisation des opeacuterations de la chaicircne documentaire de deacutefinir une strucshyture une preacutesentation et dans une cershytaine mesure un contenu normaliseacute des documents agrave traiter La production mecircme de textes destineacutes agrave ecirctre baliseacutes en SGML peut donc faire lobjet de certaines recomshymandations dont plusieurs savegraverent applishycables dans une optique de sensibilisation des comiteacutes de revues et de formation du personnel chargeacute de la reacutevision et de la correction des textes Cest ainsi quil y aushyrait lieu de deacutefinir (ou renforcer) pour chaque revueraquo un modegravele normaliseacute quant

15 ltURL http wwwadobecomprodindexframe makerprodinfosgmlhtmlgt

16 ltUEL http wwwinterleafcomproducts p_sgmlhtmlgt

17 ltURL http wwwarbortextcomProducts AcircDEPT_Seriesadept_serieshtmlgt

18 ltURLhttpwwweruditorggt

octobre-deacutecembre 1999 171

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999

Page 7: De l’imprimé vers l’électronique : réflexions et solutions

Documentation et bibliothegraveques

bien des cas pour y arriver la meilleure meacutethode consiste probablement en la creacuteation dune nouvelle revue savante pushyrement eacutelectronique dans une discipline qui se precircte bien agrave la diffusion de diffeacuterents types dinformation

Conclusion sur les modegraveles techniques de publication

Cette premiegravere partie avait pour objecshytif de preacutesenter les diffeacuterentes techniques relieacutees agrave leacutedition eacutelectronique Nous avons surtout chercheacute agrave montrer que sans un modegravele technologique solide et orienteacute vers le document eacutelectronique et la reacuteutilishysation de linformation il est impossible dexploiter un tant soit peu les possibiliteacutes des documents eacutelectroniques Les asshypects importants de ce modegravele sont les meacutethodes de production et les formats de documents (pour la gestion la diffusion et la conservation) et ils doivent mener agrave une exploitation optimale des possibiliteacutes de leacutelectronique Heureusement un tel modegravele existe et il a eacuteteacute expeacuterimenteacute dans le cadre du projet Eacuterudit Il sagit de baser la chaicircne de traitement sur un document structureacute en format XML agrave partir duquel les diffeacuterents formats de diffusion y comshypris sur support imprimeacute sont produits (dautres eacutediteurs sont aussi arriveacutes agrave cette conclusion voir entre autres Kasdorf 1998) Les deacutetails techniques de ce moshydegravele seront preacutesenteacutes dans la seconde partie

Lexistence dun tel modegravele ne signifie malheureusement pas labsence de tout problegraveme ou la reacutealisation sans douleur de projets deacutedition eacutelectronique Les veacuteritashybles documents eacutelectroniques qui inshycluent de linformation dynamique et intershyactive sont des objets avec lesquels on doit continuer agrave se familiariser afin de troushyver des applications et des formats adeacuteshyquats Mais surtout il est important de reshyvoir notre conception de ce quest un docushyment et de le consideacuterer plutocirct comme une interface agrave un reacuteservoir dinformation Dune part linterface peut ecirctre individuashyliseacutee pour chaque utilisateur agrave chaque consultation dautre part le reacuteservoir dinshyformation peut ecirctre en constante modificashytion Cela demande un changement de culshyture important chez les eacutediteurs et les aushyteurs et agrave un degreacute moindre chez les lecshyteurs-utilisateurs Ce changement sexshyprime bien entendu par de nouvelles chaicircnes de traitement ou de nouveaux moshy

degraveles techniques mais il doit eacutegalement sexprimer par de nouvelles mentaliteacutes

Preacutesentation dune chaicircne de traitement lexemple du projet Eacuterudit

Lhistoire nous a montreacute que tout noushyveau meacutedia a deacutebuteacute en tentant dabord de calquer un moyen de diffusion existant Eacuteventuellement ce nouveau meacutedia eacutevolue et arrive agrave se deacutefinir et agrave deacutevelopshyper ses propres caracteacuteristiques devenant ainsi reacuteellement novateur Ainsi pour la plupart des initiatives et des innovations dans le domaine de la publication scientishyfique le modegravele de lagrave revue savante sur le Web commence par une transposition du modegravele imprimeacute deacutejagrave existant

Pour en assurer la reacuteussite la laquotransishytion raquo du format papier agrave leacutelectronique imshyplique dune part de travailler selon des faccedilons de faire deacutejagrave existantes et dautre part de graduellement en implanter de nouvelles propres aux impeacuteratifs et aux possibiliteacutes dun traitement eacutelectronique Dans le cadre du projet pilote Eacuterudit cette nouvelle chaicircne de production a eacuteteacute reacuteashyliseacutee parallegravelement au processus de proshyduction courant des revues Il a eacuteteacute eacutetabli quon tenterait de reproduire le plus fidegraveleshyment possible la signature (apparence) et la structure (construction) quaffichait la forme imprimeacutee des revues participantes afin dassurer une transition en douceur de mecircme que pour respecter linteacutegriteacute des contenus Dun point de vue techshynique cela sapparente agrave faire un traiteshyment reacutetrospectif des documents puisque aucune intervention de notre part ne poushyvait ecirctre faite preacutealablement ou parallegraveleshyment agrave la creacuteation du document Ainsi la meacutethodologie mise en place et exposeacutee ici est-elle le fruit dun meacutelange de condishytions de contraintes et de possibiliteacutes dicshyteacutees par cette situation Cette meacutethodoshylogie on le comprendra aiseacutement est bien diffeacuterente de celle qui pourrait ecirctre mise en place pour la production dune revue unishyquement eacutelectronique et cela serait daushytant plus vrai sil sagissait dune toute noushyvelle revue Dans ce dernier cas toutes les conventions et interventions neacutecessaishyres agrave la production dune revue eacutelectroshynique peuvent ecirctre consideacutereacutees et implanshy

teacutees degraves le deacutebut de sa conception Nous devons aussi souligner que

cette chaicircne est baseacutee sur la norme SGML mais en fait elle pourrait tregraves bien lecirctre sur XML la norme plus reacutecente En effet aucune fonctionnaliteacute de SGML non preacutesente dans XML na eacuteteacute utiliseacutee Par conseacutequent dans la description qui suit les expressions laquoSGMLraquo et laquoXMLraquo sont interchangeables

Deacutefinition du type de document (DTD)

Au deacutebut dun projet baseacute sur SGML le choix ou la creacuteation dune Deacutefinition du type de document (DTD) est une eacutetape prishymordiale La DTD est le fondement dune application SGML Cest elle qui deacutetershymine de quelle faccedilon les documents seront repreacutesenteacutes les traitements qui seront possibles etc En quelque sorte il sagit du veacuteritable laquoformatraquo des docushyments Les reacuteponses aux questions suishyvantes orienteront la creacuteation ou le choix dune DTD

bull Quels sont les types de documents agrave traiter Quels sont les types de docushyments semblables

bull Quelles sont les composantes structurelles des documents Quels sont les autres types deacuteleacutements logiques appashyraissant dans chaque type de document

bull En plus des contenus textuels quelshyles autres informations ou proprieacuteteacutes peuvent ecirctre assigneacutees agrave chaque type deacuteleacutement

laquoQuelles sont les relations logiques entre chacun des eacuteleacutements

bull Que veut-on faire de linformation Quelles sont les types de structures et de relations que lon veut encoder dans le balishysage SGML de faccedilon agrave pouvoir reacutepondre aux besoins deacutechange (partage) de repeacuteshyrage de diffusion et de reacuteutilisation de linshyformation

Cet exercice en est un danalyse de besoins en fonction des coucircts encourus et des beacuteneacutefices retireacutes Ainsi un balisage fin et hautement structureacute insufflant de ce fait une laquointelligenceraquo aux documents pershymettra une exploitation plus performante des donneacutees tandis quun balisage plus grossier effectueacute agrave moindre coucirct trouvera une possibiliteacute de reacuteutilisation reacuteduite ou demandant certaines interventions

En matiegravere de revues savantes leacutequipe deacutes publications eacutelectroniques

166 octobre-deacutecembre 1999

Documentation et bibliothegraveques

des Presses de lUniversiteacute de Montreacuteal a eu dans des projets anteacuterieurs agrave celui-ci lopportuniteacute deacutetudier la question du choix de la DTD pour ce type de publication8 La DTD IS012083 Article ayant eacuteteacute deacutecreacuteteacutee trop limiteacutee on a jugeacute souhaitable dadapshyter cette derniegravere aux besoins des revues savantes Du noyau de la DTD ISO 12083 auquel on a greffeacute des fragments dautres DTD normaliseacutees mdash CALS (Continuous Acquisition and Life Cycle Support) TEI (Text Encoding Initiative) DTD de la revue Earth Interactions^ mdash nous en sommes arriveacutes agrave creacuteer la DTD des Presses de lUniversiteacute de Montreacuteal (alias DTD PUM) laquelle devait deacutecrire la structure dun arshyticle de peacuteriodique dune revue savante On a eacutegalement proceacutedeacute agrave certains ajouts maison concernant entre autres la gesshytion des diffeacuterentes langues le deacutecoupage des reacutefeacuterences bibliographiques etc

Description des eacutetapes de la chaicircne de traitement

Analyse preacuteliminaire

Avant dutiliser la chaicircne de traiteshyment proprement dite un examen attentif de plusieurs numeacuteros deacutejagrave parus doit ecirctre meneacute pour chaque revue Cet examen doit ecirctre fait pour chaque nouvelle revue Ideacuteashylement lanalyse doit porter sur une peacuteshyriode reacutetrospective suffisamment longue et un nombre de numeacuteros suffisamment important pour englober lensemble des caracteacuteristiques et variations de la revue Cette analyse servira agrave identifier les types de documents (articles comptes rendus notes eacutetudes etc) et leur structure seacuteshymantique10 MHV (titres reacutesumeacutes secshytions subdivisions tableaux eacutequations ilshylustrations citations renvois reacutefeacuterences notes infrapaginales etc)

Cest aussi loccasion dobserver la reacuteshygulariteacute et la conformiteacute de lapplication du protocole de reacutedaction en vigueur ce qui a un impact important sur la qualiteacute En prinshycipe si les documents preacutesentent une structure uniforme et constante (agrave linteacuteshyrieur dun mecircme document et dun docushyment agrave lautre) si le protocole de reacutedaction a ducircment eacuteteacute respecteacute et si leacutetape du choix ou de la creacuteation de la DTD a eacuteteacute bien faite les composants seacutemantiques rencontreacutes leur nombre et lordre dans leshyquel ils se preacutesentent devraient tous ecirctre conformes agrave la DTD Dans la situation ougrave

la correspondance entre la DTD et cershytains eacuteleacutements logiques se retrouvant dans les documents est impossible il faushydra apporter des modifications soit agrave la DTD soit aux documents soit agrave la fois agrave la DTD et aux documents Cette intervention meacuterite une reacuteflexion importante puisshyquelle est lourde de conseacutequences Dans un contexte de conversion reacutetrospective il est impossible dintervenir sur le contenu des documents Les changements agrave la DTD doivent ecirctre faits en consideacuterant un eacuteventail de besoins et non seulement le beshysoin preacutecis qui nous amegravene agrave vouloir modishyfier la DTD Aussi les changements agrave la DTD doivent ecirctre additifs et non correctifs de faccedilon agrave garder une certaine compatibilishyteacute avec les documents produits anteacuterieureshyment agrave ces changements

Outre les modifications de nature seacuteshymantique les amendements doivent sinsshycrire plus largement dans lutilisation soushyhaiteacutee tant agrave court quagrave plus long terme des documents En effet la mise en page en fonction de diffeacuterents meacutedias (papier eacutecran etc) la recherche structureacutee la reacuteushytilisation de certaines parties de docushyments etc deacutependront toutes dune indicashytion SGML (un eacuteleacutement speacutecifique une valeur dattribut etc) En principe cette reacuteshyflexion a ducircment eacuteteacute faite lors de leacutetape du choix ou encore de la conception de la DTD de sorte que les eacuteleacutements logiques devraient tous sharmoniser avec la DTD Cependant puisque aucun controcircle na pu ecirctre exerceacute sur la structuration initiale des documents comme il a eacuteteacute expliqueacute plus haut il se peut que certains eacuteleacutements logishyques ne trouvent pas de correspondance dans la DTD

Il faut eacutegalement discerner les caprishyces de la mise en page papier actuelle faite de faccedilon manuelle la plupart du temps des veacuteritables besoins de discerneshyment visuel des composants logiques Ainsi une information SGML doit ecirctre preacutevue pour faire en sorte quune liste orshydonneacutee soit rendue de faccedilon diffeacuterente dune liste agrave puces On pourra ainsi agrave leacutetape de production dune sortie papier produire respectivement un numeacutero seacuteshyquentiel ou un symbole tel un rond plein (laquo bull raquo) devant chaque item de liste

En theacuteorie la production du SGML et les ajustements agrave la DTD ne devraient pas ecirctre faits en fonction des limites des outils employeacutes cependant en pratique on ne peut ignorer cet aspect Par exemple une formule matheacutematique peut ecirctre finement

baliseacutee selon un modegravele de DTD approshyprieacute (fonction numeacuterateur deacutenominateur arguments etc) En pratique cependant plusieurs logiciels de notre chaicircne de traishytement ne peuvent reconnaicirctre et traiter adeacutequatement une formule reproduite sous cette forme On se rabattra alors sur une repreacutesentation graphique de la forshymule cest-agrave-dire linsertion dun fichier image Ceci peut demander des modificashytions agrave la DTD Autre exemple lemploi de jeux de caractegraveres eacutetrangers bien quils puissent ecirctre repreacutesenteacutes en SGML (entre autres par lemploi dentiteacutes caractegraveres coshydeacutees en Unicode11) peut nous faire renshycontrer les limites des outils de traitement Ici encore on preacuteconisera une solution de rechange impliquant des modifications au SGML produit et conseacutequemment agrave la DTD Si le nombre de limitations renconshytreacutees par les outils est tregraves important on deacutecidera afin de ne pas laquocorrompreraquo abushysivement la source SGML de produire (aushytomatiquement de preacutefeacuterence) des vershysions SGML transitoires

Nous avons recours agrave une version SGML transitoire pour la production du PDF (une eacutetape plus en aval de la chaicircne qui sera expliqueacutee plus loin) Cette version transitoire sert agrave reacuteordonner et qualifier certains eacuteleacutements de faccedilon agrave accommoshyder certaines caracteacuteristiques propres aux revues (par exemple le fait de preacutesenter les reacutesumeacutes agrave la toute fin de larticle plutocirct quau deacutebut) Elle est produite automatishyquement avec le logiciel OmniMark

Preacutetraitement

Mise en styles et preacuteparation des textes

La chaicircne de traitement proposeacutee comporte une eacutetape de preacutetraitement des documents originaux (Figure 1) Cette

8 Voir Un nouveau modegravele de publication eacutelectronique ltURL http wwwpumumontrealcapubl__electr vision htmlgt

9 ltURL http EarthInteractionsorggt 10 Nous employons dans cet article lexpression laquostrucshy

ture seacutemantiqueraquo pour souligner lorganisation dun document textuel baseacute sur le sens de ses composhysants par opposition agrave leur apparence

11 La norme Unicode est un jeu de caractegraveres eacutetaleacute sur 16 bits ce qui permet la repreacutesentation dun maxishymum de 65 536 caractegraveres diffeacuterents Elle corresshypond au premier plan agrave 2 octets (le BMP Basic Multishylingual Plane) dune norme plus universelle (baseacutee sur 4 octets) soit la norme ISO 10646 Voir ltURL http wwwunicodeorggt

octobre-deacutecembre 1999 167

Documentation et bibliothegraveques

Figure 1 Chaicircne de traitement du projet Eacuterudit

Documents mis en styles (Word)

1 r f bull -

Documents originaux (WordJ

Documents 1 k | ltSfiMI 1

^ 1 wninii 1 mdash

[DTDPUMJ Formats de diffusion 1 HTML

SGML

flHGIiHiB

eacutetape consiste agrave appliquer un ensemble de styles contenus dans un modegravele de doshycument (feuille de style) agrave un document original en format MS Word Utilisation de styles sur des parties de texte inscrit dans le format intrinsegraveque du traitement de texte des codes qui nous permettront daushytomatiser le balisage en SGML

Cest agrave cette eacutetape que lon insuffle une certaine laquointelligenceraquo au document Ainsi le modegravele de document et les styles quil contient ne sont pas destineacutes agrave modishyfier lapparence des documents comme lont dabord penseacute les concepteurs de cette fonctionnaliteacute mais plutocirct agrave identifier certaines parties des documents Par exemple nous chercherons agrave identifier les titres les auteurs les reacutefeacuterences bibliograshyphiques les reacutesumeacutes etc Il est important de comprendre que nous nutiliserons pas les styles agrave des fins de mise en page mais bien didentification des diffeacuterents composhysants du texte

Outre lapplication des styles luniforshymisation et la normalisation des textes doivent ecirctre effectueacutees Ainsi les tashybleaux les listes et les notes infrapagina-les doivent avoir eacuteteacute produits avec les foncshytionnaliteacutes approprieacutees du traitement de texte (en dautres mots que ce soient de vrais tableaux et non des chaicircnes de texte seacutepareacutees par des tabulations par exemple) Nous analysons agrave leacutetape de la programmation lensemble des codes du traitement de texte les liens entre les apshypels de notes et les notes la largeur relashytive des colonnes des tableaux laligneshy

ment des contenus des cellules des tableaux etc et nous reproduisons cette information dans les documents SGML Au besoin certains composants doivent ecirctre reacuteordonneacutes (par exemple si lauteur a ajouteacute son reacutesumeacute agrave la fin on devra le repishyquer au deacutebut du document agrave la suite des eacuteleacutements de titres et dauteurs tel que le preacutevoit la DTD)

Nous avons deacuteveloppeacute un modegravele de document pour chacune des revues Ces modegraveles contiennent en moyenne de 30 agrave 50 styles diffeacuterents en fonction du nombre de composants retrouveacutes Parmi ces styles certains sont de type paragraphe (blocs de texte) et dautres de type caracshytegravere (chaicircnes de texte agrave linteacuterieur des blocs)

Leacutetape de mise en styles pourra ecirctre reacutealiseacutee par la personne responsable de la preacuteparation des textes agrave publier soit habishytuellement une personne faisant partie du comiteacute de production de la revue Agrave cet effet nous avons dans le cadre du projet Eacuterudit entrepris de donner des seacuteances de formation personnaliseacutee aux responsashybles des revues lesquelles portaient sur la preacuteparation des documents et lapplication des feuilles de style Notre expeacuterience deacuteshymontre que cette eacutetape est plus facilement reacutealisable par des personnes maicirctrisant bien leur outil de traitement de texte Un certain controcircle de qualiteacute doit ecirctre effecshytueacute sur les premiers documents styleacutes

Une fois styleacute le document servira dintrant (input) agrave leacutetape de conversion SGML Cest pourquoi il doit sagir dune

version finale du texte cest-agrave-dire quil doit ecirctre complet et deacutejagrave comprendre toushytes les corrections neacutecessaires Agrave cet effet nous avons rencontreacute quelques proshyblegravemes puisque le traitement traditionnel des revues comporte une ou plusieurs eacutetashypes de correction deacutepreuves une fois le document mis en page agrave laide dun logishyciel de PAO (tel PageMaker ou XPress) Les corrections sont alors effectueacutees direcshytement dans ces logiciels et ne sont pas reshypiqueacutees dans la copie de traitement de texte initiale Notre systegraveme de traitement preacuteconise une utilisation de fonctionnalishyteacutes approprieacutees du traitement de texte (styles notes tableaux etc) De plus les corrections de nature textuelle (orthoshygraphe et syntaxe de mecircme que la plushypart des corrections de nature typograshyphique) doivent ecirctre faites dans le fichier de traitement de texte Il faut prendre en consideacuteration le fait que ce fichier sert agrave la production de documents darchivage de documents deacuteriveacutes (sommaires tables des matiegraveres listes de reacutesultats de reshycherche etc) ainsi que de plusieurs forshymats de diffusion Ce fichier source de par son contenu et sa structure doit donc ecirctre le plus acheveacute possible Cela exige de la personne qui preacutepare les textes de bonnes connaissances linguistiques et tyshypographiques Les erreurs reacuteveacuteleacutees en aval dans la chaicircne de production doivent ecirctre corrigeacutees dans les fichiers de traiteshyment de texte

168 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Eacutepreuves eacutelectroniques

Depuis la fin du projet Eacuterudit nous avons testeacute linteacutegration du processus de reacutevision des eacutepreuves dans la chaicircne de traitement Dans un processus plus tradishytionnel cette reacutevision se fait habituelleshyment sur les eacutepreuves imprimeacutees des artishycles une fois la mise en page effectueacutee agrave laide de logiciels de PAO Les corrections apporteacutees peuvent ecirctre agrave la fois de nature orthographique syntaxique typograshyphique et peuvent aussi concerner des asshypects du montage La diffusion du mecircme contenu sur plusieurs supports de diffushysion nous amegravene agrave discerner entre les corshyrections devant ecirctre repiqueacutees dans le fishychier initial de traitement de texte (de fashyccedilon agrave ce que lensemble des formats de difshyfusion profitent de ces modifications) des corrections sappliquant uniquement agrave la mise en page papier Nous produisons donc maintenant des laquoeacutepreuves eacutelectronishyques raquo cest-agrave-dire des sorties imprimeacutees obtenues agrave partir dun logiciel de PAO soit FrameMaker+SGML (voir plus loin pour la description de cette eacutetape) sans avoir agrave efshyfectuer dimportantes interventions mashynuelles au niveau du montage Sur ces eacutepreuves sont apporteacutees les corrections se rapportant au texte (et non agrave sa mise en page en vue de limprimeacute) lesquelles seshyront ensuite repiqueacutees dans le fichier Word initial qui servira agrave la reacutegeacuteneacuteration des diffeacuterents formats produits Dans la perspective ougrave plusieurs formats diffeacuteshyrents (SGML HTML PDF) sont produits agrave partir dun mecircme fichier initial on comprenshydra linteacuterecirct deffectuer un maximum de corrections en amont (donc degraves la reacutevision du fichier Word) et non en aval sur un forshymat en particulier plutocirct que sur un autre

Traitement des images

Les illustrations que peuvent comporshyter les articles parviennent habituellement aux responsables des revues sous diffeacuteshyrentes formes photos impressions laser velox etc et plus rarement sous forme eacutelectronique fichiers vectoriel ou bitmap provenant de logiciels graphiques et imashyges numeacuteriseacutees Traditionnellement ces images sont inseacutereacutees dans le texte au moment du montage de la copie agrave imprishymer par le typographe qui les numeacuterise et les retouche ou encore par le technicien de latelier de preacuteimpression qui les reproshyduit par proceacutedeacute photographique

Linteacutegration des images dans la chaicircne de traitement Eacuterudit est de beaushycoup faciliteacutee si ces documents nous parshyviennent en format numeacuterique Les imashyges sont traiteacutees comme des fichiers seacutepashyreacutes qui sont reacutefeacutereacutes agrave partir des docushyments

Les secreacutetariats des revues neacutetant habituellement pas eacutequipeacutes en mateacuteriel et savoir-faire pour manipuler des images ce type dintervention sera effectueacute par le fournisseur de services en loccurrence leacutequipe dEacuterudit Cependant les comiteacutes de revues devraient tenter dobtenir des auteurs autant que faire se peut une vershysion des images en format eacutelectronique Ces images devraient toujours ecirctre de tregraves bonne qualiteacute (avec une haute reacutesolution et si deacutesireacute en couleurs) afin de servir agrave larchivage Cest agrave partir des images de bonne qualiteacute quon effectuera le traiteshyment (surtout des modifications de forshymats de fichiers des baisses de reacutesolushytion des sauvegardes en noir et blanc) en vue des diffeacuterents modes de diffusion (arshychivage Web et imprimeacute) Afin de standarshydiser le processus de traitement des imashyges nous avons eacutetabli des proceacutedures norshymaliseacutees Enfin bien que cela ne se soit pas encore produit un type dintervention de mecircme nature est agrave preacuteconiser pour dautres formats non textuels (videacuteo son images 3D etc)

Nous avons exposeacute dans cette section les diffeacuterents eacuteleacutements portant sur le preacutetraitement des textes soit lapplicashytion des styles et le traitement des images Une fois le document preacutetraiteacute il est precirct agrave ecirctre converti en SGML

Conversion en SGML

Puisque la feuille de style utiliseacutee pour styler les documents a eacuteteacute conccedilue en fonction dun passage efficace vers un doshycument SGML respectant la DTD PUM une conversion relativement automatique est possible Cette conversion qui consiste en linterpreacutetation des informashytions existantes et lajout dinformations deacuteshyriveacutees requiert cependant un outil speacutecialishyseacute Il serait agrave ce point-ci de la discussion important dexpliquer la diffeacuterence entre Une conversion de donneacutees au sens SGML et une traduction de donneacutees

Une traduction est une opeacuteration qui consiste agrave prendre un ensemble de donshyneacutees (information et mise en forme confonshydus) dun format proprieacutetaire et le traduire

en un ensemble eacutequivalent qui peut ecirctre inshyterpreacuteteacute et eacutediteacute dans un autre logiciel utilishysant un format proprieacutetaire (par exemple passer un document de Word agrave WordPershyfect) Au contraire une conversion vers SGML implique deacutetablir un lien entre un document dans un format proprieacutetaire (ougrave la structure logique est habituellement perccedilue de faccedilon visuelle par le lecteur) agrave un document SGML laquointelligentraquo (ougrave la structure logique est codeacutee de faccedilon explishycite suivant une DTD donneacutee)

Une conversion enrichissante (traducshytion libre de up conversion) est une convershysion dun format plat vers un format seacutemanshytique structureacute (par exemple dun format WordPerfect vers un format SGML) ou plus preacuteciseacutement une conversion de donshyneacutees textuelles dun format dencodage arshybitraire vers une instance SGML valide Une conversion appauvrissante (traducshytion libre de down conversion) quant agrave elle consiste en une conversion dun forshymat logique vers un format proprieacutetaire (par exemple dun format SGML vers un format MS Word) Ce type de conversion est la cleacute du succegraves de SGML puisquelle assure une complegravete reacuteutilisation des donshyneacutees Agrave partir dun format SGML la convershysion peut ecirctre facilement automatiseacutee tout en conservant linteacutegriteacute des donneacutees

Il existe plusieurs produits logiciels apshytes agrave convertir des textes dun format agrave un autre Ces produits sont disponibles essenshytiellement sous la forme de programmes ou de solutions parameacutetrables12 Nous avons opteacute pour le langage de programmashytion speacutecialiseacute OmniMarkreg

Nous effectuons la conversion en deux eacutetapes dont la premiegravere est reacutealiseacutee agrave laide dun programme en langage OmnishyMark disponible gratuitement13 La seshyconde eacutetape se charge dajouter une strucshyture seacutemantique normaliseacutee pour la desshycription darticles savants et introduira de linformation suppleacutementaire agrave valeur ajouteacutee Ainsi nous creacuteons sans aucune intervention manuelle des liens entre les appels de reacutefeacuterences dans le texte et les reacutefeacuterences bibliographiques agrave la fin du

12 Pour une liste exhaustive de ce genre de produit consulter la rubrique laquo Conversion Program raquo dans Survey of software for structured text par Eila Kuikka et Erja Nikunen ltURL http www xsukufi~kuikkasys-temshtmlgt

13 Il sagit de RTF2XML (auparavant RTF2SGML) deacuteshyveloppeacute par Rick Geimer ltURLhttpwwwxme-ta comomlettegt

octobre-deacutecembre 1999 169

Documentation et bibliothegraveques

texte Pour ce faire il faut analyser meacuteticu-leusement les syntaxes de reacutefeacuterences utilishyseacutees par chaque revue [par exemple laquo(Vaugeois et Hubert 1993a)raquo ou laquo(Va-Hu93a) raquo] afin deacutetablir des patrons de reshyconnaissance sur lesquels on peut enshysuite bacirctir des regravegles de programmation Cette deuxiegraveme eacutetape est effectueacutee par un programme en langage OmniMark reacutealiseacute dans le cadre du projet Eacuterudit

Formats de diffusion

Les formats de diffusion choisis doishyvent permettre de satisfaire les habitudes de lecture et les besoins de consultation qui diffegraverent dun usager agrave lautre Ainsi nous preacuteconisons la diffusion des docushyments en plusieurs formats Notre modegravele de diffusion est baseacute sur le document dans sa version SGML Ce document eacutelecshytronique unique constitue la source de plushysieurs sous-produits qui sont autant de forshymats de sortie possibles Les supports de diffusion qui sont compatibles avec ces forshymats sont divers diffusion en ligne (Web) diffusion sur ceacutedeacuterom diffusion sur papier Dans le cadre du projet Eacuterudit nous avons consideacutereacute trois formats de sortie (HTML SGML et PDF) Nous avons eacutegalement deacuteshycideacute deacute rendre disponible le format SGML ce dernier se precirctant tregraves bien agrave la consulshytation dans la mesure ougrave les navigateurs SGML sont capables dexploiter la strucshyture des documents de faccedilon agrave offrir un enshyvironnement de lecture plus sophistiqueacute et complet Enfin le format PDF permet la difshyfusion de documents eacutelectroniques reproshyduisant la mise en page choisie par les difshyfuseurs Ce format est tout agrave fait approprieacute pour limpression agrave distance Nous envisashygeons agrave court terme doffrir eacutegalement le format XML qui peut ecirctre consulteacute agrave laide des versions 5 des navigateurs Internet Explorer et Netscape Navigator

Un principe de base de la philosophie SGML voulant que linformation une fois baliseacutee en SGML puisse ecirctre reacuteutiliseacutee plusieurs fois et cela avec diffeacuterentes sashyveurs tant dans linteacutegraliteacute du contenu (en tout ou en parties) que dans la forme du contenant (dans un format particulier) il est tout naturel de convertir les fichiers SGML en fichiers HTML Il sagit en fait dune conversion SGML (DTD PUM soit la DTD deacuteveloppeacutee aux Presses de lUnishyversiteacute de Montreacuteal pour reacutepondre aux beshysoins de balisage des revues savantes) vers SGML (DTD HTML) Ainsi les artishy

cles sont convertis automatiquement en HTML agrave laide dun autre programme OmniMark Nous produisons de la mecircme faccedilon une table des matiegraveres pour chaque numeacutero de revue Cette table des matiegraveres ne provient pas dun document initial unique saisi sous forme de table des matiegraveres mais plutocirct de la concateacutenation dinformations reacutecupeacutereacutees dans lenshysemble des articles (titres sous-titres auteurs) en format SGML Cest un bon exemple de reacuteutilisation de linformation

Puisque lensemble des documents produits sont baseacutes sur la DTD PUM la conversion du SGML vers le HTML est reacuteashyliseacutee par un seul programme de convershysion pour lensemble des revues Ce proshygramme comporte cependant quelques particulariteacutes de preacutesentation propres agrave chaque revue et dune telle pratique reacuteshysulte une apparence assez semblable pour chacune des revues La fabrication dune signature dune maquette diffeacuterente pour chaque revue est reacutealiseacutee agrave laide dune feuille de style CSS (Cascading Style Sheet) fonction de plus en plus supshyporteacutee par les navigateurs Web

Pour linstant nous stockons sur notre serveur Web la version HTML preacuteshyconvertie Cependant la conversion tant pour les articles que pour la table des mashytiegraveres pourrait aiseacutement ecirctre faite laquoagrave la voleacutee raquo (on the fy) puisquil ny a aucune inshytervention manuelle sur les fichiers HTML On pourrait facilement faire en sorte quau moment ougrave lutilisateur par le biais de son client Web fait la demande dun fichier HTML (par exemple un article donneacute) le serveur (sur lequel serait installeacute OmnishyMark) convertisse leacute fichier SGML en fishychier HTML Ceci aurait pour avantage doccuper moins despace disque (environ la moitieacute de moins puisque seule la vershysion SGML serait stockeacutee et que le rapport SGMLHTML doit plus ou moins ecirctre eacutegal agrave 1 ) Il resterait agrave sassurer de deacutelais de reacuteshyponses acceptables

SGML

Les utilisateurs peuvent visionner les documents SGML agrave laide de Panorama Viewer de Interleaf14 un navigateur SGML qui sinstalle comme module exshyterne (plug-in) dun navigateur Web tel Netscape Navigator

Panorama Viewer permet de creacuteer des liens entre diffeacuterentes parties des doshycuments ou diffeacuterents documents Il pershy

met eacutegalement de preacutesenter des tables des matiegraveres dynamiques qui constituent des aides agrave la navigation Une autre foncshytion de Panorama offre la possibiliteacute danshynoter nimporte quelle partie dun docushyment y compris une zone dune figure deacuteshytermineacutee par le lecteur Enfin il permet dajouter des signets dans un document

La diffusion des articles en format SGML requiert peu defforts puisquil sagit du format natif des documents Pour ecirctre plus exact nous diffusons une vershysion SGML agrave peine diffeacuterente de la version produite lors de leffort de conversion enshyrichie deacutecrite preacuteceacutedemment Cette diffeacuteshyrence minime tient exclusivement agrave la non-reconnaissance par le navigateur SGML de certains caractegraveres eacutetrangers et symshyboles particuliers Panorama Viewer eacutetant en mesure de lire du SGML il faut simpleshyment lui indiquer la mise en forme propre aux diffeacuterents eacuteleacutements rencontreacutes Ces instructions de formatage sont donneacutees sous la forme dune feuille de style La creacuteation dune feuille de style ne seffectue normalement quune seule fois par revue (voire mecircme par DTD utiliseacutee si on deacutesire des produits normaliseacutes et identiques) Ainsi nous avons creacuteeacute des feuilles de style et des formats de tables des matiegraveres dyshynamiques (navigators) pour chaque revue de maniegravere agrave donner agrave chacune une signashyture caracteacuteristique

PDF

Linteacuterecirct du PDF reacuteside dans lobtenshytion dun document eacutelectronique arborant un format de preacutesentation semblable agrave limshyprimeacute Un tel format permet aux lecteurs dimprimer une version laquomise en page papierraquo des articles diffuseacutes en ligne Les navigateurs SGML ou HTML dont nous avons discuteacute preacuteceacutedemment permettent eacutegalement limpression mais la qualiteacute de la mise en page nest pas aussi complexe et soigneacutee puisque les feuilles de style des navigateurs Web sont destineacutees avant tout agrave la preacutesentation agrave leacutecran Notons cepenshydant quil existe des feuilles de style (CSS et XSL) normaliseacutees ougrave on a preacutevu une mise en page sophistiqueacutee en fonction de diffeacuterents meacutedias (eacutecran terminal reacuteduit imprimeacute synthegravese vocale) Agrave moyen terme on pourrait entrevoir que les

14 ltURL http wwwinterleafcomPanoramapa -ge3htmlgt

170 octobre-deacutecembre 1999

Documentation et bibliothegraveques

formats HTML et PDF seront remplaceacutes par un seul document source XML coupleacute agrave des feuilles de style qui seront fonction du meacutedia employeacute

laquo La grande majoriteacute des logiciels de PAO sur le marcheacute (les plus connus eacutetant PageMaker et Xpress) permettent une saushyvegarde en format PDF pour diffusion sur le Web Ces logiciels ne sont cependant pas en mesure de lire en intrant input) un fichier SGML ni de linterpreacuteter correcteshyment Il existe toutefois des outils perforshymants capables agrave la fois de prendre en inshytrant du SGML et de permettre une mise en page professionnelle (FrameMaker+ SGML^ocirce Adobe Interleaf 6 SGMLtrade de la compagnie Interleaf et ADEPT Publisshyher17 reacutealiseacute par ArborText) Il sagit touteshyfois de produits dispendieux et assez comshyplexes agrave manipuler

Notre choix sest arrecircteacute sur le logiciel FrameMaker+SGML en raison de son coucirct abordable et de sa plus grande facilishyteacute de parameacutetrage FrameMaker+SGML permet la creacuteation la modification et la pushyblication de documents SGML dans un enshyvironnement convivial Dans le cadre du projet Eacuterudit nous utilisons uniquement les fonctionnaliteacutes dimportation du SGML et de mise en page sophistiqueacutees offertes par loutil Il sagit ici aussi de deacutefinir un meacutecanisme dapplication de style pour chaque eacuteleacutement en fonction de son contexte SGML Cette feuille de style est dirigeacutee vers la mise en page sur papier (et non agrave leacutecran) et agrave cet effet FrameMashyker+SGML offre la possibiliteacute de parameacuteshytrer plusieurs des caracteacuteristiques requishyses par limprimeacute (par exemple la gestion des veuves et orphelins des paragraphes solidaires les colonnes multiples les noshytes en bas de page les patrons de ceacutesure approprieacutes agrave la fin des lignes les formes des en-tecirctes et bas de pages etc)

Chaque revue possegravede une feuille de style diffeacuterente laquelle a eacuteteacute conccedilue en se basant sur la maquette de la forme imshyprimeacutee deacutejagrave existante des revues particishypantes Les fonctionnaliteacutes de FrameMashyker+SGML nous permettent sans difficulteacute de reproduire de faccedilon presque identique laspect habituel des revues Lapplication dune feuille de style exhaustive et bien conccedilue (quon arrive geacuteneacuteralement agrave obteshynir apregraves un processus de reacuteajustement lors des premiegraveres productions) permet dautomatiser agrave 90 le montage du docushyment ce qui constitue un excellent rendeshyment On doit toutefois faire certaines intershy

ventions manuellement afin de compleacuteter le travail (par exemple deacuteplacer des figushyres condenser lespacement du texte ccedila et lagrave pour forcer un saut de page fractionshyner des notes de bas de page trop lonshygues etc)

Une fois le document monteacute avec FrashymeMaker+SGML il ne reste quagrave produire une version PDF agrave laide du logiciel Acroshybat de Adobe Il sagit lagrave dune opeacuteration sans grande difficulteacute quon peut apparenshyter agrave un simple laquosauvegarder sous PDFraquo On peut ainsi produire un premier fichier PDF de faible reacutesolution destineacute agrave ecirctre vishysionneacute sur le Web et un second fichier PDF de meilleure reacutesolution (ou encore un fichier PostScript) pouvant ecirctre achemineacute agrave latelier de preacutepresse en vue de limpresshysion des exemplaires papier

Pour les usagers la consultation des documents PDF se fait avec le logiciel Acrobat Reader qui existe comme moshydule externe (plug-in) pour les navigateurs Web On peut consulter les documents PDF agrave leacutecran avec ce logiciel mais ils sont plutocirct destineacutes agrave ecirctre imprimeacutes localeshyment par les usagers

Dans le cadre du projet Eacuterudit nous avons produit uniquement des documents PDF destineacutes au Web agrave raison dun fichier unique par article (et non dun fichier regroushypant tout un numeacutero dune revue) puisque les revues poursuivaient pendant la mecircme peacuteriode le traitement habituel pour la proshyduction de la version imprimeacutee de la revue

Diffusion sur le Web

Pour diffuser des documents sur le Web nous avons creacuteeacute un site Web18 heacuteshybergeacute sur notre serveur Web Ce site est la porte dentreacutee principale pour laccegraves aux articles

La diffusion en ligne (et eacutegalement sur ceacutedeacuterom) permet pour le lecteur dacshyceacuteder aux textes agrave laide dun outil de reshycherche Pour ce faire on doit implanter un outil de recherche en texte inteacutegral qui peut indexer des documents SGML tout en conservant linformation sur la strucshyture de faccedilon agrave permettre aux usagers dexprimer des contraintes sur la structure dans leurs requecirctes On peut par exemple preacuteciser la recherche de textes comporshytant le nom dun chercheur mais uniqueshyment lorsque celui-ci se retrouve dans une bibliographie et non en tant quauteur de larticle Dans le cadre du projet Eacuterudit nous avons installeacute sur le site Web un

prototype de moteur de recherche qui doit encore ecirctre ameacutelioreacute La collection indexeacutee comprend lensemble des articles ayant eacuteteacute publieacutes par les revues pendant la dureacutee du projet pilote Il sagit dun mode daccegraves au texte tregraves performant que seule la version eacutelectronique permet dobtenir

Recommandations

Dans la mesure ougrave notre mandat consistait moins en la mise au point dune solution theacuteoriquement optimale quen la conception dune chaicircne de traitement adapteacutee aux besoins du projet (reproducshytion de la forme papier deacutejagrave existante imshypossibiliteacute dintervenir en amont de la chaicircne de production optimisation du traishytement par ladoption dune DTD unique production de divers formats de diffusion) nous avons opteacute pour une solution compreshynant plusieurs sorties intermeacutediaires et cela de faccedilon agrave atteindre de bons reacutesulshytats en matiegravere dautomatisation et de quashyliteacute des textes produits Nous estimons avoir atteint agrave 95 ces objectifs de producshytion

Il va sans dire que la DTD a ducirc ecirctre constamment remanieacutee afin de sadapter agrave lensemble des documents agrave produire Nous avons ducirc opter pour une DTD qui au fur et agrave mesure de lavancement du projet devenait plus permissive de maniegravere agrave geacuteshyneacuterer en bout de ligne du SGML valide respectant linteacutegriteacute et la preacutesentation des contenus des articles

Le projet Eacuterudit aura mis en lumiegravere lextrecircme importance dans une perspecshytive dautomatisation des opeacuterations de la chaicircne documentaire de deacutefinir une strucshyture une preacutesentation et dans une cershytaine mesure un contenu normaliseacute des documents agrave traiter La production mecircme de textes destineacutes agrave ecirctre baliseacutes en SGML peut donc faire lobjet de certaines recomshymandations dont plusieurs savegraverent applishycables dans une optique de sensibilisation des comiteacutes de revues et de formation du personnel chargeacute de la reacutevision et de la correction des textes Cest ainsi quil y aushyrait lieu de deacutefinir (ou renforcer) pour chaque revueraquo un modegravele normaliseacute quant

15 ltURL http wwwadobecomprodindexframe makerprodinfosgmlhtmlgt

16 ltUEL http wwwinterleafcomproducts p_sgmlhtmlgt

17 ltURL http wwwarbortextcomProducts AcircDEPT_Seriesadept_serieshtmlgt

18 ltURLhttpwwweruditorggt

octobre-deacutecembre 1999 171

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999

Page 8: De l’imprimé vers l’électronique : réflexions et solutions

Documentation et bibliothegraveques

des Presses de lUniversiteacute de Montreacuteal a eu dans des projets anteacuterieurs agrave celui-ci lopportuniteacute deacutetudier la question du choix de la DTD pour ce type de publication8 La DTD IS012083 Article ayant eacuteteacute deacutecreacuteteacutee trop limiteacutee on a jugeacute souhaitable dadapshyter cette derniegravere aux besoins des revues savantes Du noyau de la DTD ISO 12083 auquel on a greffeacute des fragments dautres DTD normaliseacutees mdash CALS (Continuous Acquisition and Life Cycle Support) TEI (Text Encoding Initiative) DTD de la revue Earth Interactions^ mdash nous en sommes arriveacutes agrave creacuteer la DTD des Presses de lUniversiteacute de Montreacuteal (alias DTD PUM) laquelle devait deacutecrire la structure dun arshyticle de peacuteriodique dune revue savante On a eacutegalement proceacutedeacute agrave certains ajouts maison concernant entre autres la gesshytion des diffeacuterentes langues le deacutecoupage des reacutefeacuterences bibliographiques etc

Description des eacutetapes de la chaicircne de traitement

Analyse preacuteliminaire

Avant dutiliser la chaicircne de traiteshyment proprement dite un examen attentif de plusieurs numeacuteros deacutejagrave parus doit ecirctre meneacute pour chaque revue Cet examen doit ecirctre fait pour chaque nouvelle revue Ideacuteashylement lanalyse doit porter sur une peacuteshyriode reacutetrospective suffisamment longue et un nombre de numeacuteros suffisamment important pour englober lensemble des caracteacuteristiques et variations de la revue Cette analyse servira agrave identifier les types de documents (articles comptes rendus notes eacutetudes etc) et leur structure seacuteshymantique10 MHV (titres reacutesumeacutes secshytions subdivisions tableaux eacutequations ilshylustrations citations renvois reacutefeacuterences notes infrapaginales etc)

Cest aussi loccasion dobserver la reacuteshygulariteacute et la conformiteacute de lapplication du protocole de reacutedaction en vigueur ce qui a un impact important sur la qualiteacute En prinshycipe si les documents preacutesentent une structure uniforme et constante (agrave linteacuteshyrieur dun mecircme document et dun docushyment agrave lautre) si le protocole de reacutedaction a ducircment eacuteteacute respecteacute et si leacutetape du choix ou de la creacuteation de la DTD a eacuteteacute bien faite les composants seacutemantiques rencontreacutes leur nombre et lordre dans leshyquel ils se preacutesentent devraient tous ecirctre conformes agrave la DTD Dans la situation ougrave

la correspondance entre la DTD et cershytains eacuteleacutements logiques se retrouvant dans les documents est impossible il faushydra apporter des modifications soit agrave la DTD soit aux documents soit agrave la fois agrave la DTD et aux documents Cette intervention meacuterite une reacuteflexion importante puisshyquelle est lourde de conseacutequences Dans un contexte de conversion reacutetrospective il est impossible dintervenir sur le contenu des documents Les changements agrave la DTD doivent ecirctre faits en consideacuterant un eacuteventail de besoins et non seulement le beshysoin preacutecis qui nous amegravene agrave vouloir modishyfier la DTD Aussi les changements agrave la DTD doivent ecirctre additifs et non correctifs de faccedilon agrave garder une certaine compatibilishyteacute avec les documents produits anteacuterieureshyment agrave ces changements

Outre les modifications de nature seacuteshymantique les amendements doivent sinsshycrire plus largement dans lutilisation soushyhaiteacutee tant agrave court quagrave plus long terme des documents En effet la mise en page en fonction de diffeacuterents meacutedias (papier eacutecran etc) la recherche structureacutee la reacuteushytilisation de certaines parties de docushyments etc deacutependront toutes dune indicashytion SGML (un eacuteleacutement speacutecifique une valeur dattribut etc) En principe cette reacuteshyflexion a ducircment eacuteteacute faite lors de leacutetape du choix ou encore de la conception de la DTD de sorte que les eacuteleacutements logiques devraient tous sharmoniser avec la DTD Cependant puisque aucun controcircle na pu ecirctre exerceacute sur la structuration initiale des documents comme il a eacuteteacute expliqueacute plus haut il se peut que certains eacuteleacutements logishyques ne trouvent pas de correspondance dans la DTD

Il faut eacutegalement discerner les caprishyces de la mise en page papier actuelle faite de faccedilon manuelle la plupart du temps des veacuteritables besoins de discerneshyment visuel des composants logiques Ainsi une information SGML doit ecirctre preacutevue pour faire en sorte quune liste orshydonneacutee soit rendue de faccedilon diffeacuterente dune liste agrave puces On pourra ainsi agrave leacutetape de production dune sortie papier produire respectivement un numeacutero seacuteshyquentiel ou un symbole tel un rond plein (laquo bull raquo) devant chaque item de liste

En theacuteorie la production du SGML et les ajustements agrave la DTD ne devraient pas ecirctre faits en fonction des limites des outils employeacutes cependant en pratique on ne peut ignorer cet aspect Par exemple une formule matheacutematique peut ecirctre finement

baliseacutee selon un modegravele de DTD approshyprieacute (fonction numeacuterateur deacutenominateur arguments etc) En pratique cependant plusieurs logiciels de notre chaicircne de traishytement ne peuvent reconnaicirctre et traiter adeacutequatement une formule reproduite sous cette forme On se rabattra alors sur une repreacutesentation graphique de la forshymule cest-agrave-dire linsertion dun fichier image Ceci peut demander des modificashytions agrave la DTD Autre exemple lemploi de jeux de caractegraveres eacutetrangers bien quils puissent ecirctre repreacutesenteacutes en SGML (entre autres par lemploi dentiteacutes caractegraveres coshydeacutees en Unicode11) peut nous faire renshycontrer les limites des outils de traitement Ici encore on preacuteconisera une solution de rechange impliquant des modifications au SGML produit et conseacutequemment agrave la DTD Si le nombre de limitations renconshytreacutees par les outils est tregraves important on deacutecidera afin de ne pas laquocorrompreraquo abushysivement la source SGML de produire (aushytomatiquement de preacutefeacuterence) des vershysions SGML transitoires

Nous avons recours agrave une version SGML transitoire pour la production du PDF (une eacutetape plus en aval de la chaicircne qui sera expliqueacutee plus loin) Cette version transitoire sert agrave reacuteordonner et qualifier certains eacuteleacutements de faccedilon agrave accommoshyder certaines caracteacuteristiques propres aux revues (par exemple le fait de preacutesenter les reacutesumeacutes agrave la toute fin de larticle plutocirct quau deacutebut) Elle est produite automatishyquement avec le logiciel OmniMark

Preacutetraitement

Mise en styles et preacuteparation des textes

La chaicircne de traitement proposeacutee comporte une eacutetape de preacutetraitement des documents originaux (Figure 1) Cette

8 Voir Un nouveau modegravele de publication eacutelectronique ltURL http wwwpumumontrealcapubl__electr vision htmlgt

9 ltURL http EarthInteractionsorggt 10 Nous employons dans cet article lexpression laquostrucshy

ture seacutemantiqueraquo pour souligner lorganisation dun document textuel baseacute sur le sens de ses composhysants par opposition agrave leur apparence

11 La norme Unicode est un jeu de caractegraveres eacutetaleacute sur 16 bits ce qui permet la repreacutesentation dun maxishymum de 65 536 caractegraveres diffeacuterents Elle corresshypond au premier plan agrave 2 octets (le BMP Basic Multishylingual Plane) dune norme plus universelle (baseacutee sur 4 octets) soit la norme ISO 10646 Voir ltURL http wwwunicodeorggt

octobre-deacutecembre 1999 167

Documentation et bibliothegraveques

Figure 1 Chaicircne de traitement du projet Eacuterudit

Documents mis en styles (Word)

1 r f bull -

Documents originaux (WordJ

Documents 1 k | ltSfiMI 1

^ 1 wninii 1 mdash

[DTDPUMJ Formats de diffusion 1 HTML

SGML

flHGIiHiB

eacutetape consiste agrave appliquer un ensemble de styles contenus dans un modegravele de doshycument (feuille de style) agrave un document original en format MS Word Utilisation de styles sur des parties de texte inscrit dans le format intrinsegraveque du traitement de texte des codes qui nous permettront daushytomatiser le balisage en SGML

Cest agrave cette eacutetape que lon insuffle une certaine laquointelligenceraquo au document Ainsi le modegravele de document et les styles quil contient ne sont pas destineacutes agrave modishyfier lapparence des documents comme lont dabord penseacute les concepteurs de cette fonctionnaliteacute mais plutocirct agrave identifier certaines parties des documents Par exemple nous chercherons agrave identifier les titres les auteurs les reacutefeacuterences bibliograshyphiques les reacutesumeacutes etc Il est important de comprendre que nous nutiliserons pas les styles agrave des fins de mise en page mais bien didentification des diffeacuterents composhysants du texte

Outre lapplication des styles luniforshymisation et la normalisation des textes doivent ecirctre effectueacutees Ainsi les tashybleaux les listes et les notes infrapagina-les doivent avoir eacuteteacute produits avec les foncshytionnaliteacutes approprieacutees du traitement de texte (en dautres mots que ce soient de vrais tableaux et non des chaicircnes de texte seacutepareacutees par des tabulations par exemple) Nous analysons agrave leacutetape de la programmation lensemble des codes du traitement de texte les liens entre les apshypels de notes et les notes la largeur relashytive des colonnes des tableaux laligneshy

ment des contenus des cellules des tableaux etc et nous reproduisons cette information dans les documents SGML Au besoin certains composants doivent ecirctre reacuteordonneacutes (par exemple si lauteur a ajouteacute son reacutesumeacute agrave la fin on devra le repishyquer au deacutebut du document agrave la suite des eacuteleacutements de titres et dauteurs tel que le preacutevoit la DTD)

Nous avons deacuteveloppeacute un modegravele de document pour chacune des revues Ces modegraveles contiennent en moyenne de 30 agrave 50 styles diffeacuterents en fonction du nombre de composants retrouveacutes Parmi ces styles certains sont de type paragraphe (blocs de texte) et dautres de type caracshytegravere (chaicircnes de texte agrave linteacuterieur des blocs)

Leacutetape de mise en styles pourra ecirctre reacutealiseacutee par la personne responsable de la preacuteparation des textes agrave publier soit habishytuellement une personne faisant partie du comiteacute de production de la revue Agrave cet effet nous avons dans le cadre du projet Eacuterudit entrepris de donner des seacuteances de formation personnaliseacutee aux responsashybles des revues lesquelles portaient sur la preacuteparation des documents et lapplication des feuilles de style Notre expeacuterience deacuteshymontre que cette eacutetape est plus facilement reacutealisable par des personnes maicirctrisant bien leur outil de traitement de texte Un certain controcircle de qualiteacute doit ecirctre effecshytueacute sur les premiers documents styleacutes

Une fois styleacute le document servira dintrant (input) agrave leacutetape de conversion SGML Cest pourquoi il doit sagir dune

version finale du texte cest-agrave-dire quil doit ecirctre complet et deacutejagrave comprendre toushytes les corrections neacutecessaires Agrave cet effet nous avons rencontreacute quelques proshyblegravemes puisque le traitement traditionnel des revues comporte une ou plusieurs eacutetashypes de correction deacutepreuves une fois le document mis en page agrave laide dun logishyciel de PAO (tel PageMaker ou XPress) Les corrections sont alors effectueacutees direcshytement dans ces logiciels et ne sont pas reshypiqueacutees dans la copie de traitement de texte initiale Notre systegraveme de traitement preacuteconise une utilisation de fonctionnalishyteacutes approprieacutees du traitement de texte (styles notes tableaux etc) De plus les corrections de nature textuelle (orthoshygraphe et syntaxe de mecircme que la plushypart des corrections de nature typograshyphique) doivent ecirctre faites dans le fichier de traitement de texte Il faut prendre en consideacuteration le fait que ce fichier sert agrave la production de documents darchivage de documents deacuteriveacutes (sommaires tables des matiegraveres listes de reacutesultats de reshycherche etc) ainsi que de plusieurs forshymats de diffusion Ce fichier source de par son contenu et sa structure doit donc ecirctre le plus acheveacute possible Cela exige de la personne qui preacutepare les textes de bonnes connaissances linguistiques et tyshypographiques Les erreurs reacuteveacuteleacutees en aval dans la chaicircne de production doivent ecirctre corrigeacutees dans les fichiers de traiteshyment de texte

168 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Eacutepreuves eacutelectroniques

Depuis la fin du projet Eacuterudit nous avons testeacute linteacutegration du processus de reacutevision des eacutepreuves dans la chaicircne de traitement Dans un processus plus tradishytionnel cette reacutevision se fait habituelleshyment sur les eacutepreuves imprimeacutees des artishycles une fois la mise en page effectueacutee agrave laide de logiciels de PAO Les corrections apporteacutees peuvent ecirctre agrave la fois de nature orthographique syntaxique typograshyphique et peuvent aussi concerner des asshypects du montage La diffusion du mecircme contenu sur plusieurs supports de diffushysion nous amegravene agrave discerner entre les corshyrections devant ecirctre repiqueacutees dans le fishychier initial de traitement de texte (de fashyccedilon agrave ce que lensemble des formats de difshyfusion profitent de ces modifications) des corrections sappliquant uniquement agrave la mise en page papier Nous produisons donc maintenant des laquoeacutepreuves eacutelectronishyques raquo cest-agrave-dire des sorties imprimeacutees obtenues agrave partir dun logiciel de PAO soit FrameMaker+SGML (voir plus loin pour la description de cette eacutetape) sans avoir agrave efshyfectuer dimportantes interventions mashynuelles au niveau du montage Sur ces eacutepreuves sont apporteacutees les corrections se rapportant au texte (et non agrave sa mise en page en vue de limprimeacute) lesquelles seshyront ensuite repiqueacutees dans le fichier Word initial qui servira agrave la reacutegeacuteneacuteration des diffeacuterents formats produits Dans la perspective ougrave plusieurs formats diffeacuteshyrents (SGML HTML PDF) sont produits agrave partir dun mecircme fichier initial on comprenshydra linteacuterecirct deffectuer un maximum de corrections en amont (donc degraves la reacutevision du fichier Word) et non en aval sur un forshymat en particulier plutocirct que sur un autre

Traitement des images

Les illustrations que peuvent comporshyter les articles parviennent habituellement aux responsables des revues sous diffeacuteshyrentes formes photos impressions laser velox etc et plus rarement sous forme eacutelectronique fichiers vectoriel ou bitmap provenant de logiciels graphiques et imashyges numeacuteriseacutees Traditionnellement ces images sont inseacutereacutees dans le texte au moment du montage de la copie agrave imprishymer par le typographe qui les numeacuterise et les retouche ou encore par le technicien de latelier de preacuteimpression qui les reproshyduit par proceacutedeacute photographique

Linteacutegration des images dans la chaicircne de traitement Eacuterudit est de beaushycoup faciliteacutee si ces documents nous parshyviennent en format numeacuterique Les imashyges sont traiteacutees comme des fichiers seacutepashyreacutes qui sont reacutefeacutereacutes agrave partir des docushyments

Les secreacutetariats des revues neacutetant habituellement pas eacutequipeacutes en mateacuteriel et savoir-faire pour manipuler des images ce type dintervention sera effectueacute par le fournisseur de services en loccurrence leacutequipe dEacuterudit Cependant les comiteacutes de revues devraient tenter dobtenir des auteurs autant que faire se peut une vershysion des images en format eacutelectronique Ces images devraient toujours ecirctre de tregraves bonne qualiteacute (avec une haute reacutesolution et si deacutesireacute en couleurs) afin de servir agrave larchivage Cest agrave partir des images de bonne qualiteacute quon effectuera le traiteshyment (surtout des modifications de forshymats de fichiers des baisses de reacutesolushytion des sauvegardes en noir et blanc) en vue des diffeacuterents modes de diffusion (arshychivage Web et imprimeacute) Afin de standarshydiser le processus de traitement des imashyges nous avons eacutetabli des proceacutedures norshymaliseacutees Enfin bien que cela ne se soit pas encore produit un type dintervention de mecircme nature est agrave preacuteconiser pour dautres formats non textuels (videacuteo son images 3D etc)

Nous avons exposeacute dans cette section les diffeacuterents eacuteleacutements portant sur le preacutetraitement des textes soit lapplicashytion des styles et le traitement des images Une fois le document preacutetraiteacute il est precirct agrave ecirctre converti en SGML

Conversion en SGML

Puisque la feuille de style utiliseacutee pour styler les documents a eacuteteacute conccedilue en fonction dun passage efficace vers un doshycument SGML respectant la DTD PUM une conversion relativement automatique est possible Cette conversion qui consiste en linterpreacutetation des informashytions existantes et lajout dinformations deacuteshyriveacutees requiert cependant un outil speacutecialishyseacute Il serait agrave ce point-ci de la discussion important dexpliquer la diffeacuterence entre Une conversion de donneacutees au sens SGML et une traduction de donneacutees

Une traduction est une opeacuteration qui consiste agrave prendre un ensemble de donshyneacutees (information et mise en forme confonshydus) dun format proprieacutetaire et le traduire

en un ensemble eacutequivalent qui peut ecirctre inshyterpreacuteteacute et eacutediteacute dans un autre logiciel utilishysant un format proprieacutetaire (par exemple passer un document de Word agrave WordPershyfect) Au contraire une conversion vers SGML implique deacutetablir un lien entre un document dans un format proprieacutetaire (ougrave la structure logique est habituellement perccedilue de faccedilon visuelle par le lecteur) agrave un document SGML laquointelligentraquo (ougrave la structure logique est codeacutee de faccedilon explishycite suivant une DTD donneacutee)

Une conversion enrichissante (traducshytion libre de up conversion) est une convershysion dun format plat vers un format seacutemanshytique structureacute (par exemple dun format WordPerfect vers un format SGML) ou plus preacuteciseacutement une conversion de donshyneacutees textuelles dun format dencodage arshybitraire vers une instance SGML valide Une conversion appauvrissante (traducshytion libre de down conversion) quant agrave elle consiste en une conversion dun forshymat logique vers un format proprieacutetaire (par exemple dun format SGML vers un format MS Word) Ce type de conversion est la cleacute du succegraves de SGML puisquelle assure une complegravete reacuteutilisation des donshyneacutees Agrave partir dun format SGML la convershysion peut ecirctre facilement automatiseacutee tout en conservant linteacutegriteacute des donneacutees

Il existe plusieurs produits logiciels apshytes agrave convertir des textes dun format agrave un autre Ces produits sont disponibles essenshytiellement sous la forme de programmes ou de solutions parameacutetrables12 Nous avons opteacute pour le langage de programmashytion speacutecialiseacute OmniMarkreg

Nous effectuons la conversion en deux eacutetapes dont la premiegravere est reacutealiseacutee agrave laide dun programme en langage OmnishyMark disponible gratuitement13 La seshyconde eacutetape se charge dajouter une strucshyture seacutemantique normaliseacutee pour la desshycription darticles savants et introduira de linformation suppleacutementaire agrave valeur ajouteacutee Ainsi nous creacuteons sans aucune intervention manuelle des liens entre les appels de reacutefeacuterences dans le texte et les reacutefeacuterences bibliographiques agrave la fin du

12 Pour une liste exhaustive de ce genre de produit consulter la rubrique laquo Conversion Program raquo dans Survey of software for structured text par Eila Kuikka et Erja Nikunen ltURL http www xsukufi~kuikkasys-temshtmlgt

13 Il sagit de RTF2XML (auparavant RTF2SGML) deacuteshyveloppeacute par Rick Geimer ltURLhttpwwwxme-ta comomlettegt

octobre-deacutecembre 1999 169

Documentation et bibliothegraveques

texte Pour ce faire il faut analyser meacuteticu-leusement les syntaxes de reacutefeacuterences utilishyseacutees par chaque revue [par exemple laquo(Vaugeois et Hubert 1993a)raquo ou laquo(Va-Hu93a) raquo] afin deacutetablir des patrons de reshyconnaissance sur lesquels on peut enshysuite bacirctir des regravegles de programmation Cette deuxiegraveme eacutetape est effectueacutee par un programme en langage OmniMark reacutealiseacute dans le cadre du projet Eacuterudit

Formats de diffusion

Les formats de diffusion choisis doishyvent permettre de satisfaire les habitudes de lecture et les besoins de consultation qui diffegraverent dun usager agrave lautre Ainsi nous preacuteconisons la diffusion des docushyments en plusieurs formats Notre modegravele de diffusion est baseacute sur le document dans sa version SGML Ce document eacutelecshytronique unique constitue la source de plushysieurs sous-produits qui sont autant de forshymats de sortie possibles Les supports de diffusion qui sont compatibles avec ces forshymats sont divers diffusion en ligne (Web) diffusion sur ceacutedeacuterom diffusion sur papier Dans le cadre du projet Eacuterudit nous avons consideacutereacute trois formats de sortie (HTML SGML et PDF) Nous avons eacutegalement deacuteshycideacute deacute rendre disponible le format SGML ce dernier se precirctant tregraves bien agrave la consulshytation dans la mesure ougrave les navigateurs SGML sont capables dexploiter la strucshyture des documents de faccedilon agrave offrir un enshyvironnement de lecture plus sophistiqueacute et complet Enfin le format PDF permet la difshyfusion de documents eacutelectroniques reproshyduisant la mise en page choisie par les difshyfuseurs Ce format est tout agrave fait approprieacute pour limpression agrave distance Nous envisashygeons agrave court terme doffrir eacutegalement le format XML qui peut ecirctre consulteacute agrave laide des versions 5 des navigateurs Internet Explorer et Netscape Navigator

Un principe de base de la philosophie SGML voulant que linformation une fois baliseacutee en SGML puisse ecirctre reacuteutiliseacutee plusieurs fois et cela avec diffeacuterentes sashyveurs tant dans linteacutegraliteacute du contenu (en tout ou en parties) que dans la forme du contenant (dans un format particulier) il est tout naturel de convertir les fichiers SGML en fichiers HTML Il sagit en fait dune conversion SGML (DTD PUM soit la DTD deacuteveloppeacutee aux Presses de lUnishyversiteacute de Montreacuteal pour reacutepondre aux beshysoins de balisage des revues savantes) vers SGML (DTD HTML) Ainsi les artishy

cles sont convertis automatiquement en HTML agrave laide dun autre programme OmniMark Nous produisons de la mecircme faccedilon une table des matiegraveres pour chaque numeacutero de revue Cette table des matiegraveres ne provient pas dun document initial unique saisi sous forme de table des matiegraveres mais plutocirct de la concateacutenation dinformations reacutecupeacutereacutees dans lenshysemble des articles (titres sous-titres auteurs) en format SGML Cest un bon exemple de reacuteutilisation de linformation

Puisque lensemble des documents produits sont baseacutes sur la DTD PUM la conversion du SGML vers le HTML est reacuteashyliseacutee par un seul programme de convershysion pour lensemble des revues Ce proshygramme comporte cependant quelques particulariteacutes de preacutesentation propres agrave chaque revue et dune telle pratique reacuteshysulte une apparence assez semblable pour chacune des revues La fabrication dune signature dune maquette diffeacuterente pour chaque revue est reacutealiseacutee agrave laide dune feuille de style CSS (Cascading Style Sheet) fonction de plus en plus supshyporteacutee par les navigateurs Web

Pour linstant nous stockons sur notre serveur Web la version HTML preacuteshyconvertie Cependant la conversion tant pour les articles que pour la table des mashytiegraveres pourrait aiseacutement ecirctre faite laquoagrave la voleacutee raquo (on the fy) puisquil ny a aucune inshytervention manuelle sur les fichiers HTML On pourrait facilement faire en sorte quau moment ougrave lutilisateur par le biais de son client Web fait la demande dun fichier HTML (par exemple un article donneacute) le serveur (sur lequel serait installeacute OmnishyMark) convertisse leacute fichier SGML en fishychier HTML Ceci aurait pour avantage doccuper moins despace disque (environ la moitieacute de moins puisque seule la vershysion SGML serait stockeacutee et que le rapport SGMLHTML doit plus ou moins ecirctre eacutegal agrave 1 ) Il resterait agrave sassurer de deacutelais de reacuteshyponses acceptables

SGML

Les utilisateurs peuvent visionner les documents SGML agrave laide de Panorama Viewer de Interleaf14 un navigateur SGML qui sinstalle comme module exshyterne (plug-in) dun navigateur Web tel Netscape Navigator

Panorama Viewer permet de creacuteer des liens entre diffeacuterentes parties des doshycuments ou diffeacuterents documents Il pershy

met eacutegalement de preacutesenter des tables des matiegraveres dynamiques qui constituent des aides agrave la navigation Une autre foncshytion de Panorama offre la possibiliteacute danshynoter nimporte quelle partie dun docushyment y compris une zone dune figure deacuteshytermineacutee par le lecteur Enfin il permet dajouter des signets dans un document

La diffusion des articles en format SGML requiert peu defforts puisquil sagit du format natif des documents Pour ecirctre plus exact nous diffusons une vershysion SGML agrave peine diffeacuterente de la version produite lors de leffort de conversion enshyrichie deacutecrite preacuteceacutedemment Cette diffeacuteshyrence minime tient exclusivement agrave la non-reconnaissance par le navigateur SGML de certains caractegraveres eacutetrangers et symshyboles particuliers Panorama Viewer eacutetant en mesure de lire du SGML il faut simpleshyment lui indiquer la mise en forme propre aux diffeacuterents eacuteleacutements rencontreacutes Ces instructions de formatage sont donneacutees sous la forme dune feuille de style La creacuteation dune feuille de style ne seffectue normalement quune seule fois par revue (voire mecircme par DTD utiliseacutee si on deacutesire des produits normaliseacutes et identiques) Ainsi nous avons creacuteeacute des feuilles de style et des formats de tables des matiegraveres dyshynamiques (navigators) pour chaque revue de maniegravere agrave donner agrave chacune une signashyture caracteacuteristique

PDF

Linteacuterecirct du PDF reacuteside dans lobtenshytion dun document eacutelectronique arborant un format de preacutesentation semblable agrave limshyprimeacute Un tel format permet aux lecteurs dimprimer une version laquomise en page papierraquo des articles diffuseacutes en ligne Les navigateurs SGML ou HTML dont nous avons discuteacute preacuteceacutedemment permettent eacutegalement limpression mais la qualiteacute de la mise en page nest pas aussi complexe et soigneacutee puisque les feuilles de style des navigateurs Web sont destineacutees avant tout agrave la preacutesentation agrave leacutecran Notons cepenshydant quil existe des feuilles de style (CSS et XSL) normaliseacutees ougrave on a preacutevu une mise en page sophistiqueacutee en fonction de diffeacuterents meacutedias (eacutecran terminal reacuteduit imprimeacute synthegravese vocale) Agrave moyen terme on pourrait entrevoir que les

14 ltURL http wwwinterleafcomPanoramapa -ge3htmlgt

170 octobre-deacutecembre 1999

Documentation et bibliothegraveques

formats HTML et PDF seront remplaceacutes par un seul document source XML coupleacute agrave des feuilles de style qui seront fonction du meacutedia employeacute

laquo La grande majoriteacute des logiciels de PAO sur le marcheacute (les plus connus eacutetant PageMaker et Xpress) permettent une saushyvegarde en format PDF pour diffusion sur le Web Ces logiciels ne sont cependant pas en mesure de lire en intrant input) un fichier SGML ni de linterpreacuteter correcteshyment Il existe toutefois des outils perforshymants capables agrave la fois de prendre en inshytrant du SGML et de permettre une mise en page professionnelle (FrameMaker+ SGML^ocirce Adobe Interleaf 6 SGMLtrade de la compagnie Interleaf et ADEPT Publisshyher17 reacutealiseacute par ArborText) Il sagit touteshyfois de produits dispendieux et assez comshyplexes agrave manipuler

Notre choix sest arrecircteacute sur le logiciel FrameMaker+SGML en raison de son coucirct abordable et de sa plus grande facilishyteacute de parameacutetrage FrameMaker+SGML permet la creacuteation la modification et la pushyblication de documents SGML dans un enshyvironnement convivial Dans le cadre du projet Eacuterudit nous utilisons uniquement les fonctionnaliteacutes dimportation du SGML et de mise en page sophistiqueacutees offertes par loutil Il sagit ici aussi de deacutefinir un meacutecanisme dapplication de style pour chaque eacuteleacutement en fonction de son contexte SGML Cette feuille de style est dirigeacutee vers la mise en page sur papier (et non agrave leacutecran) et agrave cet effet FrameMashyker+SGML offre la possibiliteacute de parameacuteshytrer plusieurs des caracteacuteristiques requishyses par limprimeacute (par exemple la gestion des veuves et orphelins des paragraphes solidaires les colonnes multiples les noshytes en bas de page les patrons de ceacutesure approprieacutes agrave la fin des lignes les formes des en-tecirctes et bas de pages etc)

Chaque revue possegravede une feuille de style diffeacuterente laquelle a eacuteteacute conccedilue en se basant sur la maquette de la forme imshyprimeacutee deacutejagrave existante des revues particishypantes Les fonctionnaliteacutes de FrameMashyker+SGML nous permettent sans difficulteacute de reproduire de faccedilon presque identique laspect habituel des revues Lapplication dune feuille de style exhaustive et bien conccedilue (quon arrive geacuteneacuteralement agrave obteshynir apregraves un processus de reacuteajustement lors des premiegraveres productions) permet dautomatiser agrave 90 le montage du docushyment ce qui constitue un excellent rendeshyment On doit toutefois faire certaines intershy

ventions manuellement afin de compleacuteter le travail (par exemple deacuteplacer des figushyres condenser lespacement du texte ccedila et lagrave pour forcer un saut de page fractionshyner des notes de bas de page trop lonshygues etc)

Une fois le document monteacute avec FrashymeMaker+SGML il ne reste quagrave produire une version PDF agrave laide du logiciel Acroshybat de Adobe Il sagit lagrave dune opeacuteration sans grande difficulteacute quon peut apparenshyter agrave un simple laquosauvegarder sous PDFraquo On peut ainsi produire un premier fichier PDF de faible reacutesolution destineacute agrave ecirctre vishysionneacute sur le Web et un second fichier PDF de meilleure reacutesolution (ou encore un fichier PostScript) pouvant ecirctre achemineacute agrave latelier de preacutepresse en vue de limpresshysion des exemplaires papier

Pour les usagers la consultation des documents PDF se fait avec le logiciel Acrobat Reader qui existe comme moshydule externe (plug-in) pour les navigateurs Web On peut consulter les documents PDF agrave leacutecran avec ce logiciel mais ils sont plutocirct destineacutes agrave ecirctre imprimeacutes localeshyment par les usagers

Dans le cadre du projet Eacuterudit nous avons produit uniquement des documents PDF destineacutes au Web agrave raison dun fichier unique par article (et non dun fichier regroushypant tout un numeacutero dune revue) puisque les revues poursuivaient pendant la mecircme peacuteriode le traitement habituel pour la proshyduction de la version imprimeacutee de la revue

Diffusion sur le Web

Pour diffuser des documents sur le Web nous avons creacuteeacute un site Web18 heacuteshybergeacute sur notre serveur Web Ce site est la porte dentreacutee principale pour laccegraves aux articles

La diffusion en ligne (et eacutegalement sur ceacutedeacuterom) permet pour le lecteur dacshyceacuteder aux textes agrave laide dun outil de reshycherche Pour ce faire on doit implanter un outil de recherche en texte inteacutegral qui peut indexer des documents SGML tout en conservant linformation sur la strucshyture de faccedilon agrave permettre aux usagers dexprimer des contraintes sur la structure dans leurs requecirctes On peut par exemple preacuteciser la recherche de textes comporshytant le nom dun chercheur mais uniqueshyment lorsque celui-ci se retrouve dans une bibliographie et non en tant quauteur de larticle Dans le cadre du projet Eacuterudit nous avons installeacute sur le site Web un

prototype de moteur de recherche qui doit encore ecirctre ameacutelioreacute La collection indexeacutee comprend lensemble des articles ayant eacuteteacute publieacutes par les revues pendant la dureacutee du projet pilote Il sagit dun mode daccegraves au texte tregraves performant que seule la version eacutelectronique permet dobtenir

Recommandations

Dans la mesure ougrave notre mandat consistait moins en la mise au point dune solution theacuteoriquement optimale quen la conception dune chaicircne de traitement adapteacutee aux besoins du projet (reproducshytion de la forme papier deacutejagrave existante imshypossibiliteacute dintervenir en amont de la chaicircne de production optimisation du traishytement par ladoption dune DTD unique production de divers formats de diffusion) nous avons opteacute pour une solution compreshynant plusieurs sorties intermeacutediaires et cela de faccedilon agrave atteindre de bons reacutesulshytats en matiegravere dautomatisation et de quashyliteacute des textes produits Nous estimons avoir atteint agrave 95 ces objectifs de producshytion

Il va sans dire que la DTD a ducirc ecirctre constamment remanieacutee afin de sadapter agrave lensemble des documents agrave produire Nous avons ducirc opter pour une DTD qui au fur et agrave mesure de lavancement du projet devenait plus permissive de maniegravere agrave geacuteshyneacuterer en bout de ligne du SGML valide respectant linteacutegriteacute et la preacutesentation des contenus des articles

Le projet Eacuterudit aura mis en lumiegravere lextrecircme importance dans une perspecshytive dautomatisation des opeacuterations de la chaicircne documentaire de deacutefinir une strucshyture une preacutesentation et dans une cershytaine mesure un contenu normaliseacute des documents agrave traiter La production mecircme de textes destineacutes agrave ecirctre baliseacutes en SGML peut donc faire lobjet de certaines recomshymandations dont plusieurs savegraverent applishycables dans une optique de sensibilisation des comiteacutes de revues et de formation du personnel chargeacute de la reacutevision et de la correction des textes Cest ainsi quil y aushyrait lieu de deacutefinir (ou renforcer) pour chaque revueraquo un modegravele normaliseacute quant

15 ltURL http wwwadobecomprodindexframe makerprodinfosgmlhtmlgt

16 ltUEL http wwwinterleafcomproducts p_sgmlhtmlgt

17 ltURL http wwwarbortextcomProducts AcircDEPT_Seriesadept_serieshtmlgt

18 ltURLhttpwwweruditorggt

octobre-deacutecembre 1999 171

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999

Page 9: De l’imprimé vers l’électronique : réflexions et solutions

Documentation et bibliothegraveques

Figure 1 Chaicircne de traitement du projet Eacuterudit

Documents mis en styles (Word)

1 r f bull -

Documents originaux (WordJ

Documents 1 k | ltSfiMI 1

^ 1 wninii 1 mdash

[DTDPUMJ Formats de diffusion 1 HTML

SGML

flHGIiHiB

eacutetape consiste agrave appliquer un ensemble de styles contenus dans un modegravele de doshycument (feuille de style) agrave un document original en format MS Word Utilisation de styles sur des parties de texte inscrit dans le format intrinsegraveque du traitement de texte des codes qui nous permettront daushytomatiser le balisage en SGML

Cest agrave cette eacutetape que lon insuffle une certaine laquointelligenceraquo au document Ainsi le modegravele de document et les styles quil contient ne sont pas destineacutes agrave modishyfier lapparence des documents comme lont dabord penseacute les concepteurs de cette fonctionnaliteacute mais plutocirct agrave identifier certaines parties des documents Par exemple nous chercherons agrave identifier les titres les auteurs les reacutefeacuterences bibliograshyphiques les reacutesumeacutes etc Il est important de comprendre que nous nutiliserons pas les styles agrave des fins de mise en page mais bien didentification des diffeacuterents composhysants du texte

Outre lapplication des styles luniforshymisation et la normalisation des textes doivent ecirctre effectueacutees Ainsi les tashybleaux les listes et les notes infrapagina-les doivent avoir eacuteteacute produits avec les foncshytionnaliteacutes approprieacutees du traitement de texte (en dautres mots que ce soient de vrais tableaux et non des chaicircnes de texte seacutepareacutees par des tabulations par exemple) Nous analysons agrave leacutetape de la programmation lensemble des codes du traitement de texte les liens entre les apshypels de notes et les notes la largeur relashytive des colonnes des tableaux laligneshy

ment des contenus des cellules des tableaux etc et nous reproduisons cette information dans les documents SGML Au besoin certains composants doivent ecirctre reacuteordonneacutes (par exemple si lauteur a ajouteacute son reacutesumeacute agrave la fin on devra le repishyquer au deacutebut du document agrave la suite des eacuteleacutements de titres et dauteurs tel que le preacutevoit la DTD)

Nous avons deacuteveloppeacute un modegravele de document pour chacune des revues Ces modegraveles contiennent en moyenne de 30 agrave 50 styles diffeacuterents en fonction du nombre de composants retrouveacutes Parmi ces styles certains sont de type paragraphe (blocs de texte) et dautres de type caracshytegravere (chaicircnes de texte agrave linteacuterieur des blocs)

Leacutetape de mise en styles pourra ecirctre reacutealiseacutee par la personne responsable de la preacuteparation des textes agrave publier soit habishytuellement une personne faisant partie du comiteacute de production de la revue Agrave cet effet nous avons dans le cadre du projet Eacuterudit entrepris de donner des seacuteances de formation personnaliseacutee aux responsashybles des revues lesquelles portaient sur la preacuteparation des documents et lapplication des feuilles de style Notre expeacuterience deacuteshymontre que cette eacutetape est plus facilement reacutealisable par des personnes maicirctrisant bien leur outil de traitement de texte Un certain controcircle de qualiteacute doit ecirctre effecshytueacute sur les premiers documents styleacutes

Une fois styleacute le document servira dintrant (input) agrave leacutetape de conversion SGML Cest pourquoi il doit sagir dune

version finale du texte cest-agrave-dire quil doit ecirctre complet et deacutejagrave comprendre toushytes les corrections neacutecessaires Agrave cet effet nous avons rencontreacute quelques proshyblegravemes puisque le traitement traditionnel des revues comporte une ou plusieurs eacutetashypes de correction deacutepreuves une fois le document mis en page agrave laide dun logishyciel de PAO (tel PageMaker ou XPress) Les corrections sont alors effectueacutees direcshytement dans ces logiciels et ne sont pas reshypiqueacutees dans la copie de traitement de texte initiale Notre systegraveme de traitement preacuteconise une utilisation de fonctionnalishyteacutes approprieacutees du traitement de texte (styles notes tableaux etc) De plus les corrections de nature textuelle (orthoshygraphe et syntaxe de mecircme que la plushypart des corrections de nature typograshyphique) doivent ecirctre faites dans le fichier de traitement de texte Il faut prendre en consideacuteration le fait que ce fichier sert agrave la production de documents darchivage de documents deacuteriveacutes (sommaires tables des matiegraveres listes de reacutesultats de reshycherche etc) ainsi que de plusieurs forshymats de diffusion Ce fichier source de par son contenu et sa structure doit donc ecirctre le plus acheveacute possible Cela exige de la personne qui preacutepare les textes de bonnes connaissances linguistiques et tyshypographiques Les erreurs reacuteveacuteleacutees en aval dans la chaicircne de production doivent ecirctre corrigeacutees dans les fichiers de traiteshyment de texte

168 octobre-deacutecembre 1999

Documentation et bibliothegraveques

Eacutepreuves eacutelectroniques

Depuis la fin du projet Eacuterudit nous avons testeacute linteacutegration du processus de reacutevision des eacutepreuves dans la chaicircne de traitement Dans un processus plus tradishytionnel cette reacutevision se fait habituelleshyment sur les eacutepreuves imprimeacutees des artishycles une fois la mise en page effectueacutee agrave laide de logiciels de PAO Les corrections apporteacutees peuvent ecirctre agrave la fois de nature orthographique syntaxique typograshyphique et peuvent aussi concerner des asshypects du montage La diffusion du mecircme contenu sur plusieurs supports de diffushysion nous amegravene agrave discerner entre les corshyrections devant ecirctre repiqueacutees dans le fishychier initial de traitement de texte (de fashyccedilon agrave ce que lensemble des formats de difshyfusion profitent de ces modifications) des corrections sappliquant uniquement agrave la mise en page papier Nous produisons donc maintenant des laquoeacutepreuves eacutelectronishyques raquo cest-agrave-dire des sorties imprimeacutees obtenues agrave partir dun logiciel de PAO soit FrameMaker+SGML (voir plus loin pour la description de cette eacutetape) sans avoir agrave efshyfectuer dimportantes interventions mashynuelles au niveau du montage Sur ces eacutepreuves sont apporteacutees les corrections se rapportant au texte (et non agrave sa mise en page en vue de limprimeacute) lesquelles seshyront ensuite repiqueacutees dans le fichier Word initial qui servira agrave la reacutegeacuteneacuteration des diffeacuterents formats produits Dans la perspective ougrave plusieurs formats diffeacuteshyrents (SGML HTML PDF) sont produits agrave partir dun mecircme fichier initial on comprenshydra linteacuterecirct deffectuer un maximum de corrections en amont (donc degraves la reacutevision du fichier Word) et non en aval sur un forshymat en particulier plutocirct que sur un autre

Traitement des images

Les illustrations que peuvent comporshyter les articles parviennent habituellement aux responsables des revues sous diffeacuteshyrentes formes photos impressions laser velox etc et plus rarement sous forme eacutelectronique fichiers vectoriel ou bitmap provenant de logiciels graphiques et imashyges numeacuteriseacutees Traditionnellement ces images sont inseacutereacutees dans le texte au moment du montage de la copie agrave imprishymer par le typographe qui les numeacuterise et les retouche ou encore par le technicien de latelier de preacuteimpression qui les reproshyduit par proceacutedeacute photographique

Linteacutegration des images dans la chaicircne de traitement Eacuterudit est de beaushycoup faciliteacutee si ces documents nous parshyviennent en format numeacuterique Les imashyges sont traiteacutees comme des fichiers seacutepashyreacutes qui sont reacutefeacutereacutes agrave partir des docushyments

Les secreacutetariats des revues neacutetant habituellement pas eacutequipeacutes en mateacuteriel et savoir-faire pour manipuler des images ce type dintervention sera effectueacute par le fournisseur de services en loccurrence leacutequipe dEacuterudit Cependant les comiteacutes de revues devraient tenter dobtenir des auteurs autant que faire se peut une vershysion des images en format eacutelectronique Ces images devraient toujours ecirctre de tregraves bonne qualiteacute (avec une haute reacutesolution et si deacutesireacute en couleurs) afin de servir agrave larchivage Cest agrave partir des images de bonne qualiteacute quon effectuera le traiteshyment (surtout des modifications de forshymats de fichiers des baisses de reacutesolushytion des sauvegardes en noir et blanc) en vue des diffeacuterents modes de diffusion (arshychivage Web et imprimeacute) Afin de standarshydiser le processus de traitement des imashyges nous avons eacutetabli des proceacutedures norshymaliseacutees Enfin bien que cela ne se soit pas encore produit un type dintervention de mecircme nature est agrave preacuteconiser pour dautres formats non textuels (videacuteo son images 3D etc)

Nous avons exposeacute dans cette section les diffeacuterents eacuteleacutements portant sur le preacutetraitement des textes soit lapplicashytion des styles et le traitement des images Une fois le document preacutetraiteacute il est precirct agrave ecirctre converti en SGML

Conversion en SGML

Puisque la feuille de style utiliseacutee pour styler les documents a eacuteteacute conccedilue en fonction dun passage efficace vers un doshycument SGML respectant la DTD PUM une conversion relativement automatique est possible Cette conversion qui consiste en linterpreacutetation des informashytions existantes et lajout dinformations deacuteshyriveacutees requiert cependant un outil speacutecialishyseacute Il serait agrave ce point-ci de la discussion important dexpliquer la diffeacuterence entre Une conversion de donneacutees au sens SGML et une traduction de donneacutees

Une traduction est une opeacuteration qui consiste agrave prendre un ensemble de donshyneacutees (information et mise en forme confonshydus) dun format proprieacutetaire et le traduire

en un ensemble eacutequivalent qui peut ecirctre inshyterpreacuteteacute et eacutediteacute dans un autre logiciel utilishysant un format proprieacutetaire (par exemple passer un document de Word agrave WordPershyfect) Au contraire une conversion vers SGML implique deacutetablir un lien entre un document dans un format proprieacutetaire (ougrave la structure logique est habituellement perccedilue de faccedilon visuelle par le lecteur) agrave un document SGML laquointelligentraquo (ougrave la structure logique est codeacutee de faccedilon explishycite suivant une DTD donneacutee)

Une conversion enrichissante (traducshytion libre de up conversion) est une convershysion dun format plat vers un format seacutemanshytique structureacute (par exemple dun format WordPerfect vers un format SGML) ou plus preacuteciseacutement une conversion de donshyneacutees textuelles dun format dencodage arshybitraire vers une instance SGML valide Une conversion appauvrissante (traducshytion libre de down conversion) quant agrave elle consiste en une conversion dun forshymat logique vers un format proprieacutetaire (par exemple dun format SGML vers un format MS Word) Ce type de conversion est la cleacute du succegraves de SGML puisquelle assure une complegravete reacuteutilisation des donshyneacutees Agrave partir dun format SGML la convershysion peut ecirctre facilement automatiseacutee tout en conservant linteacutegriteacute des donneacutees

Il existe plusieurs produits logiciels apshytes agrave convertir des textes dun format agrave un autre Ces produits sont disponibles essenshytiellement sous la forme de programmes ou de solutions parameacutetrables12 Nous avons opteacute pour le langage de programmashytion speacutecialiseacute OmniMarkreg

Nous effectuons la conversion en deux eacutetapes dont la premiegravere est reacutealiseacutee agrave laide dun programme en langage OmnishyMark disponible gratuitement13 La seshyconde eacutetape se charge dajouter une strucshyture seacutemantique normaliseacutee pour la desshycription darticles savants et introduira de linformation suppleacutementaire agrave valeur ajouteacutee Ainsi nous creacuteons sans aucune intervention manuelle des liens entre les appels de reacutefeacuterences dans le texte et les reacutefeacuterences bibliographiques agrave la fin du

12 Pour une liste exhaustive de ce genre de produit consulter la rubrique laquo Conversion Program raquo dans Survey of software for structured text par Eila Kuikka et Erja Nikunen ltURL http www xsukufi~kuikkasys-temshtmlgt

13 Il sagit de RTF2XML (auparavant RTF2SGML) deacuteshyveloppeacute par Rick Geimer ltURLhttpwwwxme-ta comomlettegt

octobre-deacutecembre 1999 169

Documentation et bibliothegraveques

texte Pour ce faire il faut analyser meacuteticu-leusement les syntaxes de reacutefeacuterences utilishyseacutees par chaque revue [par exemple laquo(Vaugeois et Hubert 1993a)raquo ou laquo(Va-Hu93a) raquo] afin deacutetablir des patrons de reshyconnaissance sur lesquels on peut enshysuite bacirctir des regravegles de programmation Cette deuxiegraveme eacutetape est effectueacutee par un programme en langage OmniMark reacutealiseacute dans le cadre du projet Eacuterudit

Formats de diffusion

Les formats de diffusion choisis doishyvent permettre de satisfaire les habitudes de lecture et les besoins de consultation qui diffegraverent dun usager agrave lautre Ainsi nous preacuteconisons la diffusion des docushyments en plusieurs formats Notre modegravele de diffusion est baseacute sur le document dans sa version SGML Ce document eacutelecshytronique unique constitue la source de plushysieurs sous-produits qui sont autant de forshymats de sortie possibles Les supports de diffusion qui sont compatibles avec ces forshymats sont divers diffusion en ligne (Web) diffusion sur ceacutedeacuterom diffusion sur papier Dans le cadre du projet Eacuterudit nous avons consideacutereacute trois formats de sortie (HTML SGML et PDF) Nous avons eacutegalement deacuteshycideacute deacute rendre disponible le format SGML ce dernier se precirctant tregraves bien agrave la consulshytation dans la mesure ougrave les navigateurs SGML sont capables dexploiter la strucshyture des documents de faccedilon agrave offrir un enshyvironnement de lecture plus sophistiqueacute et complet Enfin le format PDF permet la difshyfusion de documents eacutelectroniques reproshyduisant la mise en page choisie par les difshyfuseurs Ce format est tout agrave fait approprieacute pour limpression agrave distance Nous envisashygeons agrave court terme doffrir eacutegalement le format XML qui peut ecirctre consulteacute agrave laide des versions 5 des navigateurs Internet Explorer et Netscape Navigator

Un principe de base de la philosophie SGML voulant que linformation une fois baliseacutee en SGML puisse ecirctre reacuteutiliseacutee plusieurs fois et cela avec diffeacuterentes sashyveurs tant dans linteacutegraliteacute du contenu (en tout ou en parties) que dans la forme du contenant (dans un format particulier) il est tout naturel de convertir les fichiers SGML en fichiers HTML Il sagit en fait dune conversion SGML (DTD PUM soit la DTD deacuteveloppeacutee aux Presses de lUnishyversiteacute de Montreacuteal pour reacutepondre aux beshysoins de balisage des revues savantes) vers SGML (DTD HTML) Ainsi les artishy

cles sont convertis automatiquement en HTML agrave laide dun autre programme OmniMark Nous produisons de la mecircme faccedilon une table des matiegraveres pour chaque numeacutero de revue Cette table des matiegraveres ne provient pas dun document initial unique saisi sous forme de table des matiegraveres mais plutocirct de la concateacutenation dinformations reacutecupeacutereacutees dans lenshysemble des articles (titres sous-titres auteurs) en format SGML Cest un bon exemple de reacuteutilisation de linformation

Puisque lensemble des documents produits sont baseacutes sur la DTD PUM la conversion du SGML vers le HTML est reacuteashyliseacutee par un seul programme de convershysion pour lensemble des revues Ce proshygramme comporte cependant quelques particulariteacutes de preacutesentation propres agrave chaque revue et dune telle pratique reacuteshysulte une apparence assez semblable pour chacune des revues La fabrication dune signature dune maquette diffeacuterente pour chaque revue est reacutealiseacutee agrave laide dune feuille de style CSS (Cascading Style Sheet) fonction de plus en plus supshyporteacutee par les navigateurs Web

Pour linstant nous stockons sur notre serveur Web la version HTML preacuteshyconvertie Cependant la conversion tant pour les articles que pour la table des mashytiegraveres pourrait aiseacutement ecirctre faite laquoagrave la voleacutee raquo (on the fy) puisquil ny a aucune inshytervention manuelle sur les fichiers HTML On pourrait facilement faire en sorte quau moment ougrave lutilisateur par le biais de son client Web fait la demande dun fichier HTML (par exemple un article donneacute) le serveur (sur lequel serait installeacute OmnishyMark) convertisse leacute fichier SGML en fishychier HTML Ceci aurait pour avantage doccuper moins despace disque (environ la moitieacute de moins puisque seule la vershysion SGML serait stockeacutee et que le rapport SGMLHTML doit plus ou moins ecirctre eacutegal agrave 1 ) Il resterait agrave sassurer de deacutelais de reacuteshyponses acceptables

SGML

Les utilisateurs peuvent visionner les documents SGML agrave laide de Panorama Viewer de Interleaf14 un navigateur SGML qui sinstalle comme module exshyterne (plug-in) dun navigateur Web tel Netscape Navigator

Panorama Viewer permet de creacuteer des liens entre diffeacuterentes parties des doshycuments ou diffeacuterents documents Il pershy

met eacutegalement de preacutesenter des tables des matiegraveres dynamiques qui constituent des aides agrave la navigation Une autre foncshytion de Panorama offre la possibiliteacute danshynoter nimporte quelle partie dun docushyment y compris une zone dune figure deacuteshytermineacutee par le lecteur Enfin il permet dajouter des signets dans un document

La diffusion des articles en format SGML requiert peu defforts puisquil sagit du format natif des documents Pour ecirctre plus exact nous diffusons une vershysion SGML agrave peine diffeacuterente de la version produite lors de leffort de conversion enshyrichie deacutecrite preacuteceacutedemment Cette diffeacuteshyrence minime tient exclusivement agrave la non-reconnaissance par le navigateur SGML de certains caractegraveres eacutetrangers et symshyboles particuliers Panorama Viewer eacutetant en mesure de lire du SGML il faut simpleshyment lui indiquer la mise en forme propre aux diffeacuterents eacuteleacutements rencontreacutes Ces instructions de formatage sont donneacutees sous la forme dune feuille de style La creacuteation dune feuille de style ne seffectue normalement quune seule fois par revue (voire mecircme par DTD utiliseacutee si on deacutesire des produits normaliseacutes et identiques) Ainsi nous avons creacuteeacute des feuilles de style et des formats de tables des matiegraveres dyshynamiques (navigators) pour chaque revue de maniegravere agrave donner agrave chacune une signashyture caracteacuteristique

PDF

Linteacuterecirct du PDF reacuteside dans lobtenshytion dun document eacutelectronique arborant un format de preacutesentation semblable agrave limshyprimeacute Un tel format permet aux lecteurs dimprimer une version laquomise en page papierraquo des articles diffuseacutes en ligne Les navigateurs SGML ou HTML dont nous avons discuteacute preacuteceacutedemment permettent eacutegalement limpression mais la qualiteacute de la mise en page nest pas aussi complexe et soigneacutee puisque les feuilles de style des navigateurs Web sont destineacutees avant tout agrave la preacutesentation agrave leacutecran Notons cepenshydant quil existe des feuilles de style (CSS et XSL) normaliseacutees ougrave on a preacutevu une mise en page sophistiqueacutee en fonction de diffeacuterents meacutedias (eacutecran terminal reacuteduit imprimeacute synthegravese vocale) Agrave moyen terme on pourrait entrevoir que les

14 ltURL http wwwinterleafcomPanoramapa -ge3htmlgt

170 octobre-deacutecembre 1999

Documentation et bibliothegraveques

formats HTML et PDF seront remplaceacutes par un seul document source XML coupleacute agrave des feuilles de style qui seront fonction du meacutedia employeacute

laquo La grande majoriteacute des logiciels de PAO sur le marcheacute (les plus connus eacutetant PageMaker et Xpress) permettent une saushyvegarde en format PDF pour diffusion sur le Web Ces logiciels ne sont cependant pas en mesure de lire en intrant input) un fichier SGML ni de linterpreacuteter correcteshyment Il existe toutefois des outils perforshymants capables agrave la fois de prendre en inshytrant du SGML et de permettre une mise en page professionnelle (FrameMaker+ SGML^ocirce Adobe Interleaf 6 SGMLtrade de la compagnie Interleaf et ADEPT Publisshyher17 reacutealiseacute par ArborText) Il sagit touteshyfois de produits dispendieux et assez comshyplexes agrave manipuler

Notre choix sest arrecircteacute sur le logiciel FrameMaker+SGML en raison de son coucirct abordable et de sa plus grande facilishyteacute de parameacutetrage FrameMaker+SGML permet la creacuteation la modification et la pushyblication de documents SGML dans un enshyvironnement convivial Dans le cadre du projet Eacuterudit nous utilisons uniquement les fonctionnaliteacutes dimportation du SGML et de mise en page sophistiqueacutees offertes par loutil Il sagit ici aussi de deacutefinir un meacutecanisme dapplication de style pour chaque eacuteleacutement en fonction de son contexte SGML Cette feuille de style est dirigeacutee vers la mise en page sur papier (et non agrave leacutecran) et agrave cet effet FrameMashyker+SGML offre la possibiliteacute de parameacuteshytrer plusieurs des caracteacuteristiques requishyses par limprimeacute (par exemple la gestion des veuves et orphelins des paragraphes solidaires les colonnes multiples les noshytes en bas de page les patrons de ceacutesure approprieacutes agrave la fin des lignes les formes des en-tecirctes et bas de pages etc)

Chaque revue possegravede une feuille de style diffeacuterente laquelle a eacuteteacute conccedilue en se basant sur la maquette de la forme imshyprimeacutee deacutejagrave existante des revues particishypantes Les fonctionnaliteacutes de FrameMashyker+SGML nous permettent sans difficulteacute de reproduire de faccedilon presque identique laspect habituel des revues Lapplication dune feuille de style exhaustive et bien conccedilue (quon arrive geacuteneacuteralement agrave obteshynir apregraves un processus de reacuteajustement lors des premiegraveres productions) permet dautomatiser agrave 90 le montage du docushyment ce qui constitue un excellent rendeshyment On doit toutefois faire certaines intershy

ventions manuellement afin de compleacuteter le travail (par exemple deacuteplacer des figushyres condenser lespacement du texte ccedila et lagrave pour forcer un saut de page fractionshyner des notes de bas de page trop lonshygues etc)

Une fois le document monteacute avec FrashymeMaker+SGML il ne reste quagrave produire une version PDF agrave laide du logiciel Acroshybat de Adobe Il sagit lagrave dune opeacuteration sans grande difficulteacute quon peut apparenshyter agrave un simple laquosauvegarder sous PDFraquo On peut ainsi produire un premier fichier PDF de faible reacutesolution destineacute agrave ecirctre vishysionneacute sur le Web et un second fichier PDF de meilleure reacutesolution (ou encore un fichier PostScript) pouvant ecirctre achemineacute agrave latelier de preacutepresse en vue de limpresshysion des exemplaires papier

Pour les usagers la consultation des documents PDF se fait avec le logiciel Acrobat Reader qui existe comme moshydule externe (plug-in) pour les navigateurs Web On peut consulter les documents PDF agrave leacutecran avec ce logiciel mais ils sont plutocirct destineacutes agrave ecirctre imprimeacutes localeshyment par les usagers

Dans le cadre du projet Eacuterudit nous avons produit uniquement des documents PDF destineacutes au Web agrave raison dun fichier unique par article (et non dun fichier regroushypant tout un numeacutero dune revue) puisque les revues poursuivaient pendant la mecircme peacuteriode le traitement habituel pour la proshyduction de la version imprimeacutee de la revue

Diffusion sur le Web

Pour diffuser des documents sur le Web nous avons creacuteeacute un site Web18 heacuteshybergeacute sur notre serveur Web Ce site est la porte dentreacutee principale pour laccegraves aux articles

La diffusion en ligne (et eacutegalement sur ceacutedeacuterom) permet pour le lecteur dacshyceacuteder aux textes agrave laide dun outil de reshycherche Pour ce faire on doit implanter un outil de recherche en texte inteacutegral qui peut indexer des documents SGML tout en conservant linformation sur la strucshyture de faccedilon agrave permettre aux usagers dexprimer des contraintes sur la structure dans leurs requecirctes On peut par exemple preacuteciser la recherche de textes comporshytant le nom dun chercheur mais uniqueshyment lorsque celui-ci se retrouve dans une bibliographie et non en tant quauteur de larticle Dans le cadre du projet Eacuterudit nous avons installeacute sur le site Web un

prototype de moteur de recherche qui doit encore ecirctre ameacutelioreacute La collection indexeacutee comprend lensemble des articles ayant eacuteteacute publieacutes par les revues pendant la dureacutee du projet pilote Il sagit dun mode daccegraves au texte tregraves performant que seule la version eacutelectronique permet dobtenir

Recommandations

Dans la mesure ougrave notre mandat consistait moins en la mise au point dune solution theacuteoriquement optimale quen la conception dune chaicircne de traitement adapteacutee aux besoins du projet (reproducshytion de la forme papier deacutejagrave existante imshypossibiliteacute dintervenir en amont de la chaicircne de production optimisation du traishytement par ladoption dune DTD unique production de divers formats de diffusion) nous avons opteacute pour une solution compreshynant plusieurs sorties intermeacutediaires et cela de faccedilon agrave atteindre de bons reacutesulshytats en matiegravere dautomatisation et de quashyliteacute des textes produits Nous estimons avoir atteint agrave 95 ces objectifs de producshytion

Il va sans dire que la DTD a ducirc ecirctre constamment remanieacutee afin de sadapter agrave lensemble des documents agrave produire Nous avons ducirc opter pour une DTD qui au fur et agrave mesure de lavancement du projet devenait plus permissive de maniegravere agrave geacuteshyneacuterer en bout de ligne du SGML valide respectant linteacutegriteacute et la preacutesentation des contenus des articles

Le projet Eacuterudit aura mis en lumiegravere lextrecircme importance dans une perspecshytive dautomatisation des opeacuterations de la chaicircne documentaire de deacutefinir une strucshyture une preacutesentation et dans une cershytaine mesure un contenu normaliseacute des documents agrave traiter La production mecircme de textes destineacutes agrave ecirctre baliseacutes en SGML peut donc faire lobjet de certaines recomshymandations dont plusieurs savegraverent applishycables dans une optique de sensibilisation des comiteacutes de revues et de formation du personnel chargeacute de la reacutevision et de la correction des textes Cest ainsi quil y aushyrait lieu de deacutefinir (ou renforcer) pour chaque revueraquo un modegravele normaliseacute quant

15 ltURL http wwwadobecomprodindexframe makerprodinfosgmlhtmlgt

16 ltUEL http wwwinterleafcomproducts p_sgmlhtmlgt

17 ltURL http wwwarbortextcomProducts AcircDEPT_Seriesadept_serieshtmlgt

18 ltURLhttpwwweruditorggt

octobre-deacutecembre 1999 171

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999

Page 10: De l’imprimé vers l’électronique : réflexions et solutions

Documentation et bibliothegraveques

Eacutepreuves eacutelectroniques

Depuis la fin du projet Eacuterudit nous avons testeacute linteacutegration du processus de reacutevision des eacutepreuves dans la chaicircne de traitement Dans un processus plus tradishytionnel cette reacutevision se fait habituelleshyment sur les eacutepreuves imprimeacutees des artishycles une fois la mise en page effectueacutee agrave laide de logiciels de PAO Les corrections apporteacutees peuvent ecirctre agrave la fois de nature orthographique syntaxique typograshyphique et peuvent aussi concerner des asshypects du montage La diffusion du mecircme contenu sur plusieurs supports de diffushysion nous amegravene agrave discerner entre les corshyrections devant ecirctre repiqueacutees dans le fishychier initial de traitement de texte (de fashyccedilon agrave ce que lensemble des formats de difshyfusion profitent de ces modifications) des corrections sappliquant uniquement agrave la mise en page papier Nous produisons donc maintenant des laquoeacutepreuves eacutelectronishyques raquo cest-agrave-dire des sorties imprimeacutees obtenues agrave partir dun logiciel de PAO soit FrameMaker+SGML (voir plus loin pour la description de cette eacutetape) sans avoir agrave efshyfectuer dimportantes interventions mashynuelles au niveau du montage Sur ces eacutepreuves sont apporteacutees les corrections se rapportant au texte (et non agrave sa mise en page en vue de limprimeacute) lesquelles seshyront ensuite repiqueacutees dans le fichier Word initial qui servira agrave la reacutegeacuteneacuteration des diffeacuterents formats produits Dans la perspective ougrave plusieurs formats diffeacuteshyrents (SGML HTML PDF) sont produits agrave partir dun mecircme fichier initial on comprenshydra linteacuterecirct deffectuer un maximum de corrections en amont (donc degraves la reacutevision du fichier Word) et non en aval sur un forshymat en particulier plutocirct que sur un autre

Traitement des images

Les illustrations que peuvent comporshyter les articles parviennent habituellement aux responsables des revues sous diffeacuteshyrentes formes photos impressions laser velox etc et plus rarement sous forme eacutelectronique fichiers vectoriel ou bitmap provenant de logiciels graphiques et imashyges numeacuteriseacutees Traditionnellement ces images sont inseacutereacutees dans le texte au moment du montage de la copie agrave imprishymer par le typographe qui les numeacuterise et les retouche ou encore par le technicien de latelier de preacuteimpression qui les reproshyduit par proceacutedeacute photographique

Linteacutegration des images dans la chaicircne de traitement Eacuterudit est de beaushycoup faciliteacutee si ces documents nous parshyviennent en format numeacuterique Les imashyges sont traiteacutees comme des fichiers seacutepashyreacutes qui sont reacutefeacutereacutes agrave partir des docushyments

Les secreacutetariats des revues neacutetant habituellement pas eacutequipeacutes en mateacuteriel et savoir-faire pour manipuler des images ce type dintervention sera effectueacute par le fournisseur de services en loccurrence leacutequipe dEacuterudit Cependant les comiteacutes de revues devraient tenter dobtenir des auteurs autant que faire se peut une vershysion des images en format eacutelectronique Ces images devraient toujours ecirctre de tregraves bonne qualiteacute (avec une haute reacutesolution et si deacutesireacute en couleurs) afin de servir agrave larchivage Cest agrave partir des images de bonne qualiteacute quon effectuera le traiteshyment (surtout des modifications de forshymats de fichiers des baisses de reacutesolushytion des sauvegardes en noir et blanc) en vue des diffeacuterents modes de diffusion (arshychivage Web et imprimeacute) Afin de standarshydiser le processus de traitement des imashyges nous avons eacutetabli des proceacutedures norshymaliseacutees Enfin bien que cela ne se soit pas encore produit un type dintervention de mecircme nature est agrave preacuteconiser pour dautres formats non textuels (videacuteo son images 3D etc)

Nous avons exposeacute dans cette section les diffeacuterents eacuteleacutements portant sur le preacutetraitement des textes soit lapplicashytion des styles et le traitement des images Une fois le document preacutetraiteacute il est precirct agrave ecirctre converti en SGML

Conversion en SGML

Puisque la feuille de style utiliseacutee pour styler les documents a eacuteteacute conccedilue en fonction dun passage efficace vers un doshycument SGML respectant la DTD PUM une conversion relativement automatique est possible Cette conversion qui consiste en linterpreacutetation des informashytions existantes et lajout dinformations deacuteshyriveacutees requiert cependant un outil speacutecialishyseacute Il serait agrave ce point-ci de la discussion important dexpliquer la diffeacuterence entre Une conversion de donneacutees au sens SGML et une traduction de donneacutees

Une traduction est une opeacuteration qui consiste agrave prendre un ensemble de donshyneacutees (information et mise en forme confonshydus) dun format proprieacutetaire et le traduire

en un ensemble eacutequivalent qui peut ecirctre inshyterpreacuteteacute et eacutediteacute dans un autre logiciel utilishysant un format proprieacutetaire (par exemple passer un document de Word agrave WordPershyfect) Au contraire une conversion vers SGML implique deacutetablir un lien entre un document dans un format proprieacutetaire (ougrave la structure logique est habituellement perccedilue de faccedilon visuelle par le lecteur) agrave un document SGML laquointelligentraquo (ougrave la structure logique est codeacutee de faccedilon explishycite suivant une DTD donneacutee)

Une conversion enrichissante (traducshytion libre de up conversion) est une convershysion dun format plat vers un format seacutemanshytique structureacute (par exemple dun format WordPerfect vers un format SGML) ou plus preacuteciseacutement une conversion de donshyneacutees textuelles dun format dencodage arshybitraire vers une instance SGML valide Une conversion appauvrissante (traducshytion libre de down conversion) quant agrave elle consiste en une conversion dun forshymat logique vers un format proprieacutetaire (par exemple dun format SGML vers un format MS Word) Ce type de conversion est la cleacute du succegraves de SGML puisquelle assure une complegravete reacuteutilisation des donshyneacutees Agrave partir dun format SGML la convershysion peut ecirctre facilement automatiseacutee tout en conservant linteacutegriteacute des donneacutees

Il existe plusieurs produits logiciels apshytes agrave convertir des textes dun format agrave un autre Ces produits sont disponibles essenshytiellement sous la forme de programmes ou de solutions parameacutetrables12 Nous avons opteacute pour le langage de programmashytion speacutecialiseacute OmniMarkreg

Nous effectuons la conversion en deux eacutetapes dont la premiegravere est reacutealiseacutee agrave laide dun programme en langage OmnishyMark disponible gratuitement13 La seshyconde eacutetape se charge dajouter une strucshyture seacutemantique normaliseacutee pour la desshycription darticles savants et introduira de linformation suppleacutementaire agrave valeur ajouteacutee Ainsi nous creacuteons sans aucune intervention manuelle des liens entre les appels de reacutefeacuterences dans le texte et les reacutefeacuterences bibliographiques agrave la fin du

12 Pour une liste exhaustive de ce genre de produit consulter la rubrique laquo Conversion Program raquo dans Survey of software for structured text par Eila Kuikka et Erja Nikunen ltURL http www xsukufi~kuikkasys-temshtmlgt

13 Il sagit de RTF2XML (auparavant RTF2SGML) deacuteshyveloppeacute par Rick Geimer ltURLhttpwwwxme-ta comomlettegt

octobre-deacutecembre 1999 169

Documentation et bibliothegraveques

texte Pour ce faire il faut analyser meacuteticu-leusement les syntaxes de reacutefeacuterences utilishyseacutees par chaque revue [par exemple laquo(Vaugeois et Hubert 1993a)raquo ou laquo(Va-Hu93a) raquo] afin deacutetablir des patrons de reshyconnaissance sur lesquels on peut enshysuite bacirctir des regravegles de programmation Cette deuxiegraveme eacutetape est effectueacutee par un programme en langage OmniMark reacutealiseacute dans le cadre du projet Eacuterudit

Formats de diffusion

Les formats de diffusion choisis doishyvent permettre de satisfaire les habitudes de lecture et les besoins de consultation qui diffegraverent dun usager agrave lautre Ainsi nous preacuteconisons la diffusion des docushyments en plusieurs formats Notre modegravele de diffusion est baseacute sur le document dans sa version SGML Ce document eacutelecshytronique unique constitue la source de plushysieurs sous-produits qui sont autant de forshymats de sortie possibles Les supports de diffusion qui sont compatibles avec ces forshymats sont divers diffusion en ligne (Web) diffusion sur ceacutedeacuterom diffusion sur papier Dans le cadre du projet Eacuterudit nous avons consideacutereacute trois formats de sortie (HTML SGML et PDF) Nous avons eacutegalement deacuteshycideacute deacute rendre disponible le format SGML ce dernier se precirctant tregraves bien agrave la consulshytation dans la mesure ougrave les navigateurs SGML sont capables dexploiter la strucshyture des documents de faccedilon agrave offrir un enshyvironnement de lecture plus sophistiqueacute et complet Enfin le format PDF permet la difshyfusion de documents eacutelectroniques reproshyduisant la mise en page choisie par les difshyfuseurs Ce format est tout agrave fait approprieacute pour limpression agrave distance Nous envisashygeons agrave court terme doffrir eacutegalement le format XML qui peut ecirctre consulteacute agrave laide des versions 5 des navigateurs Internet Explorer et Netscape Navigator

Un principe de base de la philosophie SGML voulant que linformation une fois baliseacutee en SGML puisse ecirctre reacuteutiliseacutee plusieurs fois et cela avec diffeacuterentes sashyveurs tant dans linteacutegraliteacute du contenu (en tout ou en parties) que dans la forme du contenant (dans un format particulier) il est tout naturel de convertir les fichiers SGML en fichiers HTML Il sagit en fait dune conversion SGML (DTD PUM soit la DTD deacuteveloppeacutee aux Presses de lUnishyversiteacute de Montreacuteal pour reacutepondre aux beshysoins de balisage des revues savantes) vers SGML (DTD HTML) Ainsi les artishy

cles sont convertis automatiquement en HTML agrave laide dun autre programme OmniMark Nous produisons de la mecircme faccedilon une table des matiegraveres pour chaque numeacutero de revue Cette table des matiegraveres ne provient pas dun document initial unique saisi sous forme de table des matiegraveres mais plutocirct de la concateacutenation dinformations reacutecupeacutereacutees dans lenshysemble des articles (titres sous-titres auteurs) en format SGML Cest un bon exemple de reacuteutilisation de linformation

Puisque lensemble des documents produits sont baseacutes sur la DTD PUM la conversion du SGML vers le HTML est reacuteashyliseacutee par un seul programme de convershysion pour lensemble des revues Ce proshygramme comporte cependant quelques particulariteacutes de preacutesentation propres agrave chaque revue et dune telle pratique reacuteshysulte une apparence assez semblable pour chacune des revues La fabrication dune signature dune maquette diffeacuterente pour chaque revue est reacutealiseacutee agrave laide dune feuille de style CSS (Cascading Style Sheet) fonction de plus en plus supshyporteacutee par les navigateurs Web

Pour linstant nous stockons sur notre serveur Web la version HTML preacuteshyconvertie Cependant la conversion tant pour les articles que pour la table des mashytiegraveres pourrait aiseacutement ecirctre faite laquoagrave la voleacutee raquo (on the fy) puisquil ny a aucune inshytervention manuelle sur les fichiers HTML On pourrait facilement faire en sorte quau moment ougrave lutilisateur par le biais de son client Web fait la demande dun fichier HTML (par exemple un article donneacute) le serveur (sur lequel serait installeacute OmnishyMark) convertisse leacute fichier SGML en fishychier HTML Ceci aurait pour avantage doccuper moins despace disque (environ la moitieacute de moins puisque seule la vershysion SGML serait stockeacutee et que le rapport SGMLHTML doit plus ou moins ecirctre eacutegal agrave 1 ) Il resterait agrave sassurer de deacutelais de reacuteshyponses acceptables

SGML

Les utilisateurs peuvent visionner les documents SGML agrave laide de Panorama Viewer de Interleaf14 un navigateur SGML qui sinstalle comme module exshyterne (plug-in) dun navigateur Web tel Netscape Navigator

Panorama Viewer permet de creacuteer des liens entre diffeacuterentes parties des doshycuments ou diffeacuterents documents Il pershy

met eacutegalement de preacutesenter des tables des matiegraveres dynamiques qui constituent des aides agrave la navigation Une autre foncshytion de Panorama offre la possibiliteacute danshynoter nimporte quelle partie dun docushyment y compris une zone dune figure deacuteshytermineacutee par le lecteur Enfin il permet dajouter des signets dans un document

La diffusion des articles en format SGML requiert peu defforts puisquil sagit du format natif des documents Pour ecirctre plus exact nous diffusons une vershysion SGML agrave peine diffeacuterente de la version produite lors de leffort de conversion enshyrichie deacutecrite preacuteceacutedemment Cette diffeacuteshyrence minime tient exclusivement agrave la non-reconnaissance par le navigateur SGML de certains caractegraveres eacutetrangers et symshyboles particuliers Panorama Viewer eacutetant en mesure de lire du SGML il faut simpleshyment lui indiquer la mise en forme propre aux diffeacuterents eacuteleacutements rencontreacutes Ces instructions de formatage sont donneacutees sous la forme dune feuille de style La creacuteation dune feuille de style ne seffectue normalement quune seule fois par revue (voire mecircme par DTD utiliseacutee si on deacutesire des produits normaliseacutes et identiques) Ainsi nous avons creacuteeacute des feuilles de style et des formats de tables des matiegraveres dyshynamiques (navigators) pour chaque revue de maniegravere agrave donner agrave chacune une signashyture caracteacuteristique

PDF

Linteacuterecirct du PDF reacuteside dans lobtenshytion dun document eacutelectronique arborant un format de preacutesentation semblable agrave limshyprimeacute Un tel format permet aux lecteurs dimprimer une version laquomise en page papierraquo des articles diffuseacutes en ligne Les navigateurs SGML ou HTML dont nous avons discuteacute preacuteceacutedemment permettent eacutegalement limpression mais la qualiteacute de la mise en page nest pas aussi complexe et soigneacutee puisque les feuilles de style des navigateurs Web sont destineacutees avant tout agrave la preacutesentation agrave leacutecran Notons cepenshydant quil existe des feuilles de style (CSS et XSL) normaliseacutees ougrave on a preacutevu une mise en page sophistiqueacutee en fonction de diffeacuterents meacutedias (eacutecran terminal reacuteduit imprimeacute synthegravese vocale) Agrave moyen terme on pourrait entrevoir que les

14 ltURL http wwwinterleafcomPanoramapa -ge3htmlgt

170 octobre-deacutecembre 1999

Documentation et bibliothegraveques

formats HTML et PDF seront remplaceacutes par un seul document source XML coupleacute agrave des feuilles de style qui seront fonction du meacutedia employeacute

laquo La grande majoriteacute des logiciels de PAO sur le marcheacute (les plus connus eacutetant PageMaker et Xpress) permettent une saushyvegarde en format PDF pour diffusion sur le Web Ces logiciels ne sont cependant pas en mesure de lire en intrant input) un fichier SGML ni de linterpreacuteter correcteshyment Il existe toutefois des outils perforshymants capables agrave la fois de prendre en inshytrant du SGML et de permettre une mise en page professionnelle (FrameMaker+ SGML^ocirce Adobe Interleaf 6 SGMLtrade de la compagnie Interleaf et ADEPT Publisshyher17 reacutealiseacute par ArborText) Il sagit touteshyfois de produits dispendieux et assez comshyplexes agrave manipuler

Notre choix sest arrecircteacute sur le logiciel FrameMaker+SGML en raison de son coucirct abordable et de sa plus grande facilishyteacute de parameacutetrage FrameMaker+SGML permet la creacuteation la modification et la pushyblication de documents SGML dans un enshyvironnement convivial Dans le cadre du projet Eacuterudit nous utilisons uniquement les fonctionnaliteacutes dimportation du SGML et de mise en page sophistiqueacutees offertes par loutil Il sagit ici aussi de deacutefinir un meacutecanisme dapplication de style pour chaque eacuteleacutement en fonction de son contexte SGML Cette feuille de style est dirigeacutee vers la mise en page sur papier (et non agrave leacutecran) et agrave cet effet FrameMashyker+SGML offre la possibiliteacute de parameacuteshytrer plusieurs des caracteacuteristiques requishyses par limprimeacute (par exemple la gestion des veuves et orphelins des paragraphes solidaires les colonnes multiples les noshytes en bas de page les patrons de ceacutesure approprieacutes agrave la fin des lignes les formes des en-tecirctes et bas de pages etc)

Chaque revue possegravede une feuille de style diffeacuterente laquelle a eacuteteacute conccedilue en se basant sur la maquette de la forme imshyprimeacutee deacutejagrave existante des revues particishypantes Les fonctionnaliteacutes de FrameMashyker+SGML nous permettent sans difficulteacute de reproduire de faccedilon presque identique laspect habituel des revues Lapplication dune feuille de style exhaustive et bien conccedilue (quon arrive geacuteneacuteralement agrave obteshynir apregraves un processus de reacuteajustement lors des premiegraveres productions) permet dautomatiser agrave 90 le montage du docushyment ce qui constitue un excellent rendeshyment On doit toutefois faire certaines intershy

ventions manuellement afin de compleacuteter le travail (par exemple deacuteplacer des figushyres condenser lespacement du texte ccedila et lagrave pour forcer un saut de page fractionshyner des notes de bas de page trop lonshygues etc)

Une fois le document monteacute avec FrashymeMaker+SGML il ne reste quagrave produire une version PDF agrave laide du logiciel Acroshybat de Adobe Il sagit lagrave dune opeacuteration sans grande difficulteacute quon peut apparenshyter agrave un simple laquosauvegarder sous PDFraquo On peut ainsi produire un premier fichier PDF de faible reacutesolution destineacute agrave ecirctre vishysionneacute sur le Web et un second fichier PDF de meilleure reacutesolution (ou encore un fichier PostScript) pouvant ecirctre achemineacute agrave latelier de preacutepresse en vue de limpresshysion des exemplaires papier

Pour les usagers la consultation des documents PDF se fait avec le logiciel Acrobat Reader qui existe comme moshydule externe (plug-in) pour les navigateurs Web On peut consulter les documents PDF agrave leacutecran avec ce logiciel mais ils sont plutocirct destineacutes agrave ecirctre imprimeacutes localeshyment par les usagers

Dans le cadre du projet Eacuterudit nous avons produit uniquement des documents PDF destineacutes au Web agrave raison dun fichier unique par article (et non dun fichier regroushypant tout un numeacutero dune revue) puisque les revues poursuivaient pendant la mecircme peacuteriode le traitement habituel pour la proshyduction de la version imprimeacutee de la revue

Diffusion sur le Web

Pour diffuser des documents sur le Web nous avons creacuteeacute un site Web18 heacuteshybergeacute sur notre serveur Web Ce site est la porte dentreacutee principale pour laccegraves aux articles

La diffusion en ligne (et eacutegalement sur ceacutedeacuterom) permet pour le lecteur dacshyceacuteder aux textes agrave laide dun outil de reshycherche Pour ce faire on doit implanter un outil de recherche en texte inteacutegral qui peut indexer des documents SGML tout en conservant linformation sur la strucshyture de faccedilon agrave permettre aux usagers dexprimer des contraintes sur la structure dans leurs requecirctes On peut par exemple preacuteciser la recherche de textes comporshytant le nom dun chercheur mais uniqueshyment lorsque celui-ci se retrouve dans une bibliographie et non en tant quauteur de larticle Dans le cadre du projet Eacuterudit nous avons installeacute sur le site Web un

prototype de moteur de recherche qui doit encore ecirctre ameacutelioreacute La collection indexeacutee comprend lensemble des articles ayant eacuteteacute publieacutes par les revues pendant la dureacutee du projet pilote Il sagit dun mode daccegraves au texte tregraves performant que seule la version eacutelectronique permet dobtenir

Recommandations

Dans la mesure ougrave notre mandat consistait moins en la mise au point dune solution theacuteoriquement optimale quen la conception dune chaicircne de traitement adapteacutee aux besoins du projet (reproducshytion de la forme papier deacutejagrave existante imshypossibiliteacute dintervenir en amont de la chaicircne de production optimisation du traishytement par ladoption dune DTD unique production de divers formats de diffusion) nous avons opteacute pour une solution compreshynant plusieurs sorties intermeacutediaires et cela de faccedilon agrave atteindre de bons reacutesulshytats en matiegravere dautomatisation et de quashyliteacute des textes produits Nous estimons avoir atteint agrave 95 ces objectifs de producshytion

Il va sans dire que la DTD a ducirc ecirctre constamment remanieacutee afin de sadapter agrave lensemble des documents agrave produire Nous avons ducirc opter pour une DTD qui au fur et agrave mesure de lavancement du projet devenait plus permissive de maniegravere agrave geacuteshyneacuterer en bout de ligne du SGML valide respectant linteacutegriteacute et la preacutesentation des contenus des articles

Le projet Eacuterudit aura mis en lumiegravere lextrecircme importance dans une perspecshytive dautomatisation des opeacuterations de la chaicircne documentaire de deacutefinir une strucshyture une preacutesentation et dans une cershytaine mesure un contenu normaliseacute des documents agrave traiter La production mecircme de textes destineacutes agrave ecirctre baliseacutes en SGML peut donc faire lobjet de certaines recomshymandations dont plusieurs savegraverent applishycables dans une optique de sensibilisation des comiteacutes de revues et de formation du personnel chargeacute de la reacutevision et de la correction des textes Cest ainsi quil y aushyrait lieu de deacutefinir (ou renforcer) pour chaque revueraquo un modegravele normaliseacute quant

15 ltURL http wwwadobecomprodindexframe makerprodinfosgmlhtmlgt

16 ltUEL http wwwinterleafcomproducts p_sgmlhtmlgt

17 ltURL http wwwarbortextcomProducts AcircDEPT_Seriesadept_serieshtmlgt

18 ltURLhttpwwweruditorggt

octobre-deacutecembre 1999 171

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999

Page 11: De l’imprimé vers l’électronique : réflexions et solutions

Documentation et bibliothegraveques

texte Pour ce faire il faut analyser meacuteticu-leusement les syntaxes de reacutefeacuterences utilishyseacutees par chaque revue [par exemple laquo(Vaugeois et Hubert 1993a)raquo ou laquo(Va-Hu93a) raquo] afin deacutetablir des patrons de reshyconnaissance sur lesquels on peut enshysuite bacirctir des regravegles de programmation Cette deuxiegraveme eacutetape est effectueacutee par un programme en langage OmniMark reacutealiseacute dans le cadre du projet Eacuterudit

Formats de diffusion

Les formats de diffusion choisis doishyvent permettre de satisfaire les habitudes de lecture et les besoins de consultation qui diffegraverent dun usager agrave lautre Ainsi nous preacuteconisons la diffusion des docushyments en plusieurs formats Notre modegravele de diffusion est baseacute sur le document dans sa version SGML Ce document eacutelecshytronique unique constitue la source de plushysieurs sous-produits qui sont autant de forshymats de sortie possibles Les supports de diffusion qui sont compatibles avec ces forshymats sont divers diffusion en ligne (Web) diffusion sur ceacutedeacuterom diffusion sur papier Dans le cadre du projet Eacuterudit nous avons consideacutereacute trois formats de sortie (HTML SGML et PDF) Nous avons eacutegalement deacuteshycideacute deacute rendre disponible le format SGML ce dernier se precirctant tregraves bien agrave la consulshytation dans la mesure ougrave les navigateurs SGML sont capables dexploiter la strucshyture des documents de faccedilon agrave offrir un enshyvironnement de lecture plus sophistiqueacute et complet Enfin le format PDF permet la difshyfusion de documents eacutelectroniques reproshyduisant la mise en page choisie par les difshyfuseurs Ce format est tout agrave fait approprieacute pour limpression agrave distance Nous envisashygeons agrave court terme doffrir eacutegalement le format XML qui peut ecirctre consulteacute agrave laide des versions 5 des navigateurs Internet Explorer et Netscape Navigator

Un principe de base de la philosophie SGML voulant que linformation une fois baliseacutee en SGML puisse ecirctre reacuteutiliseacutee plusieurs fois et cela avec diffeacuterentes sashyveurs tant dans linteacutegraliteacute du contenu (en tout ou en parties) que dans la forme du contenant (dans un format particulier) il est tout naturel de convertir les fichiers SGML en fichiers HTML Il sagit en fait dune conversion SGML (DTD PUM soit la DTD deacuteveloppeacutee aux Presses de lUnishyversiteacute de Montreacuteal pour reacutepondre aux beshysoins de balisage des revues savantes) vers SGML (DTD HTML) Ainsi les artishy

cles sont convertis automatiquement en HTML agrave laide dun autre programme OmniMark Nous produisons de la mecircme faccedilon une table des matiegraveres pour chaque numeacutero de revue Cette table des matiegraveres ne provient pas dun document initial unique saisi sous forme de table des matiegraveres mais plutocirct de la concateacutenation dinformations reacutecupeacutereacutees dans lenshysemble des articles (titres sous-titres auteurs) en format SGML Cest un bon exemple de reacuteutilisation de linformation

Puisque lensemble des documents produits sont baseacutes sur la DTD PUM la conversion du SGML vers le HTML est reacuteashyliseacutee par un seul programme de convershysion pour lensemble des revues Ce proshygramme comporte cependant quelques particulariteacutes de preacutesentation propres agrave chaque revue et dune telle pratique reacuteshysulte une apparence assez semblable pour chacune des revues La fabrication dune signature dune maquette diffeacuterente pour chaque revue est reacutealiseacutee agrave laide dune feuille de style CSS (Cascading Style Sheet) fonction de plus en plus supshyporteacutee par les navigateurs Web

Pour linstant nous stockons sur notre serveur Web la version HTML preacuteshyconvertie Cependant la conversion tant pour les articles que pour la table des mashytiegraveres pourrait aiseacutement ecirctre faite laquoagrave la voleacutee raquo (on the fy) puisquil ny a aucune inshytervention manuelle sur les fichiers HTML On pourrait facilement faire en sorte quau moment ougrave lutilisateur par le biais de son client Web fait la demande dun fichier HTML (par exemple un article donneacute) le serveur (sur lequel serait installeacute OmnishyMark) convertisse leacute fichier SGML en fishychier HTML Ceci aurait pour avantage doccuper moins despace disque (environ la moitieacute de moins puisque seule la vershysion SGML serait stockeacutee et que le rapport SGMLHTML doit plus ou moins ecirctre eacutegal agrave 1 ) Il resterait agrave sassurer de deacutelais de reacuteshyponses acceptables

SGML

Les utilisateurs peuvent visionner les documents SGML agrave laide de Panorama Viewer de Interleaf14 un navigateur SGML qui sinstalle comme module exshyterne (plug-in) dun navigateur Web tel Netscape Navigator

Panorama Viewer permet de creacuteer des liens entre diffeacuterentes parties des doshycuments ou diffeacuterents documents Il pershy

met eacutegalement de preacutesenter des tables des matiegraveres dynamiques qui constituent des aides agrave la navigation Une autre foncshytion de Panorama offre la possibiliteacute danshynoter nimporte quelle partie dun docushyment y compris une zone dune figure deacuteshytermineacutee par le lecteur Enfin il permet dajouter des signets dans un document

La diffusion des articles en format SGML requiert peu defforts puisquil sagit du format natif des documents Pour ecirctre plus exact nous diffusons une vershysion SGML agrave peine diffeacuterente de la version produite lors de leffort de conversion enshyrichie deacutecrite preacuteceacutedemment Cette diffeacuteshyrence minime tient exclusivement agrave la non-reconnaissance par le navigateur SGML de certains caractegraveres eacutetrangers et symshyboles particuliers Panorama Viewer eacutetant en mesure de lire du SGML il faut simpleshyment lui indiquer la mise en forme propre aux diffeacuterents eacuteleacutements rencontreacutes Ces instructions de formatage sont donneacutees sous la forme dune feuille de style La creacuteation dune feuille de style ne seffectue normalement quune seule fois par revue (voire mecircme par DTD utiliseacutee si on deacutesire des produits normaliseacutes et identiques) Ainsi nous avons creacuteeacute des feuilles de style et des formats de tables des matiegraveres dyshynamiques (navigators) pour chaque revue de maniegravere agrave donner agrave chacune une signashyture caracteacuteristique

PDF

Linteacuterecirct du PDF reacuteside dans lobtenshytion dun document eacutelectronique arborant un format de preacutesentation semblable agrave limshyprimeacute Un tel format permet aux lecteurs dimprimer une version laquomise en page papierraquo des articles diffuseacutes en ligne Les navigateurs SGML ou HTML dont nous avons discuteacute preacuteceacutedemment permettent eacutegalement limpression mais la qualiteacute de la mise en page nest pas aussi complexe et soigneacutee puisque les feuilles de style des navigateurs Web sont destineacutees avant tout agrave la preacutesentation agrave leacutecran Notons cepenshydant quil existe des feuilles de style (CSS et XSL) normaliseacutees ougrave on a preacutevu une mise en page sophistiqueacutee en fonction de diffeacuterents meacutedias (eacutecran terminal reacuteduit imprimeacute synthegravese vocale) Agrave moyen terme on pourrait entrevoir que les

14 ltURL http wwwinterleafcomPanoramapa -ge3htmlgt

170 octobre-deacutecembre 1999

Documentation et bibliothegraveques

formats HTML et PDF seront remplaceacutes par un seul document source XML coupleacute agrave des feuilles de style qui seront fonction du meacutedia employeacute

laquo La grande majoriteacute des logiciels de PAO sur le marcheacute (les plus connus eacutetant PageMaker et Xpress) permettent une saushyvegarde en format PDF pour diffusion sur le Web Ces logiciels ne sont cependant pas en mesure de lire en intrant input) un fichier SGML ni de linterpreacuteter correcteshyment Il existe toutefois des outils perforshymants capables agrave la fois de prendre en inshytrant du SGML et de permettre une mise en page professionnelle (FrameMaker+ SGML^ocirce Adobe Interleaf 6 SGMLtrade de la compagnie Interleaf et ADEPT Publisshyher17 reacutealiseacute par ArborText) Il sagit touteshyfois de produits dispendieux et assez comshyplexes agrave manipuler

Notre choix sest arrecircteacute sur le logiciel FrameMaker+SGML en raison de son coucirct abordable et de sa plus grande facilishyteacute de parameacutetrage FrameMaker+SGML permet la creacuteation la modification et la pushyblication de documents SGML dans un enshyvironnement convivial Dans le cadre du projet Eacuterudit nous utilisons uniquement les fonctionnaliteacutes dimportation du SGML et de mise en page sophistiqueacutees offertes par loutil Il sagit ici aussi de deacutefinir un meacutecanisme dapplication de style pour chaque eacuteleacutement en fonction de son contexte SGML Cette feuille de style est dirigeacutee vers la mise en page sur papier (et non agrave leacutecran) et agrave cet effet FrameMashyker+SGML offre la possibiliteacute de parameacuteshytrer plusieurs des caracteacuteristiques requishyses par limprimeacute (par exemple la gestion des veuves et orphelins des paragraphes solidaires les colonnes multiples les noshytes en bas de page les patrons de ceacutesure approprieacutes agrave la fin des lignes les formes des en-tecirctes et bas de pages etc)

Chaque revue possegravede une feuille de style diffeacuterente laquelle a eacuteteacute conccedilue en se basant sur la maquette de la forme imshyprimeacutee deacutejagrave existante des revues particishypantes Les fonctionnaliteacutes de FrameMashyker+SGML nous permettent sans difficulteacute de reproduire de faccedilon presque identique laspect habituel des revues Lapplication dune feuille de style exhaustive et bien conccedilue (quon arrive geacuteneacuteralement agrave obteshynir apregraves un processus de reacuteajustement lors des premiegraveres productions) permet dautomatiser agrave 90 le montage du docushyment ce qui constitue un excellent rendeshyment On doit toutefois faire certaines intershy

ventions manuellement afin de compleacuteter le travail (par exemple deacuteplacer des figushyres condenser lespacement du texte ccedila et lagrave pour forcer un saut de page fractionshyner des notes de bas de page trop lonshygues etc)

Une fois le document monteacute avec FrashymeMaker+SGML il ne reste quagrave produire une version PDF agrave laide du logiciel Acroshybat de Adobe Il sagit lagrave dune opeacuteration sans grande difficulteacute quon peut apparenshyter agrave un simple laquosauvegarder sous PDFraquo On peut ainsi produire un premier fichier PDF de faible reacutesolution destineacute agrave ecirctre vishysionneacute sur le Web et un second fichier PDF de meilleure reacutesolution (ou encore un fichier PostScript) pouvant ecirctre achemineacute agrave latelier de preacutepresse en vue de limpresshysion des exemplaires papier

Pour les usagers la consultation des documents PDF se fait avec le logiciel Acrobat Reader qui existe comme moshydule externe (plug-in) pour les navigateurs Web On peut consulter les documents PDF agrave leacutecran avec ce logiciel mais ils sont plutocirct destineacutes agrave ecirctre imprimeacutes localeshyment par les usagers

Dans le cadre du projet Eacuterudit nous avons produit uniquement des documents PDF destineacutes au Web agrave raison dun fichier unique par article (et non dun fichier regroushypant tout un numeacutero dune revue) puisque les revues poursuivaient pendant la mecircme peacuteriode le traitement habituel pour la proshyduction de la version imprimeacutee de la revue

Diffusion sur le Web

Pour diffuser des documents sur le Web nous avons creacuteeacute un site Web18 heacuteshybergeacute sur notre serveur Web Ce site est la porte dentreacutee principale pour laccegraves aux articles

La diffusion en ligne (et eacutegalement sur ceacutedeacuterom) permet pour le lecteur dacshyceacuteder aux textes agrave laide dun outil de reshycherche Pour ce faire on doit implanter un outil de recherche en texte inteacutegral qui peut indexer des documents SGML tout en conservant linformation sur la strucshyture de faccedilon agrave permettre aux usagers dexprimer des contraintes sur la structure dans leurs requecirctes On peut par exemple preacuteciser la recherche de textes comporshytant le nom dun chercheur mais uniqueshyment lorsque celui-ci se retrouve dans une bibliographie et non en tant quauteur de larticle Dans le cadre du projet Eacuterudit nous avons installeacute sur le site Web un

prototype de moteur de recherche qui doit encore ecirctre ameacutelioreacute La collection indexeacutee comprend lensemble des articles ayant eacuteteacute publieacutes par les revues pendant la dureacutee du projet pilote Il sagit dun mode daccegraves au texte tregraves performant que seule la version eacutelectronique permet dobtenir

Recommandations

Dans la mesure ougrave notre mandat consistait moins en la mise au point dune solution theacuteoriquement optimale quen la conception dune chaicircne de traitement adapteacutee aux besoins du projet (reproducshytion de la forme papier deacutejagrave existante imshypossibiliteacute dintervenir en amont de la chaicircne de production optimisation du traishytement par ladoption dune DTD unique production de divers formats de diffusion) nous avons opteacute pour une solution compreshynant plusieurs sorties intermeacutediaires et cela de faccedilon agrave atteindre de bons reacutesulshytats en matiegravere dautomatisation et de quashyliteacute des textes produits Nous estimons avoir atteint agrave 95 ces objectifs de producshytion

Il va sans dire que la DTD a ducirc ecirctre constamment remanieacutee afin de sadapter agrave lensemble des documents agrave produire Nous avons ducirc opter pour une DTD qui au fur et agrave mesure de lavancement du projet devenait plus permissive de maniegravere agrave geacuteshyneacuterer en bout de ligne du SGML valide respectant linteacutegriteacute et la preacutesentation des contenus des articles

Le projet Eacuterudit aura mis en lumiegravere lextrecircme importance dans une perspecshytive dautomatisation des opeacuterations de la chaicircne documentaire de deacutefinir une strucshyture une preacutesentation et dans une cershytaine mesure un contenu normaliseacute des documents agrave traiter La production mecircme de textes destineacutes agrave ecirctre baliseacutes en SGML peut donc faire lobjet de certaines recomshymandations dont plusieurs savegraverent applishycables dans une optique de sensibilisation des comiteacutes de revues et de formation du personnel chargeacute de la reacutevision et de la correction des textes Cest ainsi quil y aushyrait lieu de deacutefinir (ou renforcer) pour chaque revueraquo un modegravele normaliseacute quant

15 ltURL http wwwadobecomprodindexframe makerprodinfosgmlhtmlgt

16 ltUEL http wwwinterleafcomproducts p_sgmlhtmlgt

17 ltURL http wwwarbortextcomProducts AcircDEPT_Seriesadept_serieshtmlgt

18 ltURLhttpwwweruditorggt

octobre-deacutecembre 1999 171

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999

Page 12: De l’imprimé vers l’électronique : réflexions et solutions

Documentation et bibliothegraveques

formats HTML et PDF seront remplaceacutes par un seul document source XML coupleacute agrave des feuilles de style qui seront fonction du meacutedia employeacute

laquo La grande majoriteacute des logiciels de PAO sur le marcheacute (les plus connus eacutetant PageMaker et Xpress) permettent une saushyvegarde en format PDF pour diffusion sur le Web Ces logiciels ne sont cependant pas en mesure de lire en intrant input) un fichier SGML ni de linterpreacuteter correcteshyment Il existe toutefois des outils perforshymants capables agrave la fois de prendre en inshytrant du SGML et de permettre une mise en page professionnelle (FrameMaker+ SGML^ocirce Adobe Interleaf 6 SGMLtrade de la compagnie Interleaf et ADEPT Publisshyher17 reacutealiseacute par ArborText) Il sagit touteshyfois de produits dispendieux et assez comshyplexes agrave manipuler

Notre choix sest arrecircteacute sur le logiciel FrameMaker+SGML en raison de son coucirct abordable et de sa plus grande facilishyteacute de parameacutetrage FrameMaker+SGML permet la creacuteation la modification et la pushyblication de documents SGML dans un enshyvironnement convivial Dans le cadre du projet Eacuterudit nous utilisons uniquement les fonctionnaliteacutes dimportation du SGML et de mise en page sophistiqueacutees offertes par loutil Il sagit ici aussi de deacutefinir un meacutecanisme dapplication de style pour chaque eacuteleacutement en fonction de son contexte SGML Cette feuille de style est dirigeacutee vers la mise en page sur papier (et non agrave leacutecran) et agrave cet effet FrameMashyker+SGML offre la possibiliteacute de parameacuteshytrer plusieurs des caracteacuteristiques requishyses par limprimeacute (par exemple la gestion des veuves et orphelins des paragraphes solidaires les colonnes multiples les noshytes en bas de page les patrons de ceacutesure approprieacutes agrave la fin des lignes les formes des en-tecirctes et bas de pages etc)

Chaque revue possegravede une feuille de style diffeacuterente laquelle a eacuteteacute conccedilue en se basant sur la maquette de la forme imshyprimeacutee deacutejagrave existante des revues particishypantes Les fonctionnaliteacutes de FrameMashyker+SGML nous permettent sans difficulteacute de reproduire de faccedilon presque identique laspect habituel des revues Lapplication dune feuille de style exhaustive et bien conccedilue (quon arrive geacuteneacuteralement agrave obteshynir apregraves un processus de reacuteajustement lors des premiegraveres productions) permet dautomatiser agrave 90 le montage du docushyment ce qui constitue un excellent rendeshyment On doit toutefois faire certaines intershy

ventions manuellement afin de compleacuteter le travail (par exemple deacuteplacer des figushyres condenser lespacement du texte ccedila et lagrave pour forcer un saut de page fractionshyner des notes de bas de page trop lonshygues etc)

Une fois le document monteacute avec FrashymeMaker+SGML il ne reste quagrave produire une version PDF agrave laide du logiciel Acroshybat de Adobe Il sagit lagrave dune opeacuteration sans grande difficulteacute quon peut apparenshyter agrave un simple laquosauvegarder sous PDFraquo On peut ainsi produire un premier fichier PDF de faible reacutesolution destineacute agrave ecirctre vishysionneacute sur le Web et un second fichier PDF de meilleure reacutesolution (ou encore un fichier PostScript) pouvant ecirctre achemineacute agrave latelier de preacutepresse en vue de limpresshysion des exemplaires papier

Pour les usagers la consultation des documents PDF se fait avec le logiciel Acrobat Reader qui existe comme moshydule externe (plug-in) pour les navigateurs Web On peut consulter les documents PDF agrave leacutecran avec ce logiciel mais ils sont plutocirct destineacutes agrave ecirctre imprimeacutes localeshyment par les usagers

Dans le cadre du projet Eacuterudit nous avons produit uniquement des documents PDF destineacutes au Web agrave raison dun fichier unique par article (et non dun fichier regroushypant tout un numeacutero dune revue) puisque les revues poursuivaient pendant la mecircme peacuteriode le traitement habituel pour la proshyduction de la version imprimeacutee de la revue

Diffusion sur le Web

Pour diffuser des documents sur le Web nous avons creacuteeacute un site Web18 heacuteshybergeacute sur notre serveur Web Ce site est la porte dentreacutee principale pour laccegraves aux articles

La diffusion en ligne (et eacutegalement sur ceacutedeacuterom) permet pour le lecteur dacshyceacuteder aux textes agrave laide dun outil de reshycherche Pour ce faire on doit implanter un outil de recherche en texte inteacutegral qui peut indexer des documents SGML tout en conservant linformation sur la strucshyture de faccedilon agrave permettre aux usagers dexprimer des contraintes sur la structure dans leurs requecirctes On peut par exemple preacuteciser la recherche de textes comporshytant le nom dun chercheur mais uniqueshyment lorsque celui-ci se retrouve dans une bibliographie et non en tant quauteur de larticle Dans le cadre du projet Eacuterudit nous avons installeacute sur le site Web un

prototype de moteur de recherche qui doit encore ecirctre ameacutelioreacute La collection indexeacutee comprend lensemble des articles ayant eacuteteacute publieacutes par les revues pendant la dureacutee du projet pilote Il sagit dun mode daccegraves au texte tregraves performant que seule la version eacutelectronique permet dobtenir

Recommandations

Dans la mesure ougrave notre mandat consistait moins en la mise au point dune solution theacuteoriquement optimale quen la conception dune chaicircne de traitement adapteacutee aux besoins du projet (reproducshytion de la forme papier deacutejagrave existante imshypossibiliteacute dintervenir en amont de la chaicircne de production optimisation du traishytement par ladoption dune DTD unique production de divers formats de diffusion) nous avons opteacute pour une solution compreshynant plusieurs sorties intermeacutediaires et cela de faccedilon agrave atteindre de bons reacutesulshytats en matiegravere dautomatisation et de quashyliteacute des textes produits Nous estimons avoir atteint agrave 95 ces objectifs de producshytion

Il va sans dire que la DTD a ducirc ecirctre constamment remanieacutee afin de sadapter agrave lensemble des documents agrave produire Nous avons ducirc opter pour une DTD qui au fur et agrave mesure de lavancement du projet devenait plus permissive de maniegravere agrave geacuteshyneacuterer en bout de ligne du SGML valide respectant linteacutegriteacute et la preacutesentation des contenus des articles

Le projet Eacuterudit aura mis en lumiegravere lextrecircme importance dans une perspecshytive dautomatisation des opeacuterations de la chaicircne documentaire de deacutefinir une strucshyture une preacutesentation et dans une cershytaine mesure un contenu normaliseacute des documents agrave traiter La production mecircme de textes destineacutes agrave ecirctre baliseacutes en SGML peut donc faire lobjet de certaines recomshymandations dont plusieurs savegraverent applishycables dans une optique de sensibilisation des comiteacutes de revues et de formation du personnel chargeacute de la reacutevision et de la correction des textes Cest ainsi quil y aushyrait lieu de deacutefinir (ou renforcer) pour chaque revueraquo un modegravele normaliseacute quant

15 ltURL http wwwadobecomprodindexframe makerprodinfosgmlhtmlgt

16 ltUEL http wwwinterleafcomproducts p_sgmlhtmlgt

17 ltURL http wwwarbortextcomProducts AcircDEPT_Seriesadept_serieshtmlgt

18 ltURLhttpwwweruditorggt

octobre-deacutecembre 1999 171

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999

Page 13: De l’imprimé vers l’électronique : réflexions et solutions

Documentation et bibliothegraveques

agrave la preacutesentation des textes et surtout de lappliquer de faccedilon rigoureuse

Cet aspect dune importance capishytale pourrait seffectuer notamment par leacutelaboration de documents du type laquoguide ou protocole de reacutedactionraquo et lenshycouragement des auteurs agrave utiliser une feuille de style calqueacutee sur la DTD lashyquelle serait rendue disponible par la revue sur son site Web ou encore directeshyment envoyeacutee aux auteurs par courriel Mentionnons eacutegalement limportance dinshyciter fortement voire dexiger des auteurs des versions eacutelectroniques de bonne qualishyteacute des illustrations accompagnant les artishycles Ces versions eacutelectroniques existent souvent mais pour plusieurs raisons seushyles les versions imprimeacutees parviennent aux comiteacutes des revues

Nous avons entiegraverement baseacute notre chaicircne de production sur le fait que les doshycuments initiaux sont en format de traiteshyment de texte en loccurrence MS Word parce quil sagit de lenvironnement de saisie pour la majoriteacute des auteurs Cepenshydant nous avons constateacute quun nombre tregraves important dinterventions est fait sur le texte au cours du processus editorial de sorte que la somme des modifications des corrections et des ajouts eacutequivaut agrave la ressaisie dune grande partie du texte Puisque de toute faccedilon on devra allouer beaucoup de temps et defforts au remashyniement du texte on pourrait eacutegalement envisager degraves le deacutebut de la chaicircne de traishytement quun responsable de leacutedition ouvre puis travaille le document dans un eacutediteur SGML et produise ainsi une vershysion SGML des textes Les avantagescashyracteacuteristiques dun eacutediteur SGMLXML sont nombreux validation de la syntaxe SGMLXML listes dautoriteacutes et alias pour des valeurs dattributs et de contenus deacuteleacutements environnement personnaliseacute de creacuteation direction dans la structuration du texte en indiquant quels eacuteleacutements sont permis et agrave quelles places dans lavanceshyment de la reacutedaction etc Ceci permet agrave lauteur de gagner du temps et obtenir des reacutesultats plus homogegravenes (tant intra que inshyterdocumentaires) Le produit obtenu est directement du SGMLXML et na pas beshysoin de conversions suppleacutementaires Le travail de diffusion agrave investir en aval de la production du document est donc consideacuteshyrablement reacuteduit

Il sagit de lune des adaptations que lon pourrait faire pour que cette chaicircne de traitement permette aux revues dexploiter

de plus en plus les possibiliteacutes des docushyments eacutelectroniques Pour linstant aushycune des revues traiteacutees dans le cadre de ce projet na veacuteritablement utiliseacute des cashyracteacuteristiques de linformation que lon ne peut reproduire sur papier mais nous sashyvons que lorsque le temps viendra notre modegravele pourra toujours fonctionner

Vers un produit eacutelectronique complet

Tel que mentionneacute au tout deacutebut de cet article la chaicircne de traitement mise en place par leacutequipe dEacuterudit sapparente plus agrave une transposition plutocirct quagrave une transition du processus de production de limprimeacute agrave la production de la forme eacutelecshytronique De nombreux efforts ont ducirc ecirctre investis aupregraves des comiteacutes des revues dans la formation sur lutilisation des foncshytionnaliteacutes de traitement de texte ainsi que dans la standardisation des fichiers soushymis Nous sommes persuadeacutes que nous devons aller de lavant vers la creacuteation de veacuteritables produits eacutelectroniques qui tout en respectant les principes de base de la communication savante tirent tous les avantages de lhypermeacutedia et des reacuteshyseaux On pense agrave lubiquiteacute des publicashytions agrave la recherche plein texte (recherche structureacutee) au court deacutelai de parution des articles agrave la diffusion darticles en devenir (articles en versions intermeacutediaires work in progress) agrave la diffusion seacutelective de linshyformation (DSI) au multimeacutedia agrave lajout de mateacuteriel suppleacutementaire tel donneacutees brutes images couleurs videacuteo etc agrave linshyclusion de laquodonneacutees activesraquo telles eacutequashytions et modegraveles de simulation pouvant ecirctre manipuleacutees par lutilisateur agrave la mise en place de forums deacutechanges agrave la publishycation interactive (soit le concept de Schoshylarly Skywriting deacuteveloppeacute par Harnad 1990) qui permet lajout de commentaires par les pairs et fait de larticle un seacuteminaire permanent au monitoring des utilisations par les usagers etc Certaines de ces vashyleurs ajouteacutees sont deacutejagrave implanteacutees daushytres devront ecirctre optimiseacutees dautres enshycore relegravevent dun avenir plus ou moins lointain Afin datteindre cet objectif de proshyduit eacutelectronique complet nous croyons que nous devons sensibiliser les responsashybles des revues ainsi que de faccedilon indishyrecte les auteurs aux multiples possibilishyteacutes offertes par leacutedition eacutelectronique De cette faccedilon on pourra espeacuterer avoir des

documents sources offrant un veacuteritable potentiel dexploitation du meacutedium eacutelectroshynique

Lexpeacuterience acquise au cours de ce projet a montreacute que notre modegravele eacutetait bien adapteacute aux revues en transit vers leacutelectronique De plus de nombreuses apshyplications SGML (en particulier les Interacshytive Electronic Technical Manualstrade) ont montreacute que ce modegravele pouvait tregraves bien fonctionner pour des publications pureshyment eacutelectroniques et tregraves sophistiqueacutees Par conseacutequent linvestissement dans un tel modegravele risque decirctre payant car il pourshyra accompagner la revue tout au long de son existence en sadaptant aux nouvelshyles technologies ainsi quaux diffeacuterents inshytervenants humains

Sources consulteacutees

Boismenu Geacuterard Martin Seacutevigny Marie-Heacutelegravene Veacutezi-na et Guylaine Beaudry 1999 Le projet Eacuterudit Un laboratoire queacutebeacutecois pour la publication et la diffusion eacutelectroniques des revues universitaires Rapport sur le projet pilote reacutealiseacute par les Presses de lUniversiteacute de Montreacuteal Presses de lUniversishyteacute de Montreacuteal juin 1999 276 p ltURLhttp wwweruditorgeruditrapporthtrnlgt

Bullock Alison 1999 La conservation de linformation numeacuterique ses divers aspects et la situation acshytuelle par Alison Bullock Flash Reacuteseau (Biblioshythegraveque Nationale du Canada) ndeg 60 ltURL http wwwnlc-bnccapubsnetnotesfnotes60htmgt

Dugand-Saenz Martha et Philippe Verdret 1998 Creacuteer des IETM avec la technologie Web ou comment rendre votre HTML intelligent Docushyment numeacuterique 2 (2) 131 -144

Harnad Steve 1990 Scholarly skywriting and the pre-publication continuum of scientific inquiry par Stevan Harnad ltURLhttpwwwcogsciso-tonacuk~harnadPapersHarnadhar-nad90skywritinghtmlgt

Kasdorf Bill 1998 SGML and PDF - Why we need both Journal of Electronic Publishing 3 (4) ltURL http wwwpressumichedujep03-04 kasdorfhtmlgt

Lieb Thorn 1999 HTML PDF and TXT The format wars Journal of Electronic Publishing 5 (1) ltURL http wwwpress urn ichedujep05-01 Iieb0501 htmlgt

Marcoux Yves 1994 Les formats normaliseacutes de docushyments eacutelectroniques ICO Queacutebec 6 (1-2) 56-65 ltURLhttptornadeereumontrealca~mar-couxgrdsico94htmgt

Odlyzko Andrew 1999 Competition and cooperation libraries and publishers in the transition to elecshytronic scholarly journals Journal of Electronic Pushyblishing 4 (4) ltURLhttp wwwpressumichedu jep04-04odlyzko0404htmlgt

19 Il sagit de normes pour la production de manuels techniques tregraves sophistiqueacutes Voir ltURL http wwwietmnetgt

172 octobre-deacutecembre 1999