thésaurus et systèmes de traitement automatique de la langue...cet article vise à illustrer le...

9
Tous droits réservés © Association pour l'avancement des sciences et des techniques de la documentation (ASTED), 2006 Ce document est protégé par la loi sur le droit d’auteur. L’utilisation des services d’Érudit (y compris la reproduction) est assujettie à sa politique d’utilisation que vous pouvez consulter en ligne. https://apropos.erudit.org/fr/usagers/politique-dutilisation/ Cet article est diffusé et préservé par Érudit. Érudit est un consortium interuniversitaire sans but lucratif composé de l’Université de Montréal, l’Université Laval et l’Université du Québec à Montréal. Il a pour mission la promotion et la valorisation de la recherche. https://www.erudit.org/fr/ Document généré le 14 août 2021 11:37 Documentation et bibliothèques Thésaurus et systèmes de traitement automatique de la langue Thesauri and Automatic Language Processing Tesauros y sistemas de tratamiento automático de la lengua Lyne Da Sylva Les langages documentaires Volume 52, numéro 2, avril–juin 2006 URI : https://id.erudit.org/iderudit/1030018ar DOI : https://doi.org/10.7202/1030018ar Aller au sommaire du numéro Éditeur(s) Association pour l'avancement des sciences et des techniques de la documentation (ASTED) ISSN 0315-2340 (imprimé) 2291-8949 (numérique) Découvrir la revue Citer cet article Da Sylva, L. (2006). Thésaurus et systèmes de traitement automatique de la langue. Documentation et bibliothèques, 52(2), 149–156. https://doi.org/10.7202/1030018ar Résumé de l'article Cet article expose le rôle que le thésaurus documentaire classique est appelé à jouer dans certains systèmes de traitement automatique de la langue. Ce type de ressource lexicale est très prisé par le domaine du traitement automatique de la langue, puisqu’il permet d’appréhender, au moins en partie, la sémantique des documents. Cette capacité peut être mise à contribution dans un grand nombre d’applications différentes. Sont présentés les thésaurus les plus utilisés pour le traitement automatique, suivis des exigences particulières qui s’appliquent aux thésaurus pour le traitement automatique. Enfin, sont brièvement abordés les efforts de construction automatique de thésaurus.

Upload: others

Post on 15-Mar-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Thésaurus et systèmes de traitement automatique de la langue...Cet article vise à illustrer le rôle que joue le thésaurus documen taire, dans sa version la plus classique, dans

Tous droits reacuteserveacutes copy Association pour lavancement des sciences et destechniques de la documentation (ASTED) 2006

Ce document est proteacutegeacute par la loi sur le droit drsquoauteur Lrsquoutilisation desservices drsquoEacuterudit (y compris la reproduction) est assujettie agrave sa politiquedrsquoutilisation que vous pouvez consulter en lignehttpsaproposeruditorgfrusagerspolitique-dutilisation

Cet article est diffuseacute et preacuteserveacute par EacuteruditEacuterudit est un consortium interuniversitaire sans but lucratif composeacute delrsquoUniversiteacute de Montreacuteal lrsquoUniversiteacute Laval et lrsquoUniversiteacute du Queacutebec agraveMontreacuteal Il a pour mission la promotion et la valorisation de la recherchehttpswwweruditorgfr

Document geacuteneacutereacute le 14 aoucirct 2021 1137

Documentation et bibliothegraveques

Theacutesaurus et systegravemes de traitement automatique de la langueThesauri and Automatic Language ProcessingTesauros y sistemas de tratamiento automaacutetico de la lenguaLyne Da Sylva

Les langages documentairesVolume 52 numeacutero 2 avrilndashjuin 2006

URI httpsideruditorgiderudit1030018arDOI httpsdoiorg1072021030018ar

Aller au sommaire du numeacutero

Eacutediteur(s)Association pour lavancement des sciences et des techniques de ladocumentation (ASTED)

ISSN0315-2340 (imprimeacute)2291-8949 (numeacuterique)

Deacutecouvrir la revue

Citer cet articleDa Sylva L (2006) Theacutesaurus et systegravemes de traitement automatique de lalangue Documentation et bibliothegraveques 52(2) 149ndash156httpsdoiorg1072021030018ar

Reacutesumeacute de larticleCet article expose le rocircle que le theacutesaurus documentaire classique est appeleacute agravejouer dans certains systegravemes de traitement automatique de la langue Ce typede ressource lexicale est tregraves priseacute par le domaine du traitement automatiquede la langue puisqursquoil permet drsquoappreacutehender au moins en partie laseacutemantique des documents Cette capaciteacute peut ecirctre mise agrave contribution dansun grand nombre drsquoapplications diffeacuterentes Sont preacutesenteacutes les theacutesaurus lesplus utiliseacutes pour le traitement automatique suivis des exigences particuliegraveresqui srsquoappliquent aux theacutesaurus pour le traitement automatique Enfin sontbriegravevement abordeacutes les efforts de construction automatique de theacutesaurus

DOCUMO BIBLIOiuml

INTATION HEgraveQUES

Theacutesaurus et systegravemes de traitement automatique de la langue

LYNE DAcirc SYLVA Eacutecole de bibliotheacuteconomie et des sciences de linformation Universiteacute de Montreacuteal lyne dasylvaumontreal ca

REacuteSUMEacute | ABSTRACTS | RESUMEN

Cet article expose le rocircle que le theacutesaurus documentaire classique est appeleacute agrave jouer dans certains systegravemes de traitement automashytique de la langue Ce type de ressource lexicale est tregraves priseacute par le domaine du traitement automatique de la langue puisquil permet dappreacutehender au moins en partie la seacutemantique des documents Cette capaciteacute peut ecirctre mise agrave contribution dans un grand nombre dapplications diffeacuterentes Sont preacutesenteacutes les theacutesaurus les plus utiliseacutes pour le traitement automatique suivis des exigences particuliegraveres qui sappliquent aux theacutesaurus pour le traitement automatique Enfin sont briegravevement abordeacutes les efforts de construction automatique de theacutesaurus

Thesauri and Automatic Language Processing

The role of the classic thesaurus in certain systems of automatic language processing is the central theme of this article This type of lexical resource is important in the field of automatic language processing because considers the semantics of documents This capacity can become an asset with a wide range of applications The thesauri used for automatic processing and their requishyrements are described Finally the projects to automatically construct thesauri are briefly discussed

Tesauros y sistemas de tratamiento automacirctico de la lengua

Este articulo expone el papel que el tesauro documental clacircsico esta llamado a desempehar en algunos sistemas de tratamiento automacirctico de la lengua Este tipo de recurso leacutexico es muy apreciado por el campo del tratamiento automacirctico de la lengua porque permite comprender al menos en parte la semacircntica de los documentos Esta capacidad puede ser aprovechada por numerosas aplicaciones diferentes Se presentan los tesauros macircs utilizados para el tratamiento automacirctico seguidos de las exigencias particulares que se aplican a estos tesauros Final-mente se aborda de manera bregraveve los esfuerzos de construcciocircn automacirctica de tesauros

LE DOMAINE DE LA GESTION DOCUMENTAIRE

voit apparaicirctre de plus en plus de logiciels qui preacutetendent alleacuteger ou mecircme remplacer le

traitement humain des documents On a raison decirctre sceptique devant leurs promesses de performance Comment penser que ces systegravemes de traitement automatique qui ne traitent que des chaicircnes de caracshytegraveres puissent arriver agrave saisir le contenu conceptuel des documents quils manipulent Cet article vise agrave illustrer le rocircle que joue le theacutesaurus documenshytaire dans sa version la plus classique dans certains systegravemes de traitement automatique Lexposeacute teacutemoishygnera du grand inteacuterecirct porteacute agrave ce type de ressource lexicale par le milieu du traitement automatique de la langue (TAL) Lavantage principal du theacutesaurus dans ces systegravemes est de permettre daller au-delagrave de la simple forme graphique des mots pour sapprocher dune repreacutesentation du sens Cette capaciteacute accrue peut ecirctre mise agrave contribution dans un grand nombre dapplications diffeacuterentes

Notons deacutejagrave que la notion de theacutesaurus dans les contextes documentaires est souvent bien diffeacuterente de celle qui est adopteacutee dans les systegravemes informashytiques Dans le premier contexte lobjet est bien deacutefini et son deacuteveloppement est normaliseacute sur les plans national et international Dans le deuxiegraveme contexte le laquo theacutesaurus raquo est un concept flou faisant reacutefeacuterence agrave des dictionnaires de synonymes des dictionnaires analogiques des theacutesaurus documentaires des reacuteseaux seacutemantiques ou agrave des structures plus complexes que sont les ontologies

Nous deacutecrirons dabord divers contextes dutishylisation des theacutesaurus attesteacutes dans les eacutecrits du domaine du TAL avant de recenser les principaux theacutesaurus utiliseacutes dans ces travaux Nous eacutenoncerons les proprieacuteteacutes requises pour que les theacutesaurus puissent ecirctre utiliseacutes par les systegravemes de traitement automashytique ainsi quun certain nombre de problegravemes reacutecurshyrents Une probleacutematique relieacutee sera abordeacutee celle de la construction automatique de theacutesaurus Nous conclurons avec quelques remarques prospectives quant agrave lavenir du theacutesaurus pour les systegravemes de traitement automatique

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 1 4 9

En explicitant les termes qui sont en relation de synonymie le theacutesaurus

permet de reacutesoudre le problegraveme lieacute agrave lexpression

diffeacuterente dun mecircme concept 0ltXKgt00ltXgtltgt0ltXgtltgtltgtltgt000lt^^

Contextes dutilisation

Les avantages de lutilisation de theacutesaurus se reacutesument essentiellement agrave ce qui suit le theacutesaurus en explicitant les termes qui sont en relation de synonymie permet de reacutesoudre le problegraveme lieacute agrave lexpression diffeacuterente dun mecircme concept de plus en reliant les speacutecifiques agrave leur geacuteneacuterique le theacutesaurus permet de faire des regroupements logiques de concepts du mecircme type Ainsi il permet agrave un logiciel de reconnaicirctre que par exemple les deux suites de caractegraveres v-eacute-l-o et b-i-c-y-c-l-e-t-t-e expriment un mecircme concept et de regrouper v-eacute-l-o et v-o-i-t-u-r-e en tant que moyens de transport Dans les deux cas le theacutesaurus permet de faire des geacuteneacuteralisations sur les expressions du texte Cest un deacutebut de traitement seacutemantique qui reste largement hors de porteacutee des systegravemes de traitement automatique D Soergel (1999 1119) qualifie dailleurs le theacutesaurus de base de connaisshysances pour les applications du TAL

Nous recenserons ici un certain nombre dapplishycations qui profitent avantageusement de lutilisation dun theacutesaurus en commenccedilant par les applications agrave finaliteacute documentaire

Applications documentaires

Recherche dinformation ou de documents

Tout comme un utilisateur humain peut se servir dun theacutesaurus pour eacutelargir ou speacutecifier sa recherche un systegraveme de repeacuterage de linformation peut utiliser automatiquement un theacutesaurus pour modifier la requecircte adresseacutee au moteur de recherche il peut laugshymenter de synonymes de termes speacutecifiques et parfois mecircme de geacuteneacuteriques ou de termes associeacutes Ainsi un utilisateur en quecircte de documents sur les oiseaux sera potentiellement inteacuteresseacute par un document sur les colibris (speacutecifique) ou sur les ornithologues (terme associeacute) On parle alors dextension de la requecircte ou query expansion (Efthimiadis 1996) Les reacutesultats des travaux sur le sujet font eacutetat de lefficaciteacute de cette

technique pour ameacuteliorer la recherche (Mandala et al 2000a Pizzato 2003 Zhang et al 2004 Chu et al 2005) Plus preacuteciseacutement J Greenberg (2001b) rapporte que lextension agrave laide de synonymes et de speacutecifiques dune part et agrave laide de termes associeacutes ou de geacuteneacuteriques dautre part ont des comporteshyments diffeacuterents dans les deux cas le rappel est augmenteacute alors que la preacutecision diminue mais de faccedilon non significative dans le premier cas et signifishycative dans le deuxiegraveme (voir aussi Greenberg 2001a) Ainsi lajout de termes plus geacuteneacuteraux ou vaguement relieacutes nuirait sensiblement agrave la preacutecision mdash ce qui eacutetait preacutevisible Lameacutelioration nest cependant pas toujours attesteacutee (Voorhees 1994)- Laugmentation du rappel est geacuteneacuteralement consideacutereacutee suffisamment inteacuteresshysante mecircme si dautres techniques dexpansion de la requecircte savegraverent parfois plus utiles (Srinivasan 1996)

Indexation automatique

Ce qui se fait au cours de la recherche (extension de requecirctes) peut ecirctre fait au cours de lindexation (automatique) le systegraveme peut assigner un descripteur lorsquun non-descripteur eacutequivalent est repeacutereacute (Dillon 1982 Chartron et al 1989 Ginsberg 1993) ou encore peut effectuer de lautopostage (cest-agrave-dire assigner agrave la fois un speacutecifique et son geacuteneacuterique pour ameacuteliorer le rappel) Cette technique est agrave peu pregraves eacutequivalente agrave celle de lutilisation dun theacutesaurus lors du repeacuterage Une seule de ces deux techniques est neacutecessaire agrave linteacuterieur dun mecircme systegraveme ou bien on indexe agrave laide dun theacutesaurus ou bien on lutilise au repeacuterage

Classification et cateacutegorisation automatiques et clustering

La classification automatique des documents est opeacutereacutee agrave partir des mots et expressions du document contrairement agrave la classification laquomanuelleraquo qui se fait agrave partir des concepts Les algorithmes de classifishycation reposent essentiellement sur lidentification de mots partageacutes entre les documents et permettent de regrouper ceux-ci Ici le problegraveme de la synonymie est important deux documents qui nutilisent pas le mecircme terme pour repreacutesenter un mecircme concept se verront attribueacutes agrave deux classes diffeacuterentes Linteacuteshygration dun theacutesaurus dans le processus permet deffectuer un calcul de similariteacute qui tienne mieux compte des ressemblances conceptuelles entre les documents (Ardo et Koch 1999 Abuzir et Vandamme 2001 Bang etal 2006)

1 5 0 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Autres applications du traitement automatique de la langue

Diverses applications du TAL visent agrave saisir automatiquement certains liens seacutemantiques entre les mots pour servir des applications ultimes comme la traduction ou la condensation automatiques Pour ce faire certaines tacircches intermeacutediaires se reacutevegravelent neacutecessaires et pour lesquelles les theacutesaurus peuvent ecirctre utiles

Calcul de distance seacutemantique

On peut vouloir se donner une mesure quantishytative de la distance seacutemantique entre deux mots pour pouvoir exprimer que laquo chien raquo et laquo molosse raquo sont tregraves proches de par leur sens que laquo chien raquo et laquo canideacute raquo le sont aussi mais agrave un degreacute moindre et que laquo chien raquo est plus proche de laquoeacuteleacutephantraquo que de laquosoucouperaquo par exemple Une technique proposeacutee se sert de repreacuteshysentations hieacuterarchiques des concepts telles que les theacutesaurus pour mesurer cette distance on attribue la distance entre deux eacutequivalents (synonymes) agrave o entre un speacutecifique et un geacuteneacuterique agrave 1 entre deux speacutecifiques dun mecircme geacuteneacuterique agrave 2 etc Il sagit de compter le nombre de liens agrave traverser dans la hieacuterarchie pour aller dun concept agrave lautre Certains chercheurs exploitent cette technique agrave diffeacuterentes fins dont B Sugato et al (2001) et Z Zhang et al (2005) dans un contexte dextraction dinformations Y Kim et al (2001) pour la traduction automatique et H Alani et al (2000) pour choisir certains termes associeacutes utiliseacutes pour eacutetendre une requecircte J Ferlez et M Gams (2004) en eacutevaluent lhypothegravese de base en mettant en comparaison des jugements humains sur la similariteacute des mots Un des problegravemes de cette approche est quelle preacutesuppose (agrave tort) que la distance seacutemantique est repreacutesenteacutee uniformeacutement dans les liens (Resnick 1995)

Reacutesolution danaphores

La reacutesolution danaphores deacutecrit la faccedilon dont on deacutetermine automatiquement lanteacuteceacutedent dun pronom ou dun autre type danaphore (voir Mitkov 2002) Il sagit par exemple de repeacuterer dans les exemples suivants que laquoilsraquo laquoles minousraquo et laquoces animaux raquo font tous reacutefeacuterence agrave laquo les chats raquo

gt Joseacutee aime bien les chats Ils sont affectueux et enjoueacutes

gt Joseacutee aime bien les chats Les minous sont affecshytueux et enjoueacutes

gt Joseacutee aime bien les chats Ces animaux sont affecshytueux et enjoueacutes

Les cas de reprises lexicales (et non pronomishynales) comme dans les deux derniers exemples

Diverses applications du TAL visent agrave saisir automatiquement certains liens

seacutemantiques entre les mots ltgtltXKXXgt0ltgtltgtltXgtltgtltgtltXgtltgt^^

neacutecessitent le recours agrave un theacutesaurus pour reacutesoudre lanaphore En reacutetablissant les liens seacutemantiques entre les entiteacutes du discours deacutecrites par leurs synonymes ou leurs geacuteneacuteriques la reacutesolution danaphores avec theacutesaurus (Nasukawa 1994 Denber 1998) peut aider agrave repeacuterer dans des textes des reacuteponses agrave des questions (Litkowski 2001) ou agrave effectuer de lextraction dinforshymation complexe (Putejovsky eacutetal 2002)

Preacutefeacuterences seacutelectionnelles

On nomme laquopreacutefeacuterences seacutelectionnellesraquo les critegraveres seacutemantiques quimpose par exemple un verbe agrave ses arguments Ainsi le verbe laquodistribuerraquo seacutelectionne un sujet humain ou animeacute un objet direct inanimeacute et de faccedilon optionnelle un objet indirect animeacute Par exemple laquo Marie distribue des sandwichs aux enfants raquo Par ailleurs un nom comme laquo sandwich raquo peut avoir un compleacutement de type laquoalimentraquo (ou laquo viande raquo ou laquo farce saleacutee raquo) notamment laquo au jambon raquo La phrase suivante doit ecirctre analyseacutee de faccedilon agrave ce que laquoau jambonraquo soit le compleacutement de laquosandwichsraquo et non de laquodistribuerraquo laquoMarie distribue des sandwichs au jambon raquo Une faccedilon daiguiller le systegraveme vers la bonne analyse dans chaque cas est de preacutevoir les types de compleacutements des verbes et des noms agrave laide de termes dun theacutesaurus (Sumita et al 1995) laquo humain raquo (et tous ses speacutecifiques) pour le sujet et pour lobjet indirect laquo objet inanimeacute raquo pour lobjet direct etc

Deacutesambiguiumlsation lexicale en contexte

La tacircche de deacutesambiguiumlsation lexicale en contexte (Preiss et Stevenson 2004) consiste agrave deacuteterminer pour un mot polyseacutemique comme laquotourraquo par exemple quel est son sens dans un eacutenonceacute donneacute Ainsi dans la phrase laquo Ces tours sont un exemple darchitecture gothique raquo on devrait pouvoir seacutelectionner automashytiquement le sens architectural de laquo tour raquo dapregraves les autres mots du contexte (contrairement au cas de laquoJai fait des tours de voitureraquo) Cette eacutetape est neacutecesshysaire entre autres agrave la traduction pour choisir entre les traductions possibles dun mot polyseacutemique ainsi quagrave la recherche dinformation efficace Un theacutesaurus peut faciliter cette deacutesambiguiumlsation automatique notamment pour le calcul de distance seacutemantique entre les divers mots du contexte Cette technique est utiliseacutee par M Sussna (1993) pour lindexation

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 1 5 1

WordNet nest pas un theacutesaurus documentaire notamment parce quil

contient un bon nombre dentreacutees non nominales ltXXgtltXXXgtOOltXgtltXKXgtltXXXXgtltXKgtltXgtltgtltgtltXXXgtltXgtltgt

par JMG Hidalgo et al (2005) pour la classification et par R Mandala et al (2000b) et LA Urena et al (2000) pour la recherche dinformation

Coheacutesion lexicale chaicircnes lexicales et segmentation de textes

Un certain nombre dapplications du TAL reposent sur la segmentation automatique (Hernandez et Grau 2002) dun texte en passages coheacuterents sur le plan theacutematique Le reacutesumeacute automatique en est un exemple H Saggion (2002) identifie les sections dun article scientifique typique alors que A Farzindar eacutetal (2004) deacutecoupent des jugements de la Cour feacutedeacuterale du Canada en sections selon une structure preacutedeacutefinie pour le genre Chacun produit ensuite un reacutesumeacute qui respecte la segmentation du texte original Une des techniques proposeacutees pour effectuer cette segmenshytation automatique exploite la notion de coheacutesion lexicale (Halliday et Hasan 1976) assureacutee entre autres par la reacutecurrence de thegravemes dans un discours Un calcul de similariteacute peut ecirctre effectueacute pour deux phrases conseacutecutives en tenant compte de la reacutepeacutetition des mots dune phrase agrave lautre (Morris et Hirst 1991 Hearst 1997 Harabagiu 1999 Da Sylva et Doll 2005) Deux phrases ayant un grand nombre de mots en commun auront un score de similariteacute plus eacuteleveacute que deux phrases qui ont peu de mots voire aucun en commun Tant que le score de similariteacute entre les phrases successives est eacuteleveacute on suppose que la suite preacutesente une uniteacute theacutematique Un score de similariteacute tregraves bas indiquerait une rupture dans la theacutematique et une coupure est alors proposeacutee agrave cet endroit Au-delagrave de la reacutepeacutetition exacte de mots pour capter la reprise theacutematique par un synonyme ou un geacuteneacuterique lutishylisation dun theacutesaurus est neacutecessaire Ainsi avec un theacutesaurus approprieacute on peut attribuer un score de coheacutesion eacuteleveacute pour les deux phrases suivantes bien quaucun mot ne soit reacutepeacuteteacute laquo Le pegravere regarda son garccedilon Lhomme eacutetait fier de son fils raquo J Morris et G Hirst (1991)raquo et M Hajime et al (1998) font usage dun theacutesaurus dans lalgorithme de segmentation Les chaicircnes lexicales ainsi creacuteeacutees ([pegravere homme] ainsi

que [garccedilon fils]) peuvent ecirctre utiliseacutees entre autres pour identifier les thegravemes principaux dun document (Chali 2001) ou pour construire un reacutesumeacute (Barzilay et Elhadad 1997)-

Principaux theacutesaurus utiliseacutes pour le traitement automatique

Certains theacutesaurus existants sont privileacutegieacutes par les systegravemes de traitement automatique

WordNet

WordNet (lthttpwordnetprincetonedugt) deacuteveloppeacute au Cognitive Science Laboratory de lUnishyversiteacute de Princeton est de loin le theacutesaurus le plus utiliseacute par les systegravemes de traitement automatique (sauf dans le domaine meacutedical) Sa conception a eacuteteacute inspireacutee par les theacuteories actuelles en psycholinguisshytique Limiteacute agrave langlais sa couverture lexicale est toutefois importante 155 327 mots-formes diffeacuterents ou 207 016 paires de mots et sens (lthttpwordnet princet0nedumanwnstats7WNgt) De ceux-lagrave plus de 117000 sont des noms mais WordNet contient aussi plus de 22000 adjectifs 11400 verbes et 4600 adverbes Ce sont tous des mots dits laquode la langue geacuteneacuteraleraquo

En reacutealiteacute WordNet nest pas un theacutesaurus documentaire notamment parce quil contient un bon nombre dentreacutees non nominales ainsi que des relations seacutemantiques additionnelles par rapport au theacutesaurus traditionnel (par exemple la relation meacuteronymique laquopartie-toutraquo) Les liens de synonymie sont exprimeacutes entre les sens des mots et non entre les mots eux-mecircmes Ainsi le mot bank a plusieurs sens Le sens laquoinstitution financiegravereraquo est associeacute agrave un certain nombre de synonymes tels que banking company par exemple ce qui deacutefinit un synset le sens laquo berge dune riviegravere raquo est relieacute agrave ses propres synonymes et geacuteneacuteriques Les deux sens sont rattacheacutes direcshytement au mot bank mais cest au synset que sont rattacheacutees les relations theacutesaurales Il ny a pas dans WordNet deacutequivalent pour lopposition entre descripshyteurs et non-descripteurs

Le theacutesaurus Rogets

Le Rogets International Thesaurus (Chapman et Roget 1992) est un dictionnaire analogique ou de synonymes de langlais dont la premiegravere version date de 1852 Il a eacuteteacute utiliseacute notamment pour calculer la coheacutesion lexicale (Morris et Hirst 1991) et la deacutesambi-guiumlsation de sens (Yarowsky 1992) Sa structure concepshytuelle est tregraves particuliegravere il sagit dune hieacuterarchie conceptuelle un arbre dont les feuilles terminales sont les mots et les six cateacutegories supeacuterieures regroupent des concepts geacuteneacuteraux et non des mots laquo Words

1 5 2 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Expressing Abstract Relationsraquo laquo Words Relating to Space raquo laquo Words Relating to Matterraquo laquo Words Relating to the Intellectual Faculties raquo laquo Words Relating to the Voluntary Powers raquo laquo Words Relating to the Sentient and Moral Powersraquo Les niveaux intermeacutediaires regroupent les mots en ensembles baseacutes sur lanalogie Ce nest pas un theacutesaurus documentaire cependant il semblerait mieux adapteacute que WordNet pour effectuer certains calculs de distance seacutemantique (Jarmasz et Szpakowicz 2003)

EuroWordNet

Le theacutesaurus EuroWordNet ( Vossen 1998 lthttp wwwillcuvanlEuroWordNetgt) est un eacutequivalent multilingue de WordNet parraineacute par la commushynauteacute europeacuteenne Le projet initial couvrait sept langues dont le franccedilais (chaque langue est lieacutee aux eacutequivalents anglais) dautres versions linguistiques sont en cours de deacuteveloppement Il a eacuteteacute peu utiliseacute jusquagrave maintenant lutilisation quen font J Gonzalo et al (1998) pour la recherche dinformation translinshyguistique exploite son atout majeur la recherche agrave laide de requecircte dans une langue de documents eacutecrits dans une autre langue

UMLS

UMLS (Unified Medical Language System) est un meacutetatheacutesaurus multilingue du domaine meacutedical (lthttpwwwnlmnihgovresearchumlsgt) utiliseacute dans les systegravemes de recherche dinformation notamment par D Eichmann et al (1998) pour la recherche translinguistique Notons que pour le domaine biomeacutedical plusieurs recherches reposent eacutegalement sur lutilisation des vedettes-matiegravere MeSH Medical Subject Headings)

Caracteacuteristiques des theacutesaurus requises pour lutilisation automatique et difficulteacutes reacutesiduelles

Un examen attentif des travaux preacuteciteacutes et des observations que lon y recense suggegravere que pour ecirctre utiliseacutes efficacement par un systegraveme de traitement automatique les theacutesaurus doivent satisfaire un certain nombre dexigences Les plus importantes sont dans lordre laccessibiliteacute la pertinence et la rigueur de conception du theacutesaurus

La notion daccessibiliteacute fait reacutefeacuterence agrave la faciliteacute dacquisition et dutilisation du theacutesaurus Ideacutealement on cherche un theacutesaurus gratuit et libre de droits Le format de fichier doit ecirctre le plus universel possible format ASCII (txt) deacutelimiteacute simplement Agrave la rigueur un format de base de donneacutees facilement transforshymable (base de donneacutees relationnelle par exemple) est acceptable mais pas un format proprieacutetaire (doc ou

Pour ecirctre utiliseacutes efficacement par un systegraveme de traitement automatique

les theacutesaurus doivent satisfaire un certain nombre dexigences oooltxgtoocgtoltgtltxgtltxgtoltgtoltxgtlt^^

autres semblables) ou baseacute sur limage de documents imprimeacutes (PDF) Enfin il faut avoir accegraves agrave la totaliteacute du theacutesaurus en format numeacuterique dune maniegravere qui permette le traitement en lots batch processing) et non limiteacute agrave une consultation par interface de requecircte ou par une succession dhyperliens

La pertinence deacutenote la concordance entre les caracteacuteristiques du theacutesaurus et celles du systegraveme de TAL viseacute Dabord le domaine un theacutesaurus speacutecialiseacute est preacutefeacuterable pour un systegraveme speacutecialiseacute dans le mecircme domaine mecircme si les reacutesultats seront alors difficilement transposables agrave dautres contextes Pour un theacutesaurus de langue geacuteneacuterale la couverture lexicale doit ecirctre excellente Et bien sucircr le theacutesaurus doit ecirctre disponible dans la bonne langue

Puisque les systegravemes automatiques ne peuvent pas interpreacuteter le sens des chaicircnes quils manipulent la rigueur dans la deacutefinition des relations est primorshydiale La relation hieacuterarchique doit ecirctre utiliseacutee de faccedilon tregraves stricte en conformiteacute avec les normes dailleurs Pour la relation deacutequivalenceles eacutequivashylents doivent ecirctre de vrais synonymes linguistiques et non des eacutequivalents documentaires deacutefinis contextuel-lement Par exemple dans le theacutesaurus AGROVOC (lthttpwwwfaoorgaimsag_introhtmgt) laquo bœufraquo et laquobouvillonraquo sont en relation deacutequivalence alors quils ne sont pas strictement synonymes De maniegravere plus geacuteneacuterale toutes les relations utiliseacutees devraient ecirctre univoques interpreacutetables dune seule faccedilon Or cest rarement le cas pour la relation associative (TA) On voudrait bien lutiliser dans lextension de requecirctes mais la varieacuteteacute des relations quelle encode peut engendrer rapidement des non-sens Pour un traitement automatique le theacutesaurus sera plus utile si la relation associative est remplaceacutee par dautres relations plus speacutecifiques tout-partie acteur-action action-reacutesultat action-lieu etc Ce codage explicite permet de programmer un traitement diffeacuterencieacute pour chaque relation

Mecircme si ces exigences sont respecteacutees un certain nombre de difficulteacutes demeurent La forme dun terme dans le theacutesaurus nest pas neacutecessairement celle que lon retrouvera dans un texte Une lemmatisation sera neacutecessaire cest-agrave-dire quil faudra ramener le terme agrave sa forme laquode baseraquo au masculin singulier le cas eacutecheacuteant Notons que le problegraveme nest pas le mecircme en franccedilais et en anglais en anglais il faudra

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 1 5 3

Lavenir demeure neacuteanmoins prometteur mecircme si Von doit surveiller la monteacutee des ontologies en particulier

dans le domaine biomeacutedical 0000000ltgtltgtltgtltgt0ltXgt0ltgtltXgtltgtltXgtlt^

aussi lemmatiser le theacutesaurus puisque les termes sy retrouvent essentiellement au pluriel conformeacutement aux normes pour le deacuteveloppement des theacutesaurus multilingues (ISO 5964) Il faudra eacutegalement faire abstraction des qualificatifs Par exemple dans le theacutesaurus AGROVOC on trouve agrave la fois laquopoisson (aliment) raquo et laquo poisson (animal) raquo Dans un texte donneacute on ne trouvera bien sucircr que la chaicircne laquopoissonraquo et il faudra retirer le qualificatif du theacutesaurus pour le comparer aux mots du texte Il faudra aussi effectuer une deacutesambiguiumlsation lexicale en contexte pour deacuteterminer si le texte parle de lanimal ou de sa chair comestible ce qui est un autre problegraveme celui-ci nest cependant pas limiteacute aux termes avec qualificatif mais est preacutesent pour tout terme du theacutesaurus qui est polyseacutemique

Il est souvent impossible de deacutenicher un theacutesaurus dans un domaine speacutecialiseacute (cest encore plus vrai pour des systegravemes bilingues ou multilingues) On saccommode souvent alors dun theacutesaurus de langue geacuteneacuterale comme WordNet mais les reacutesultats sont habituellement deacutecevants

Certains termes dun theacutesaurus documenshytaire sont accompagneacutes de notes dapplication qui reacutegissent leur utilisation On pense ici notamment aux notes qui renvoient dun non-descripteur agrave plus dun descripteur selon le sens un systegraveme automashytique sera incapable dinterpreacuteter la note pour choisir le descripteur approprieacute

Ainsi malgreacute leur inteacuterecirct les theacutesaurus preacutesentent des difficulteacutes dutilisation qui ne sont pas toujours simples agrave reacutesoudre

Une probleacutematique relieacutee la construction automatique de theacutesaurus

On peut identifier deux motivations agrave la construction automatique de theacutesaurus Dabord les chercheurs en TAL sentent le besoin davoir des ressources lexicales approprieacutees pour la collection quils sont agrave traiter dans la bonne langue et dans le bon domaine mais lexpertise humaine est coucircteuse et les theacutesaurus existants mecircme sils sont nombreux ne sont pas neacutecessairement pertinents Ensuite il y a un inteacuterecirct theacuteorique agrave veacuterifier des hypothegraveses quant aux connaissances implicites encodeacutees dans des textes

ou des dictionnaires On trouve bon nombre deacutecrits sur le sujet dont un nombre important sur le chinois (pour nen nommer que quelques-uns Foo et al 2000 Tseng 2002 Yang et Luk 2003)

Les premiers travaux dans ce domaine ont exploiteacute les dictionnaires de deacutefinitions (Shaikevich 1985 Houde 1992) Les techniques les plus reacutepandues procegravedent par analyse de corpus selon des approches linguistiques (Bertrand-Gastaldy et Pagola 1992 Takenobu et al 1995 Morin et Jacquemin 2004) ou statistiques (par exemple Salton 1972 Guntzer et al 1989 Crouch 1990 Grefenstette 1994 Park et Choi 1996 Hodge et Austin 2002 Kar et Yang 2005 Dejean eacutetal 2005)

Dans la plupart des cas les reacutesultats sont en fait proches dun theacutesaurus mais pas identiques puisquils contiennent des termes relieacutes de faccedilon erroneacutee Mais la recherche se poursuit

Conclusion

Une des frontiegraveres reconnues au TAL est le traitement de la seacutemantique des textes le traitement formel des aspects lexicaux morphologiques ou syntaxiques est plutocirct bien maicirctriseacute comparatishyvement agrave celui du sens Les theacutesaurus sont des outils tregraves appreacutecieacutes pour rendre possible au moins partielshylement cette tacircche de compreacutehension du sens en raison de leur structure formelle et de la clarteacute des relations seacutemantiques impliqueacutees Cette utiliteacute est eacutevidente en regard de leacuteventail des contextes dapplishycation des theacutesaurus preacutesenteacutes ci-haut Il est presque chose courante dans des exposeacutes de travaux en TAL que lon mentionne en passant que tel theacutesaurus a eacuteteacute utiliseacute pour effectuer des geacuteneacuteralisations seacutemantiques

On remarque aujourdhui une certaine concurshyrence entre les notions de theacutesaurus de taxinomies (normalement restreintes agrave la relation hieacuterarchique) et dontologies (permettant une gamme infinie de relations entre les concepts) Chacune a ses applicashytions privileacutegieacutees Les ontologies prendront de plus en plus dimportance dans le contexte de deacuteveloppement du Web seacutemantique Pour linstant les theacutesaurus existants sont rapidement happeacutes par leacutes concepteurs de systegravemes de TAL encore preneurs de theacutesaurus bacirctis selon les regravegles de lart Lavenir demeure neacuteanmoins prometteur mecircme si lon doit surveiller la monteacutee des ontologies en particulier dans le domaine biomeacutedical reg

Sources consulteacutees

Abuzir Y et F Vandamme 2001 Automatic e-mail classification based on thesaurus In Proceedings of the IASTED Intershynational Conference on Applied Informatics International Symposium on Software Engineering Databases and Applishycations 519-524

1 5 4 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Alani H C Jones et D Tudhope 2000 Associative and spatial relationships in thesaurus-based retrieval In Proceedings of Research and Advanced Technology for Digital Libraries 4th European Conference ECDL 2000 Lecture Notes in Computer Science vol 1923 45-58)

Ardo A et T Kpch 1999 Automatic classification applied to full text Internet documents in a robot-generated subject index In Proceedings of the 23rd International Online Information Meeting 239-246

Bang SL JD Yang et HJ Yang 2006 Hierarchical document categorization with k-NN and concept-based thesauri Inforshymation Processing amp Management 42 (2) 387-406

Barzilay R et M Elhadad 1997 Using lexical chains for text summashyrization In Proceedings of the AŒ97EACL97 Workshop on Intelligent Scalable Text Summarization Madrid 11 juillet 199710-17

Bertrand-Gastaldy S et G Pagola 1992 Lanalyse du contenu textuel en vue de la construction de theacutesaurus et de lindexation assisteacutees par ordinateur applications possibles avec SATO Documentation et bibliothegraveques 38 (2) 75-89

Chali Y 2001 Topic detection using lexical chains In Engineering of Intelligent Systems 14th International Conference on Indusshytrial and Engineering Applications of Artificial Intelligence and Expert Systems IE AAIE 2001 Proceedings (Lecture Notes in Artificial Intelligence vol 2070) 552-558

Chapman R et P Roget 1992 Rogets International Thesaurus 5e eacuted New York NY HarperCollins

Chartron G S Dalbin MG Monteil et M Verillon 1989 Indexation manuelle et indexation automatique deacutepasser les oppositions Documentaliste mdash Sciences de linformation 26 (4-5) 181-187

Chu WW Z Liu W Mao et Q Zou 2005 A knowledge-based approach for retrieving scenario-specific medical text documents Control Engineering Practice 13 (9) 1105-1121

Crouch CJ 1990 Approach to the automatic construction of global thesauri Information Processing amp Management 26 (5) 629-640

Da Sylva L et F Doll 2005 Information architecture for document description Semantic thematization of text segments In K Tochtermann et H Maurer (dir) Proceedings ofl-KNOW 05 5th International Conference on Knowledge Management Graz Austria 29 June-i July 2005 612-620

Dejean H E Gaussier J-M Renders et F Sadat 2005 Automatic processing of multilingual medical terminology Applications to thesaurus enrichment and cross-language information retrieval Artificial Intelligence in Medicine 33 (2) 111-124 (Special Issue Information Extraction and Summarization from Medical Documents)

Denber M 1998 Automatic resolution of anaphora in English Technical report Eastman Kodak Co

Dillon M 1982 Thesaurus-based automatic book indexing Inforshymation Processing amp Management 18 (4) 167-178

Efthimiadis EN 1996 Query expansion In ME Williams (dir) Annual Review of Information Science and Technology 31121-187

Eichmann D ME Ruiz et P Srinivasan 1998 Cross-language inforshymation retrieval with the UMLS Metathesaurus In Proceeshydings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 72-80

Farzindar A G Lapalme et J-P Descleacutes 2004 Reacutesumeacute de textes juridiques par identification de leur structure theacutematique Traitement Automatique des Langues (TAL) 45 (1) 1-21 (Numeacutero speacutecial Le reacutesumeacute automatique de texte solutions et perspectives)

Ferlez J et M Gams 2004 Shortest-path semantic distance measure in WordNet V20 Informatica 28 (4) 381-386

Foo S SC Hui HK Lim et L Hui 2000 Automatic thesaurus for enhanced Chinese text retrieval Library Review 49 (5-6) 230-239

Ginsberg A 1993 Unified approach to automatic indexing and information retrieval IEEE Expert 8 (5) 46-56

Gonzalo J F Verdejo C Peters et N Calzolari 1998 Applying EuroWordNet to crosslanguage text retrieval Computers and the Humanities 32 (2-3) 185-207

Greenberg J 2001a Optimal query expansion (QE) processing methods with semantically encoded structured thesauri terminology Journal of the American Society for Information Science 52 (6) 487-498

2001b Automatic query expansion via lexical-semantic relationships Journal of the American Society for Information Science 52 (5) 402-415

Grefenstette G 1994 Explorations in automatic thesaurus discovery Dordrecht Kluwer Academic

Guntzer U G Juttner G Seegmuller et F Sarre 1989 Automatic thesaurus construction by machine learning from retrieval sessions Information Processing amp Management^ (3) 265-273

Hajime M H Takeo et O Manabu 1998 Text segmentation with multiple surface linguistic cues In Proceedings of COLING-ACL98 881-885

Halliday M et R Hasan 1976 Cohesion in English London Longman

Harabagiu S 1999 From lexical cohesion to textual coherence A data driven perspective International Journal of Pattern Recognition and Artificial Intelligence 13 (2) 247-265

Hearst MA 1997 TextTiling Segmenting text into multi-paragraph subtopic passages Computational Linguistics 23 (1) 33-64

Hernandez N et B Grau 2002 Analyse theacutematique du discours segmentation structuration description et repreacutesentation In Actes de CIDE2002 Hammamet Tunisie 277-285

Hidalgo JMG M de Buenaga Rodriguez et JCC Perez 2005 The role of word sense disambiguation in automated text categorization In Natural Language Processing and Inforshymation Systems 10th International Conference on Applicashytions of Natural Language to Information Systems NLDB 200s (Lecture Notes in Computer Science 35i3)gt 298-309

Hodge VJ et J Austin 2002 Hierarchical word clustering mdash autoshymatic thesaurus generation Neurocomputing 48 819-846

Houde S 1992 Lapport des dictionnaires eacutelectroniques pour leacutelashyboration de theacutesaurus Documentation et bibliothegraveques 38 (2) 91-95

Jarmasz M et S Szpakowicz 2003 Rogets thesaurus and semantic similarity In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP-03) 212-219

Kar WL et CC Yang 2005 Automatic crosslingual thesaurus generated from the Hong Kong SAR Police Department Web corpus for crime analysis Journal of the American Society for Information Science and Technology 56 (3) 272-282

Kim Y BT Zhang et YT Kim 2001 Collocation dictionary optimization using WordNet and k-nearest neighbor learning Machine Translation 16 (2) 89-108

Litkowski KC 2001 Syntactic clues and lexical resources in question-answering In Information Technology Ninth Text REtrieval Conference (TREC-9) (NIST SP 500-249) 157-166

Mandala R T Tokunaga et H Tanaka 2000a Query expansion using heterogeneous thesauri Information Processing amp Management 36 (3) 361-378

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 5 5

20oob Improving information retrieval system performance by combining different text-mining techniques Intelligent Data Analysis 4 (6) 489-511

Mitkov R 2002 Anaphora Resolution London Longman

Morin E et C Jacquemin 2004 Automatic acquisition and expansion of hypernym links Computers and the Humanities 38 (4) 363-396

Morris J et G Hirst 1991 Lexical cohesion computed by thesaural relations as an indicator of the structure of text Computashytional Linguistics 17 (1) 21-48

Nasukawa T 1994- Robust method of pronoun resolution using full-text information In Proceedings of the 15th International Conference on Computational Linguistics (COLING94)gt Kyoto Japan 1157-1163

Park YC et KS Choi 1996 Automatic thesaurus construction using Bayesian networks Information Processing amp Management^ (5) 543-553-

Pizzato LAS 2003 Query expansion based on thesaurus relations evaluation over Internet In Computational Linguistics and Intelligent Text Processing 4th International Conference CICLing 2003 Proceedings (Lecture Notes in Computer Science Vol 2588) 553-556

Preiss J et M Stevenson 2004 Introduction to the special issue on word sense disambiguation Computer Speech and Language 18 (3) 201-207

Putejovsky J J Castano J Zhang M Kotecki et B Cochran 2002 Robust relational parsing over biomedical literature Extracting inhibit relations In Proceedings of the Pacific Symposium on Biocomputing Honolulu Hawaii 4-9 January 2000 362-373

Resnik P 1995 Using information content to evaluate semantic similarity In Proceedings of the 14th International Joint Confeshyrence on Artificial Intelligence (IJCAI) Montreacuteal 20-25 August 1995 448-453

Saggion H et G Lapalme 2002 Generating indicative-informative summaries with SumUM Computational Linguistics 28 (4) 497-526

Salton G 1972 Experiments in automatic thesaurus construction for information retrieval In Information Processing 71 Proceeshydings of the IFIP Congress 19711 Ljubljana Yougoslavie 23-28 August 1971115-123

Shaikevich AY 1985 Automatic construction of a thesaurus from explanatory dictionaries Automatic Documentation and Mathematical Linguistics 19 (4) 76-89

Soergel D 1999 The Rise of ontologies or the reinvention of classifishycation Journal of the American Society for Information Science 50 (12) 1119-1120

Srinivasan P 1996 Query expansion and MEDLINE Information Processing amp Management 32 (4) 431-443-

Sugato Bbdquo RJ Mooney KV Pasupuleti et J Ghosh 2001 Evaluating the novelty of text-mined rules using lexical knowledge In Proceedings of the Seventh ACM SIGKDD International Confeshyrence on Knowledge Discovery and Data Mining (KDD-2001) San Francisco California 26-29 August 2001 233-238

Sumita E O Furuse et H Iida 1995 An example-based disambishyguation of English prepositional phrase attachment Systems and Computers in Japan 26 (4) 30-41

Sussna M 1993 Word sense disambiguation for free-text indexing using a massive semantic network In Proceedings of the Second International Conference on Information and Knowledge Management (CIKM 93) Washington DC 1-5 November 1993 67-74

Takenobu T I Makoto et T Hozumi 1995 Automatic thesaurus construction based on grammatical relations In Proceedings of the 14th International Joint Conference on Artificial Intellishygence (IJCAI) pt 2 Montreacuteal 20-25 August 19951308-1313

Tseng YH 2002 Automatic thesaurus generation for Chinese documents Journal of the American Society for Information Science and Technology 5 (13) 1130-1138

Urena LA JMG Hidalgo et M de Buenaga 2000 Information retrieval by means of word sense disambiguation In Proceeshydings of the Third International Workshop on Text Speech and Dialogue TSD 2000 Lecture Notes in Artificial Intelligence Vol 902) 93-98

Voorhees E M 1994 Query expansion using lexical-semantic relations In 17th International Conference on Research and Development in Information Retrieval (SIGIR94) Dublin Ireland 3-6 July 1994 61-69

Vossen P 1998 EuroWordNet A multilingual database with lexical semantic networks Dordrecht Netherlands Kluwer

Yang CC et J Luk 2003 Automatic generation of EnglishChinese thesaurus based on a parallel corpus in laws Journal of the American Society for Information Science and Technology 54 (7) 671-682

Yarowsky D 1992 Word-sense disambiguation using statistical models of Rogets categories trained on large corpora In Proceedings ofCOLING-92 Nantes France 23-28 August 1992 454-460

Zhang HP J Sun B Wang et S Bai 2005 Computation on sentence semantic distance for novelty detection Journal of Computer Science and Technology (English Language Edition) 20 (3) 331-337

Zhang Z L Da Sylva C Davidson G Lizarralde G et JY Nie 2004 Domain-specific QA for the construction sector In Proceedings of the Workshop on Information Retrieval for Question Answering (IR4QA) SIGIR04 Sheffield UK 29 July 2004 6 5 - 7 1

1 5 6 I AVRIL bull JUIN 2 0 0 6 I DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 2: Thésaurus et systèmes de traitement automatique de la langue...Cet article vise à illustrer le rôle que joue le thésaurus documen taire, dans sa version la plus classique, dans

DOCUMO BIBLIOiuml

INTATION HEgraveQUES

Theacutesaurus et systegravemes de traitement automatique de la langue

LYNE DAcirc SYLVA Eacutecole de bibliotheacuteconomie et des sciences de linformation Universiteacute de Montreacuteal lyne dasylvaumontreal ca

REacuteSUMEacute | ABSTRACTS | RESUMEN

Cet article expose le rocircle que le theacutesaurus documentaire classique est appeleacute agrave jouer dans certains systegravemes de traitement automashytique de la langue Ce type de ressource lexicale est tregraves priseacute par le domaine du traitement automatique de la langue puisquil permet dappreacutehender au moins en partie la seacutemantique des documents Cette capaciteacute peut ecirctre mise agrave contribution dans un grand nombre dapplications diffeacuterentes Sont preacutesenteacutes les theacutesaurus les plus utiliseacutes pour le traitement automatique suivis des exigences particuliegraveres qui sappliquent aux theacutesaurus pour le traitement automatique Enfin sont briegravevement abordeacutes les efforts de construction automatique de theacutesaurus

Thesauri and Automatic Language Processing

The role of the classic thesaurus in certain systems of automatic language processing is the central theme of this article This type of lexical resource is important in the field of automatic language processing because considers the semantics of documents This capacity can become an asset with a wide range of applications The thesauri used for automatic processing and their requishyrements are described Finally the projects to automatically construct thesauri are briefly discussed

Tesauros y sistemas de tratamiento automacirctico de la lengua

Este articulo expone el papel que el tesauro documental clacircsico esta llamado a desempehar en algunos sistemas de tratamiento automacirctico de la lengua Este tipo de recurso leacutexico es muy apreciado por el campo del tratamiento automacirctico de la lengua porque permite comprender al menos en parte la semacircntica de los documentos Esta capacidad puede ser aprovechada por numerosas aplicaciones diferentes Se presentan los tesauros macircs utilizados para el tratamiento automacirctico seguidos de las exigencias particulares que se aplican a estos tesauros Final-mente se aborda de manera bregraveve los esfuerzos de construcciocircn automacirctica de tesauros

LE DOMAINE DE LA GESTION DOCUMENTAIRE

voit apparaicirctre de plus en plus de logiciels qui preacutetendent alleacuteger ou mecircme remplacer le

traitement humain des documents On a raison decirctre sceptique devant leurs promesses de performance Comment penser que ces systegravemes de traitement automatique qui ne traitent que des chaicircnes de caracshytegraveres puissent arriver agrave saisir le contenu conceptuel des documents quils manipulent Cet article vise agrave illustrer le rocircle que joue le theacutesaurus documenshytaire dans sa version la plus classique dans certains systegravemes de traitement automatique Lexposeacute teacutemoishygnera du grand inteacuterecirct porteacute agrave ce type de ressource lexicale par le milieu du traitement automatique de la langue (TAL) Lavantage principal du theacutesaurus dans ces systegravemes est de permettre daller au-delagrave de la simple forme graphique des mots pour sapprocher dune repreacutesentation du sens Cette capaciteacute accrue peut ecirctre mise agrave contribution dans un grand nombre dapplications diffeacuterentes

Notons deacutejagrave que la notion de theacutesaurus dans les contextes documentaires est souvent bien diffeacuterente de celle qui est adopteacutee dans les systegravemes informashytiques Dans le premier contexte lobjet est bien deacutefini et son deacuteveloppement est normaliseacute sur les plans national et international Dans le deuxiegraveme contexte le laquo theacutesaurus raquo est un concept flou faisant reacutefeacuterence agrave des dictionnaires de synonymes des dictionnaires analogiques des theacutesaurus documentaires des reacuteseaux seacutemantiques ou agrave des structures plus complexes que sont les ontologies

Nous deacutecrirons dabord divers contextes dutishylisation des theacutesaurus attesteacutes dans les eacutecrits du domaine du TAL avant de recenser les principaux theacutesaurus utiliseacutes dans ces travaux Nous eacutenoncerons les proprieacuteteacutes requises pour que les theacutesaurus puissent ecirctre utiliseacutes par les systegravemes de traitement automashytique ainsi quun certain nombre de problegravemes reacutecurshyrents Une probleacutematique relieacutee sera abordeacutee celle de la construction automatique de theacutesaurus Nous conclurons avec quelques remarques prospectives quant agrave lavenir du theacutesaurus pour les systegravemes de traitement automatique

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 1 4 9

En explicitant les termes qui sont en relation de synonymie le theacutesaurus

permet de reacutesoudre le problegraveme lieacute agrave lexpression

diffeacuterente dun mecircme concept 0ltXKgt00ltXgtltgt0ltXgtltgtltgtltgt000lt^^

Contextes dutilisation

Les avantages de lutilisation de theacutesaurus se reacutesument essentiellement agrave ce qui suit le theacutesaurus en explicitant les termes qui sont en relation de synonymie permet de reacutesoudre le problegraveme lieacute agrave lexpression diffeacuterente dun mecircme concept de plus en reliant les speacutecifiques agrave leur geacuteneacuterique le theacutesaurus permet de faire des regroupements logiques de concepts du mecircme type Ainsi il permet agrave un logiciel de reconnaicirctre que par exemple les deux suites de caractegraveres v-eacute-l-o et b-i-c-y-c-l-e-t-t-e expriment un mecircme concept et de regrouper v-eacute-l-o et v-o-i-t-u-r-e en tant que moyens de transport Dans les deux cas le theacutesaurus permet de faire des geacuteneacuteralisations sur les expressions du texte Cest un deacutebut de traitement seacutemantique qui reste largement hors de porteacutee des systegravemes de traitement automatique D Soergel (1999 1119) qualifie dailleurs le theacutesaurus de base de connaisshysances pour les applications du TAL

Nous recenserons ici un certain nombre dapplishycations qui profitent avantageusement de lutilisation dun theacutesaurus en commenccedilant par les applications agrave finaliteacute documentaire

Applications documentaires

Recherche dinformation ou de documents

Tout comme un utilisateur humain peut se servir dun theacutesaurus pour eacutelargir ou speacutecifier sa recherche un systegraveme de repeacuterage de linformation peut utiliser automatiquement un theacutesaurus pour modifier la requecircte adresseacutee au moteur de recherche il peut laugshymenter de synonymes de termes speacutecifiques et parfois mecircme de geacuteneacuteriques ou de termes associeacutes Ainsi un utilisateur en quecircte de documents sur les oiseaux sera potentiellement inteacuteresseacute par un document sur les colibris (speacutecifique) ou sur les ornithologues (terme associeacute) On parle alors dextension de la requecircte ou query expansion (Efthimiadis 1996) Les reacutesultats des travaux sur le sujet font eacutetat de lefficaciteacute de cette

technique pour ameacuteliorer la recherche (Mandala et al 2000a Pizzato 2003 Zhang et al 2004 Chu et al 2005) Plus preacuteciseacutement J Greenberg (2001b) rapporte que lextension agrave laide de synonymes et de speacutecifiques dune part et agrave laide de termes associeacutes ou de geacuteneacuteriques dautre part ont des comporteshyments diffeacuterents dans les deux cas le rappel est augmenteacute alors que la preacutecision diminue mais de faccedilon non significative dans le premier cas et signifishycative dans le deuxiegraveme (voir aussi Greenberg 2001a) Ainsi lajout de termes plus geacuteneacuteraux ou vaguement relieacutes nuirait sensiblement agrave la preacutecision mdash ce qui eacutetait preacutevisible Lameacutelioration nest cependant pas toujours attesteacutee (Voorhees 1994)- Laugmentation du rappel est geacuteneacuteralement consideacutereacutee suffisamment inteacuteresshysante mecircme si dautres techniques dexpansion de la requecircte savegraverent parfois plus utiles (Srinivasan 1996)

Indexation automatique

Ce qui se fait au cours de la recherche (extension de requecirctes) peut ecirctre fait au cours de lindexation (automatique) le systegraveme peut assigner un descripteur lorsquun non-descripteur eacutequivalent est repeacutereacute (Dillon 1982 Chartron et al 1989 Ginsberg 1993) ou encore peut effectuer de lautopostage (cest-agrave-dire assigner agrave la fois un speacutecifique et son geacuteneacuterique pour ameacuteliorer le rappel) Cette technique est agrave peu pregraves eacutequivalente agrave celle de lutilisation dun theacutesaurus lors du repeacuterage Une seule de ces deux techniques est neacutecessaire agrave linteacuterieur dun mecircme systegraveme ou bien on indexe agrave laide dun theacutesaurus ou bien on lutilise au repeacuterage

Classification et cateacutegorisation automatiques et clustering

La classification automatique des documents est opeacutereacutee agrave partir des mots et expressions du document contrairement agrave la classification laquomanuelleraquo qui se fait agrave partir des concepts Les algorithmes de classifishycation reposent essentiellement sur lidentification de mots partageacutes entre les documents et permettent de regrouper ceux-ci Ici le problegraveme de la synonymie est important deux documents qui nutilisent pas le mecircme terme pour repreacutesenter un mecircme concept se verront attribueacutes agrave deux classes diffeacuterentes Linteacuteshygration dun theacutesaurus dans le processus permet deffectuer un calcul de similariteacute qui tienne mieux compte des ressemblances conceptuelles entre les documents (Ardo et Koch 1999 Abuzir et Vandamme 2001 Bang etal 2006)

1 5 0 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Autres applications du traitement automatique de la langue

Diverses applications du TAL visent agrave saisir automatiquement certains liens seacutemantiques entre les mots pour servir des applications ultimes comme la traduction ou la condensation automatiques Pour ce faire certaines tacircches intermeacutediaires se reacutevegravelent neacutecessaires et pour lesquelles les theacutesaurus peuvent ecirctre utiles

Calcul de distance seacutemantique

On peut vouloir se donner une mesure quantishytative de la distance seacutemantique entre deux mots pour pouvoir exprimer que laquo chien raquo et laquo molosse raquo sont tregraves proches de par leur sens que laquo chien raquo et laquo canideacute raquo le sont aussi mais agrave un degreacute moindre et que laquo chien raquo est plus proche de laquoeacuteleacutephantraquo que de laquosoucouperaquo par exemple Une technique proposeacutee se sert de repreacuteshysentations hieacuterarchiques des concepts telles que les theacutesaurus pour mesurer cette distance on attribue la distance entre deux eacutequivalents (synonymes) agrave o entre un speacutecifique et un geacuteneacuterique agrave 1 entre deux speacutecifiques dun mecircme geacuteneacuterique agrave 2 etc Il sagit de compter le nombre de liens agrave traverser dans la hieacuterarchie pour aller dun concept agrave lautre Certains chercheurs exploitent cette technique agrave diffeacuterentes fins dont B Sugato et al (2001) et Z Zhang et al (2005) dans un contexte dextraction dinformations Y Kim et al (2001) pour la traduction automatique et H Alani et al (2000) pour choisir certains termes associeacutes utiliseacutes pour eacutetendre une requecircte J Ferlez et M Gams (2004) en eacutevaluent lhypothegravese de base en mettant en comparaison des jugements humains sur la similariteacute des mots Un des problegravemes de cette approche est quelle preacutesuppose (agrave tort) que la distance seacutemantique est repreacutesenteacutee uniformeacutement dans les liens (Resnick 1995)

Reacutesolution danaphores

La reacutesolution danaphores deacutecrit la faccedilon dont on deacutetermine automatiquement lanteacuteceacutedent dun pronom ou dun autre type danaphore (voir Mitkov 2002) Il sagit par exemple de repeacuterer dans les exemples suivants que laquoilsraquo laquoles minousraquo et laquoces animaux raquo font tous reacutefeacuterence agrave laquo les chats raquo

gt Joseacutee aime bien les chats Ils sont affectueux et enjoueacutes

gt Joseacutee aime bien les chats Les minous sont affecshytueux et enjoueacutes

gt Joseacutee aime bien les chats Ces animaux sont affecshytueux et enjoueacutes

Les cas de reprises lexicales (et non pronomishynales) comme dans les deux derniers exemples

Diverses applications du TAL visent agrave saisir automatiquement certains liens

seacutemantiques entre les mots ltgtltXKXXgt0ltgtltgtltXgtltgtltgtltXgtltgt^^

neacutecessitent le recours agrave un theacutesaurus pour reacutesoudre lanaphore En reacutetablissant les liens seacutemantiques entre les entiteacutes du discours deacutecrites par leurs synonymes ou leurs geacuteneacuteriques la reacutesolution danaphores avec theacutesaurus (Nasukawa 1994 Denber 1998) peut aider agrave repeacuterer dans des textes des reacuteponses agrave des questions (Litkowski 2001) ou agrave effectuer de lextraction dinforshymation complexe (Putejovsky eacutetal 2002)

Preacutefeacuterences seacutelectionnelles

On nomme laquopreacutefeacuterences seacutelectionnellesraquo les critegraveres seacutemantiques quimpose par exemple un verbe agrave ses arguments Ainsi le verbe laquodistribuerraquo seacutelectionne un sujet humain ou animeacute un objet direct inanimeacute et de faccedilon optionnelle un objet indirect animeacute Par exemple laquo Marie distribue des sandwichs aux enfants raquo Par ailleurs un nom comme laquo sandwich raquo peut avoir un compleacutement de type laquoalimentraquo (ou laquo viande raquo ou laquo farce saleacutee raquo) notamment laquo au jambon raquo La phrase suivante doit ecirctre analyseacutee de faccedilon agrave ce que laquoau jambonraquo soit le compleacutement de laquosandwichsraquo et non de laquodistribuerraquo laquoMarie distribue des sandwichs au jambon raquo Une faccedilon daiguiller le systegraveme vers la bonne analyse dans chaque cas est de preacutevoir les types de compleacutements des verbes et des noms agrave laide de termes dun theacutesaurus (Sumita et al 1995) laquo humain raquo (et tous ses speacutecifiques) pour le sujet et pour lobjet indirect laquo objet inanimeacute raquo pour lobjet direct etc

Deacutesambiguiumlsation lexicale en contexte

La tacircche de deacutesambiguiumlsation lexicale en contexte (Preiss et Stevenson 2004) consiste agrave deacuteterminer pour un mot polyseacutemique comme laquotourraquo par exemple quel est son sens dans un eacutenonceacute donneacute Ainsi dans la phrase laquo Ces tours sont un exemple darchitecture gothique raquo on devrait pouvoir seacutelectionner automashytiquement le sens architectural de laquo tour raquo dapregraves les autres mots du contexte (contrairement au cas de laquoJai fait des tours de voitureraquo) Cette eacutetape est neacutecesshysaire entre autres agrave la traduction pour choisir entre les traductions possibles dun mot polyseacutemique ainsi quagrave la recherche dinformation efficace Un theacutesaurus peut faciliter cette deacutesambiguiumlsation automatique notamment pour le calcul de distance seacutemantique entre les divers mots du contexte Cette technique est utiliseacutee par M Sussna (1993) pour lindexation

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 1 5 1

WordNet nest pas un theacutesaurus documentaire notamment parce quil

contient un bon nombre dentreacutees non nominales ltXXgtltXXXgtOOltXgtltXKXgtltXXXXgtltXKgtltXgtltgtltgtltXXXgtltXgtltgt

par JMG Hidalgo et al (2005) pour la classification et par R Mandala et al (2000b) et LA Urena et al (2000) pour la recherche dinformation

Coheacutesion lexicale chaicircnes lexicales et segmentation de textes

Un certain nombre dapplications du TAL reposent sur la segmentation automatique (Hernandez et Grau 2002) dun texte en passages coheacuterents sur le plan theacutematique Le reacutesumeacute automatique en est un exemple H Saggion (2002) identifie les sections dun article scientifique typique alors que A Farzindar eacutetal (2004) deacutecoupent des jugements de la Cour feacutedeacuterale du Canada en sections selon une structure preacutedeacutefinie pour le genre Chacun produit ensuite un reacutesumeacute qui respecte la segmentation du texte original Une des techniques proposeacutees pour effectuer cette segmenshytation automatique exploite la notion de coheacutesion lexicale (Halliday et Hasan 1976) assureacutee entre autres par la reacutecurrence de thegravemes dans un discours Un calcul de similariteacute peut ecirctre effectueacute pour deux phrases conseacutecutives en tenant compte de la reacutepeacutetition des mots dune phrase agrave lautre (Morris et Hirst 1991 Hearst 1997 Harabagiu 1999 Da Sylva et Doll 2005) Deux phrases ayant un grand nombre de mots en commun auront un score de similariteacute plus eacuteleveacute que deux phrases qui ont peu de mots voire aucun en commun Tant que le score de similariteacute entre les phrases successives est eacuteleveacute on suppose que la suite preacutesente une uniteacute theacutematique Un score de similariteacute tregraves bas indiquerait une rupture dans la theacutematique et une coupure est alors proposeacutee agrave cet endroit Au-delagrave de la reacutepeacutetition exacte de mots pour capter la reprise theacutematique par un synonyme ou un geacuteneacuterique lutishylisation dun theacutesaurus est neacutecessaire Ainsi avec un theacutesaurus approprieacute on peut attribuer un score de coheacutesion eacuteleveacute pour les deux phrases suivantes bien quaucun mot ne soit reacutepeacuteteacute laquo Le pegravere regarda son garccedilon Lhomme eacutetait fier de son fils raquo J Morris et G Hirst (1991)raquo et M Hajime et al (1998) font usage dun theacutesaurus dans lalgorithme de segmentation Les chaicircnes lexicales ainsi creacuteeacutees ([pegravere homme] ainsi

que [garccedilon fils]) peuvent ecirctre utiliseacutees entre autres pour identifier les thegravemes principaux dun document (Chali 2001) ou pour construire un reacutesumeacute (Barzilay et Elhadad 1997)-

Principaux theacutesaurus utiliseacutes pour le traitement automatique

Certains theacutesaurus existants sont privileacutegieacutes par les systegravemes de traitement automatique

WordNet

WordNet (lthttpwordnetprincetonedugt) deacuteveloppeacute au Cognitive Science Laboratory de lUnishyversiteacute de Princeton est de loin le theacutesaurus le plus utiliseacute par les systegravemes de traitement automatique (sauf dans le domaine meacutedical) Sa conception a eacuteteacute inspireacutee par les theacuteories actuelles en psycholinguisshytique Limiteacute agrave langlais sa couverture lexicale est toutefois importante 155 327 mots-formes diffeacuterents ou 207 016 paires de mots et sens (lthttpwordnet princet0nedumanwnstats7WNgt) De ceux-lagrave plus de 117000 sont des noms mais WordNet contient aussi plus de 22000 adjectifs 11400 verbes et 4600 adverbes Ce sont tous des mots dits laquode la langue geacuteneacuteraleraquo

En reacutealiteacute WordNet nest pas un theacutesaurus documentaire notamment parce quil contient un bon nombre dentreacutees non nominales ainsi que des relations seacutemantiques additionnelles par rapport au theacutesaurus traditionnel (par exemple la relation meacuteronymique laquopartie-toutraquo) Les liens de synonymie sont exprimeacutes entre les sens des mots et non entre les mots eux-mecircmes Ainsi le mot bank a plusieurs sens Le sens laquoinstitution financiegravereraquo est associeacute agrave un certain nombre de synonymes tels que banking company par exemple ce qui deacutefinit un synset le sens laquo berge dune riviegravere raquo est relieacute agrave ses propres synonymes et geacuteneacuteriques Les deux sens sont rattacheacutes direcshytement au mot bank mais cest au synset que sont rattacheacutees les relations theacutesaurales Il ny a pas dans WordNet deacutequivalent pour lopposition entre descripshyteurs et non-descripteurs

Le theacutesaurus Rogets

Le Rogets International Thesaurus (Chapman et Roget 1992) est un dictionnaire analogique ou de synonymes de langlais dont la premiegravere version date de 1852 Il a eacuteteacute utiliseacute notamment pour calculer la coheacutesion lexicale (Morris et Hirst 1991) et la deacutesambi-guiumlsation de sens (Yarowsky 1992) Sa structure concepshytuelle est tregraves particuliegravere il sagit dune hieacuterarchie conceptuelle un arbre dont les feuilles terminales sont les mots et les six cateacutegories supeacuterieures regroupent des concepts geacuteneacuteraux et non des mots laquo Words

1 5 2 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Expressing Abstract Relationsraquo laquo Words Relating to Space raquo laquo Words Relating to Matterraquo laquo Words Relating to the Intellectual Faculties raquo laquo Words Relating to the Voluntary Powers raquo laquo Words Relating to the Sentient and Moral Powersraquo Les niveaux intermeacutediaires regroupent les mots en ensembles baseacutes sur lanalogie Ce nest pas un theacutesaurus documentaire cependant il semblerait mieux adapteacute que WordNet pour effectuer certains calculs de distance seacutemantique (Jarmasz et Szpakowicz 2003)

EuroWordNet

Le theacutesaurus EuroWordNet ( Vossen 1998 lthttp wwwillcuvanlEuroWordNetgt) est un eacutequivalent multilingue de WordNet parraineacute par la commushynauteacute europeacuteenne Le projet initial couvrait sept langues dont le franccedilais (chaque langue est lieacutee aux eacutequivalents anglais) dautres versions linguistiques sont en cours de deacuteveloppement Il a eacuteteacute peu utiliseacute jusquagrave maintenant lutilisation quen font J Gonzalo et al (1998) pour la recherche dinformation translinshyguistique exploite son atout majeur la recherche agrave laide de requecircte dans une langue de documents eacutecrits dans une autre langue

UMLS

UMLS (Unified Medical Language System) est un meacutetatheacutesaurus multilingue du domaine meacutedical (lthttpwwwnlmnihgovresearchumlsgt) utiliseacute dans les systegravemes de recherche dinformation notamment par D Eichmann et al (1998) pour la recherche translinguistique Notons que pour le domaine biomeacutedical plusieurs recherches reposent eacutegalement sur lutilisation des vedettes-matiegravere MeSH Medical Subject Headings)

Caracteacuteristiques des theacutesaurus requises pour lutilisation automatique et difficulteacutes reacutesiduelles

Un examen attentif des travaux preacuteciteacutes et des observations que lon y recense suggegravere que pour ecirctre utiliseacutes efficacement par un systegraveme de traitement automatique les theacutesaurus doivent satisfaire un certain nombre dexigences Les plus importantes sont dans lordre laccessibiliteacute la pertinence et la rigueur de conception du theacutesaurus

La notion daccessibiliteacute fait reacutefeacuterence agrave la faciliteacute dacquisition et dutilisation du theacutesaurus Ideacutealement on cherche un theacutesaurus gratuit et libre de droits Le format de fichier doit ecirctre le plus universel possible format ASCII (txt) deacutelimiteacute simplement Agrave la rigueur un format de base de donneacutees facilement transforshymable (base de donneacutees relationnelle par exemple) est acceptable mais pas un format proprieacutetaire (doc ou

Pour ecirctre utiliseacutes efficacement par un systegraveme de traitement automatique

les theacutesaurus doivent satisfaire un certain nombre dexigences oooltxgtoocgtoltgtltxgtltxgtoltgtoltxgtlt^^

autres semblables) ou baseacute sur limage de documents imprimeacutes (PDF) Enfin il faut avoir accegraves agrave la totaliteacute du theacutesaurus en format numeacuterique dune maniegravere qui permette le traitement en lots batch processing) et non limiteacute agrave une consultation par interface de requecircte ou par une succession dhyperliens

La pertinence deacutenote la concordance entre les caracteacuteristiques du theacutesaurus et celles du systegraveme de TAL viseacute Dabord le domaine un theacutesaurus speacutecialiseacute est preacutefeacuterable pour un systegraveme speacutecialiseacute dans le mecircme domaine mecircme si les reacutesultats seront alors difficilement transposables agrave dautres contextes Pour un theacutesaurus de langue geacuteneacuterale la couverture lexicale doit ecirctre excellente Et bien sucircr le theacutesaurus doit ecirctre disponible dans la bonne langue

Puisque les systegravemes automatiques ne peuvent pas interpreacuteter le sens des chaicircnes quils manipulent la rigueur dans la deacutefinition des relations est primorshydiale La relation hieacuterarchique doit ecirctre utiliseacutee de faccedilon tregraves stricte en conformiteacute avec les normes dailleurs Pour la relation deacutequivalenceles eacutequivashylents doivent ecirctre de vrais synonymes linguistiques et non des eacutequivalents documentaires deacutefinis contextuel-lement Par exemple dans le theacutesaurus AGROVOC (lthttpwwwfaoorgaimsag_introhtmgt) laquo bœufraquo et laquobouvillonraquo sont en relation deacutequivalence alors quils ne sont pas strictement synonymes De maniegravere plus geacuteneacuterale toutes les relations utiliseacutees devraient ecirctre univoques interpreacutetables dune seule faccedilon Or cest rarement le cas pour la relation associative (TA) On voudrait bien lutiliser dans lextension de requecirctes mais la varieacuteteacute des relations quelle encode peut engendrer rapidement des non-sens Pour un traitement automatique le theacutesaurus sera plus utile si la relation associative est remplaceacutee par dautres relations plus speacutecifiques tout-partie acteur-action action-reacutesultat action-lieu etc Ce codage explicite permet de programmer un traitement diffeacuterencieacute pour chaque relation

Mecircme si ces exigences sont respecteacutees un certain nombre de difficulteacutes demeurent La forme dun terme dans le theacutesaurus nest pas neacutecessairement celle que lon retrouvera dans un texte Une lemmatisation sera neacutecessaire cest-agrave-dire quil faudra ramener le terme agrave sa forme laquode baseraquo au masculin singulier le cas eacutecheacuteant Notons que le problegraveme nest pas le mecircme en franccedilais et en anglais en anglais il faudra

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 1 5 3

Lavenir demeure neacuteanmoins prometteur mecircme si Von doit surveiller la monteacutee des ontologies en particulier

dans le domaine biomeacutedical 0000000ltgtltgtltgtltgt0ltXgt0ltgtltXgtltgtltXgtlt^

aussi lemmatiser le theacutesaurus puisque les termes sy retrouvent essentiellement au pluriel conformeacutement aux normes pour le deacuteveloppement des theacutesaurus multilingues (ISO 5964) Il faudra eacutegalement faire abstraction des qualificatifs Par exemple dans le theacutesaurus AGROVOC on trouve agrave la fois laquopoisson (aliment) raquo et laquo poisson (animal) raquo Dans un texte donneacute on ne trouvera bien sucircr que la chaicircne laquopoissonraquo et il faudra retirer le qualificatif du theacutesaurus pour le comparer aux mots du texte Il faudra aussi effectuer une deacutesambiguiumlsation lexicale en contexte pour deacuteterminer si le texte parle de lanimal ou de sa chair comestible ce qui est un autre problegraveme celui-ci nest cependant pas limiteacute aux termes avec qualificatif mais est preacutesent pour tout terme du theacutesaurus qui est polyseacutemique

Il est souvent impossible de deacutenicher un theacutesaurus dans un domaine speacutecialiseacute (cest encore plus vrai pour des systegravemes bilingues ou multilingues) On saccommode souvent alors dun theacutesaurus de langue geacuteneacuterale comme WordNet mais les reacutesultats sont habituellement deacutecevants

Certains termes dun theacutesaurus documenshytaire sont accompagneacutes de notes dapplication qui reacutegissent leur utilisation On pense ici notamment aux notes qui renvoient dun non-descripteur agrave plus dun descripteur selon le sens un systegraveme automashytique sera incapable dinterpreacuteter la note pour choisir le descripteur approprieacute

Ainsi malgreacute leur inteacuterecirct les theacutesaurus preacutesentent des difficulteacutes dutilisation qui ne sont pas toujours simples agrave reacutesoudre

Une probleacutematique relieacutee la construction automatique de theacutesaurus

On peut identifier deux motivations agrave la construction automatique de theacutesaurus Dabord les chercheurs en TAL sentent le besoin davoir des ressources lexicales approprieacutees pour la collection quils sont agrave traiter dans la bonne langue et dans le bon domaine mais lexpertise humaine est coucircteuse et les theacutesaurus existants mecircme sils sont nombreux ne sont pas neacutecessairement pertinents Ensuite il y a un inteacuterecirct theacuteorique agrave veacuterifier des hypothegraveses quant aux connaissances implicites encodeacutees dans des textes

ou des dictionnaires On trouve bon nombre deacutecrits sur le sujet dont un nombre important sur le chinois (pour nen nommer que quelques-uns Foo et al 2000 Tseng 2002 Yang et Luk 2003)

Les premiers travaux dans ce domaine ont exploiteacute les dictionnaires de deacutefinitions (Shaikevich 1985 Houde 1992) Les techniques les plus reacutepandues procegravedent par analyse de corpus selon des approches linguistiques (Bertrand-Gastaldy et Pagola 1992 Takenobu et al 1995 Morin et Jacquemin 2004) ou statistiques (par exemple Salton 1972 Guntzer et al 1989 Crouch 1990 Grefenstette 1994 Park et Choi 1996 Hodge et Austin 2002 Kar et Yang 2005 Dejean eacutetal 2005)

Dans la plupart des cas les reacutesultats sont en fait proches dun theacutesaurus mais pas identiques puisquils contiennent des termes relieacutes de faccedilon erroneacutee Mais la recherche se poursuit

Conclusion

Une des frontiegraveres reconnues au TAL est le traitement de la seacutemantique des textes le traitement formel des aspects lexicaux morphologiques ou syntaxiques est plutocirct bien maicirctriseacute comparatishyvement agrave celui du sens Les theacutesaurus sont des outils tregraves appreacutecieacutes pour rendre possible au moins partielshylement cette tacircche de compreacutehension du sens en raison de leur structure formelle et de la clarteacute des relations seacutemantiques impliqueacutees Cette utiliteacute est eacutevidente en regard de leacuteventail des contextes dapplishycation des theacutesaurus preacutesenteacutes ci-haut Il est presque chose courante dans des exposeacutes de travaux en TAL que lon mentionne en passant que tel theacutesaurus a eacuteteacute utiliseacute pour effectuer des geacuteneacuteralisations seacutemantiques

On remarque aujourdhui une certaine concurshyrence entre les notions de theacutesaurus de taxinomies (normalement restreintes agrave la relation hieacuterarchique) et dontologies (permettant une gamme infinie de relations entre les concepts) Chacune a ses applicashytions privileacutegieacutees Les ontologies prendront de plus en plus dimportance dans le contexte de deacuteveloppement du Web seacutemantique Pour linstant les theacutesaurus existants sont rapidement happeacutes par leacutes concepteurs de systegravemes de TAL encore preneurs de theacutesaurus bacirctis selon les regravegles de lart Lavenir demeure neacuteanmoins prometteur mecircme si lon doit surveiller la monteacutee des ontologies en particulier dans le domaine biomeacutedical reg

Sources consulteacutees

Abuzir Y et F Vandamme 2001 Automatic e-mail classification based on thesaurus In Proceedings of the IASTED Intershynational Conference on Applied Informatics International Symposium on Software Engineering Databases and Applishycations 519-524

1 5 4 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Alani H C Jones et D Tudhope 2000 Associative and spatial relationships in thesaurus-based retrieval In Proceedings of Research and Advanced Technology for Digital Libraries 4th European Conference ECDL 2000 Lecture Notes in Computer Science vol 1923 45-58)

Ardo A et T Kpch 1999 Automatic classification applied to full text Internet documents in a robot-generated subject index In Proceedings of the 23rd International Online Information Meeting 239-246

Bang SL JD Yang et HJ Yang 2006 Hierarchical document categorization with k-NN and concept-based thesauri Inforshymation Processing amp Management 42 (2) 387-406

Barzilay R et M Elhadad 1997 Using lexical chains for text summashyrization In Proceedings of the AŒ97EACL97 Workshop on Intelligent Scalable Text Summarization Madrid 11 juillet 199710-17

Bertrand-Gastaldy S et G Pagola 1992 Lanalyse du contenu textuel en vue de la construction de theacutesaurus et de lindexation assisteacutees par ordinateur applications possibles avec SATO Documentation et bibliothegraveques 38 (2) 75-89

Chali Y 2001 Topic detection using lexical chains In Engineering of Intelligent Systems 14th International Conference on Indusshytrial and Engineering Applications of Artificial Intelligence and Expert Systems IE AAIE 2001 Proceedings (Lecture Notes in Artificial Intelligence vol 2070) 552-558

Chapman R et P Roget 1992 Rogets International Thesaurus 5e eacuted New York NY HarperCollins

Chartron G S Dalbin MG Monteil et M Verillon 1989 Indexation manuelle et indexation automatique deacutepasser les oppositions Documentaliste mdash Sciences de linformation 26 (4-5) 181-187

Chu WW Z Liu W Mao et Q Zou 2005 A knowledge-based approach for retrieving scenario-specific medical text documents Control Engineering Practice 13 (9) 1105-1121

Crouch CJ 1990 Approach to the automatic construction of global thesauri Information Processing amp Management 26 (5) 629-640

Da Sylva L et F Doll 2005 Information architecture for document description Semantic thematization of text segments In K Tochtermann et H Maurer (dir) Proceedings ofl-KNOW 05 5th International Conference on Knowledge Management Graz Austria 29 June-i July 2005 612-620

Dejean H E Gaussier J-M Renders et F Sadat 2005 Automatic processing of multilingual medical terminology Applications to thesaurus enrichment and cross-language information retrieval Artificial Intelligence in Medicine 33 (2) 111-124 (Special Issue Information Extraction and Summarization from Medical Documents)

Denber M 1998 Automatic resolution of anaphora in English Technical report Eastman Kodak Co

Dillon M 1982 Thesaurus-based automatic book indexing Inforshymation Processing amp Management 18 (4) 167-178

Efthimiadis EN 1996 Query expansion In ME Williams (dir) Annual Review of Information Science and Technology 31121-187

Eichmann D ME Ruiz et P Srinivasan 1998 Cross-language inforshymation retrieval with the UMLS Metathesaurus In Proceeshydings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 72-80

Farzindar A G Lapalme et J-P Descleacutes 2004 Reacutesumeacute de textes juridiques par identification de leur structure theacutematique Traitement Automatique des Langues (TAL) 45 (1) 1-21 (Numeacutero speacutecial Le reacutesumeacute automatique de texte solutions et perspectives)

Ferlez J et M Gams 2004 Shortest-path semantic distance measure in WordNet V20 Informatica 28 (4) 381-386

Foo S SC Hui HK Lim et L Hui 2000 Automatic thesaurus for enhanced Chinese text retrieval Library Review 49 (5-6) 230-239

Ginsberg A 1993 Unified approach to automatic indexing and information retrieval IEEE Expert 8 (5) 46-56

Gonzalo J F Verdejo C Peters et N Calzolari 1998 Applying EuroWordNet to crosslanguage text retrieval Computers and the Humanities 32 (2-3) 185-207

Greenberg J 2001a Optimal query expansion (QE) processing methods with semantically encoded structured thesauri terminology Journal of the American Society for Information Science 52 (6) 487-498

2001b Automatic query expansion via lexical-semantic relationships Journal of the American Society for Information Science 52 (5) 402-415

Grefenstette G 1994 Explorations in automatic thesaurus discovery Dordrecht Kluwer Academic

Guntzer U G Juttner G Seegmuller et F Sarre 1989 Automatic thesaurus construction by machine learning from retrieval sessions Information Processing amp Management^ (3) 265-273

Hajime M H Takeo et O Manabu 1998 Text segmentation with multiple surface linguistic cues In Proceedings of COLING-ACL98 881-885

Halliday M et R Hasan 1976 Cohesion in English London Longman

Harabagiu S 1999 From lexical cohesion to textual coherence A data driven perspective International Journal of Pattern Recognition and Artificial Intelligence 13 (2) 247-265

Hearst MA 1997 TextTiling Segmenting text into multi-paragraph subtopic passages Computational Linguistics 23 (1) 33-64

Hernandez N et B Grau 2002 Analyse theacutematique du discours segmentation structuration description et repreacutesentation In Actes de CIDE2002 Hammamet Tunisie 277-285

Hidalgo JMG M de Buenaga Rodriguez et JCC Perez 2005 The role of word sense disambiguation in automated text categorization In Natural Language Processing and Inforshymation Systems 10th International Conference on Applicashytions of Natural Language to Information Systems NLDB 200s (Lecture Notes in Computer Science 35i3)gt 298-309

Hodge VJ et J Austin 2002 Hierarchical word clustering mdash autoshymatic thesaurus generation Neurocomputing 48 819-846

Houde S 1992 Lapport des dictionnaires eacutelectroniques pour leacutelashyboration de theacutesaurus Documentation et bibliothegraveques 38 (2) 91-95

Jarmasz M et S Szpakowicz 2003 Rogets thesaurus and semantic similarity In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP-03) 212-219

Kar WL et CC Yang 2005 Automatic crosslingual thesaurus generated from the Hong Kong SAR Police Department Web corpus for crime analysis Journal of the American Society for Information Science and Technology 56 (3) 272-282

Kim Y BT Zhang et YT Kim 2001 Collocation dictionary optimization using WordNet and k-nearest neighbor learning Machine Translation 16 (2) 89-108

Litkowski KC 2001 Syntactic clues and lexical resources in question-answering In Information Technology Ninth Text REtrieval Conference (TREC-9) (NIST SP 500-249) 157-166

Mandala R T Tokunaga et H Tanaka 2000a Query expansion using heterogeneous thesauri Information Processing amp Management 36 (3) 361-378

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 5 5

20oob Improving information retrieval system performance by combining different text-mining techniques Intelligent Data Analysis 4 (6) 489-511

Mitkov R 2002 Anaphora Resolution London Longman

Morin E et C Jacquemin 2004 Automatic acquisition and expansion of hypernym links Computers and the Humanities 38 (4) 363-396

Morris J et G Hirst 1991 Lexical cohesion computed by thesaural relations as an indicator of the structure of text Computashytional Linguistics 17 (1) 21-48

Nasukawa T 1994- Robust method of pronoun resolution using full-text information In Proceedings of the 15th International Conference on Computational Linguistics (COLING94)gt Kyoto Japan 1157-1163

Park YC et KS Choi 1996 Automatic thesaurus construction using Bayesian networks Information Processing amp Management^ (5) 543-553-

Pizzato LAS 2003 Query expansion based on thesaurus relations evaluation over Internet In Computational Linguistics and Intelligent Text Processing 4th International Conference CICLing 2003 Proceedings (Lecture Notes in Computer Science Vol 2588) 553-556

Preiss J et M Stevenson 2004 Introduction to the special issue on word sense disambiguation Computer Speech and Language 18 (3) 201-207

Putejovsky J J Castano J Zhang M Kotecki et B Cochran 2002 Robust relational parsing over biomedical literature Extracting inhibit relations In Proceedings of the Pacific Symposium on Biocomputing Honolulu Hawaii 4-9 January 2000 362-373

Resnik P 1995 Using information content to evaluate semantic similarity In Proceedings of the 14th International Joint Confeshyrence on Artificial Intelligence (IJCAI) Montreacuteal 20-25 August 1995 448-453

Saggion H et G Lapalme 2002 Generating indicative-informative summaries with SumUM Computational Linguistics 28 (4) 497-526

Salton G 1972 Experiments in automatic thesaurus construction for information retrieval In Information Processing 71 Proceeshydings of the IFIP Congress 19711 Ljubljana Yougoslavie 23-28 August 1971115-123

Shaikevich AY 1985 Automatic construction of a thesaurus from explanatory dictionaries Automatic Documentation and Mathematical Linguistics 19 (4) 76-89

Soergel D 1999 The Rise of ontologies or the reinvention of classifishycation Journal of the American Society for Information Science 50 (12) 1119-1120

Srinivasan P 1996 Query expansion and MEDLINE Information Processing amp Management 32 (4) 431-443-

Sugato Bbdquo RJ Mooney KV Pasupuleti et J Ghosh 2001 Evaluating the novelty of text-mined rules using lexical knowledge In Proceedings of the Seventh ACM SIGKDD International Confeshyrence on Knowledge Discovery and Data Mining (KDD-2001) San Francisco California 26-29 August 2001 233-238

Sumita E O Furuse et H Iida 1995 An example-based disambishyguation of English prepositional phrase attachment Systems and Computers in Japan 26 (4) 30-41

Sussna M 1993 Word sense disambiguation for free-text indexing using a massive semantic network In Proceedings of the Second International Conference on Information and Knowledge Management (CIKM 93) Washington DC 1-5 November 1993 67-74

Takenobu T I Makoto et T Hozumi 1995 Automatic thesaurus construction based on grammatical relations In Proceedings of the 14th International Joint Conference on Artificial Intellishygence (IJCAI) pt 2 Montreacuteal 20-25 August 19951308-1313

Tseng YH 2002 Automatic thesaurus generation for Chinese documents Journal of the American Society for Information Science and Technology 5 (13) 1130-1138

Urena LA JMG Hidalgo et M de Buenaga 2000 Information retrieval by means of word sense disambiguation In Proceeshydings of the Third International Workshop on Text Speech and Dialogue TSD 2000 Lecture Notes in Artificial Intelligence Vol 902) 93-98

Voorhees E M 1994 Query expansion using lexical-semantic relations In 17th International Conference on Research and Development in Information Retrieval (SIGIR94) Dublin Ireland 3-6 July 1994 61-69

Vossen P 1998 EuroWordNet A multilingual database with lexical semantic networks Dordrecht Netherlands Kluwer

Yang CC et J Luk 2003 Automatic generation of EnglishChinese thesaurus based on a parallel corpus in laws Journal of the American Society for Information Science and Technology 54 (7) 671-682

Yarowsky D 1992 Word-sense disambiguation using statistical models of Rogets categories trained on large corpora In Proceedings ofCOLING-92 Nantes France 23-28 August 1992 454-460

Zhang HP J Sun B Wang et S Bai 2005 Computation on sentence semantic distance for novelty detection Journal of Computer Science and Technology (English Language Edition) 20 (3) 331-337

Zhang Z L Da Sylva C Davidson G Lizarralde G et JY Nie 2004 Domain-specific QA for the construction sector In Proceedings of the Workshop on Information Retrieval for Question Answering (IR4QA) SIGIR04 Sheffield UK 29 July 2004 6 5 - 7 1

1 5 6 I AVRIL bull JUIN 2 0 0 6 I DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 3: Thésaurus et systèmes de traitement automatique de la langue...Cet article vise à illustrer le rôle que joue le thésaurus documen taire, dans sa version la plus classique, dans

En explicitant les termes qui sont en relation de synonymie le theacutesaurus

permet de reacutesoudre le problegraveme lieacute agrave lexpression

diffeacuterente dun mecircme concept 0ltXKgt00ltXgtltgt0ltXgtltgtltgtltgt000lt^^

Contextes dutilisation

Les avantages de lutilisation de theacutesaurus se reacutesument essentiellement agrave ce qui suit le theacutesaurus en explicitant les termes qui sont en relation de synonymie permet de reacutesoudre le problegraveme lieacute agrave lexpression diffeacuterente dun mecircme concept de plus en reliant les speacutecifiques agrave leur geacuteneacuterique le theacutesaurus permet de faire des regroupements logiques de concepts du mecircme type Ainsi il permet agrave un logiciel de reconnaicirctre que par exemple les deux suites de caractegraveres v-eacute-l-o et b-i-c-y-c-l-e-t-t-e expriment un mecircme concept et de regrouper v-eacute-l-o et v-o-i-t-u-r-e en tant que moyens de transport Dans les deux cas le theacutesaurus permet de faire des geacuteneacuteralisations sur les expressions du texte Cest un deacutebut de traitement seacutemantique qui reste largement hors de porteacutee des systegravemes de traitement automatique D Soergel (1999 1119) qualifie dailleurs le theacutesaurus de base de connaisshysances pour les applications du TAL

Nous recenserons ici un certain nombre dapplishycations qui profitent avantageusement de lutilisation dun theacutesaurus en commenccedilant par les applications agrave finaliteacute documentaire

Applications documentaires

Recherche dinformation ou de documents

Tout comme un utilisateur humain peut se servir dun theacutesaurus pour eacutelargir ou speacutecifier sa recherche un systegraveme de repeacuterage de linformation peut utiliser automatiquement un theacutesaurus pour modifier la requecircte adresseacutee au moteur de recherche il peut laugshymenter de synonymes de termes speacutecifiques et parfois mecircme de geacuteneacuteriques ou de termes associeacutes Ainsi un utilisateur en quecircte de documents sur les oiseaux sera potentiellement inteacuteresseacute par un document sur les colibris (speacutecifique) ou sur les ornithologues (terme associeacute) On parle alors dextension de la requecircte ou query expansion (Efthimiadis 1996) Les reacutesultats des travaux sur le sujet font eacutetat de lefficaciteacute de cette

technique pour ameacuteliorer la recherche (Mandala et al 2000a Pizzato 2003 Zhang et al 2004 Chu et al 2005) Plus preacuteciseacutement J Greenberg (2001b) rapporte que lextension agrave laide de synonymes et de speacutecifiques dune part et agrave laide de termes associeacutes ou de geacuteneacuteriques dautre part ont des comporteshyments diffeacuterents dans les deux cas le rappel est augmenteacute alors que la preacutecision diminue mais de faccedilon non significative dans le premier cas et signifishycative dans le deuxiegraveme (voir aussi Greenberg 2001a) Ainsi lajout de termes plus geacuteneacuteraux ou vaguement relieacutes nuirait sensiblement agrave la preacutecision mdash ce qui eacutetait preacutevisible Lameacutelioration nest cependant pas toujours attesteacutee (Voorhees 1994)- Laugmentation du rappel est geacuteneacuteralement consideacutereacutee suffisamment inteacuteresshysante mecircme si dautres techniques dexpansion de la requecircte savegraverent parfois plus utiles (Srinivasan 1996)

Indexation automatique

Ce qui se fait au cours de la recherche (extension de requecirctes) peut ecirctre fait au cours de lindexation (automatique) le systegraveme peut assigner un descripteur lorsquun non-descripteur eacutequivalent est repeacutereacute (Dillon 1982 Chartron et al 1989 Ginsberg 1993) ou encore peut effectuer de lautopostage (cest-agrave-dire assigner agrave la fois un speacutecifique et son geacuteneacuterique pour ameacuteliorer le rappel) Cette technique est agrave peu pregraves eacutequivalente agrave celle de lutilisation dun theacutesaurus lors du repeacuterage Une seule de ces deux techniques est neacutecessaire agrave linteacuterieur dun mecircme systegraveme ou bien on indexe agrave laide dun theacutesaurus ou bien on lutilise au repeacuterage

Classification et cateacutegorisation automatiques et clustering

La classification automatique des documents est opeacutereacutee agrave partir des mots et expressions du document contrairement agrave la classification laquomanuelleraquo qui se fait agrave partir des concepts Les algorithmes de classifishycation reposent essentiellement sur lidentification de mots partageacutes entre les documents et permettent de regrouper ceux-ci Ici le problegraveme de la synonymie est important deux documents qui nutilisent pas le mecircme terme pour repreacutesenter un mecircme concept se verront attribueacutes agrave deux classes diffeacuterentes Linteacuteshygration dun theacutesaurus dans le processus permet deffectuer un calcul de similariteacute qui tienne mieux compte des ressemblances conceptuelles entre les documents (Ardo et Koch 1999 Abuzir et Vandamme 2001 Bang etal 2006)

1 5 0 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Autres applications du traitement automatique de la langue

Diverses applications du TAL visent agrave saisir automatiquement certains liens seacutemantiques entre les mots pour servir des applications ultimes comme la traduction ou la condensation automatiques Pour ce faire certaines tacircches intermeacutediaires se reacutevegravelent neacutecessaires et pour lesquelles les theacutesaurus peuvent ecirctre utiles

Calcul de distance seacutemantique

On peut vouloir se donner une mesure quantishytative de la distance seacutemantique entre deux mots pour pouvoir exprimer que laquo chien raquo et laquo molosse raquo sont tregraves proches de par leur sens que laquo chien raquo et laquo canideacute raquo le sont aussi mais agrave un degreacute moindre et que laquo chien raquo est plus proche de laquoeacuteleacutephantraquo que de laquosoucouperaquo par exemple Une technique proposeacutee se sert de repreacuteshysentations hieacuterarchiques des concepts telles que les theacutesaurus pour mesurer cette distance on attribue la distance entre deux eacutequivalents (synonymes) agrave o entre un speacutecifique et un geacuteneacuterique agrave 1 entre deux speacutecifiques dun mecircme geacuteneacuterique agrave 2 etc Il sagit de compter le nombre de liens agrave traverser dans la hieacuterarchie pour aller dun concept agrave lautre Certains chercheurs exploitent cette technique agrave diffeacuterentes fins dont B Sugato et al (2001) et Z Zhang et al (2005) dans un contexte dextraction dinformations Y Kim et al (2001) pour la traduction automatique et H Alani et al (2000) pour choisir certains termes associeacutes utiliseacutes pour eacutetendre une requecircte J Ferlez et M Gams (2004) en eacutevaluent lhypothegravese de base en mettant en comparaison des jugements humains sur la similariteacute des mots Un des problegravemes de cette approche est quelle preacutesuppose (agrave tort) que la distance seacutemantique est repreacutesenteacutee uniformeacutement dans les liens (Resnick 1995)

Reacutesolution danaphores

La reacutesolution danaphores deacutecrit la faccedilon dont on deacutetermine automatiquement lanteacuteceacutedent dun pronom ou dun autre type danaphore (voir Mitkov 2002) Il sagit par exemple de repeacuterer dans les exemples suivants que laquoilsraquo laquoles minousraquo et laquoces animaux raquo font tous reacutefeacuterence agrave laquo les chats raquo

gt Joseacutee aime bien les chats Ils sont affectueux et enjoueacutes

gt Joseacutee aime bien les chats Les minous sont affecshytueux et enjoueacutes

gt Joseacutee aime bien les chats Ces animaux sont affecshytueux et enjoueacutes

Les cas de reprises lexicales (et non pronomishynales) comme dans les deux derniers exemples

Diverses applications du TAL visent agrave saisir automatiquement certains liens

seacutemantiques entre les mots ltgtltXKXXgt0ltgtltgtltXgtltgtltgtltXgtltgt^^

neacutecessitent le recours agrave un theacutesaurus pour reacutesoudre lanaphore En reacutetablissant les liens seacutemantiques entre les entiteacutes du discours deacutecrites par leurs synonymes ou leurs geacuteneacuteriques la reacutesolution danaphores avec theacutesaurus (Nasukawa 1994 Denber 1998) peut aider agrave repeacuterer dans des textes des reacuteponses agrave des questions (Litkowski 2001) ou agrave effectuer de lextraction dinforshymation complexe (Putejovsky eacutetal 2002)

Preacutefeacuterences seacutelectionnelles

On nomme laquopreacutefeacuterences seacutelectionnellesraquo les critegraveres seacutemantiques quimpose par exemple un verbe agrave ses arguments Ainsi le verbe laquodistribuerraquo seacutelectionne un sujet humain ou animeacute un objet direct inanimeacute et de faccedilon optionnelle un objet indirect animeacute Par exemple laquo Marie distribue des sandwichs aux enfants raquo Par ailleurs un nom comme laquo sandwich raquo peut avoir un compleacutement de type laquoalimentraquo (ou laquo viande raquo ou laquo farce saleacutee raquo) notamment laquo au jambon raquo La phrase suivante doit ecirctre analyseacutee de faccedilon agrave ce que laquoau jambonraquo soit le compleacutement de laquosandwichsraquo et non de laquodistribuerraquo laquoMarie distribue des sandwichs au jambon raquo Une faccedilon daiguiller le systegraveme vers la bonne analyse dans chaque cas est de preacutevoir les types de compleacutements des verbes et des noms agrave laide de termes dun theacutesaurus (Sumita et al 1995) laquo humain raquo (et tous ses speacutecifiques) pour le sujet et pour lobjet indirect laquo objet inanimeacute raquo pour lobjet direct etc

Deacutesambiguiumlsation lexicale en contexte

La tacircche de deacutesambiguiumlsation lexicale en contexte (Preiss et Stevenson 2004) consiste agrave deacuteterminer pour un mot polyseacutemique comme laquotourraquo par exemple quel est son sens dans un eacutenonceacute donneacute Ainsi dans la phrase laquo Ces tours sont un exemple darchitecture gothique raquo on devrait pouvoir seacutelectionner automashytiquement le sens architectural de laquo tour raquo dapregraves les autres mots du contexte (contrairement au cas de laquoJai fait des tours de voitureraquo) Cette eacutetape est neacutecesshysaire entre autres agrave la traduction pour choisir entre les traductions possibles dun mot polyseacutemique ainsi quagrave la recherche dinformation efficace Un theacutesaurus peut faciliter cette deacutesambiguiumlsation automatique notamment pour le calcul de distance seacutemantique entre les divers mots du contexte Cette technique est utiliseacutee par M Sussna (1993) pour lindexation

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 1 5 1

WordNet nest pas un theacutesaurus documentaire notamment parce quil

contient un bon nombre dentreacutees non nominales ltXXgtltXXXgtOOltXgtltXKXgtltXXXXgtltXKgtltXgtltgtltgtltXXXgtltXgtltgt

par JMG Hidalgo et al (2005) pour la classification et par R Mandala et al (2000b) et LA Urena et al (2000) pour la recherche dinformation

Coheacutesion lexicale chaicircnes lexicales et segmentation de textes

Un certain nombre dapplications du TAL reposent sur la segmentation automatique (Hernandez et Grau 2002) dun texte en passages coheacuterents sur le plan theacutematique Le reacutesumeacute automatique en est un exemple H Saggion (2002) identifie les sections dun article scientifique typique alors que A Farzindar eacutetal (2004) deacutecoupent des jugements de la Cour feacutedeacuterale du Canada en sections selon une structure preacutedeacutefinie pour le genre Chacun produit ensuite un reacutesumeacute qui respecte la segmentation du texte original Une des techniques proposeacutees pour effectuer cette segmenshytation automatique exploite la notion de coheacutesion lexicale (Halliday et Hasan 1976) assureacutee entre autres par la reacutecurrence de thegravemes dans un discours Un calcul de similariteacute peut ecirctre effectueacute pour deux phrases conseacutecutives en tenant compte de la reacutepeacutetition des mots dune phrase agrave lautre (Morris et Hirst 1991 Hearst 1997 Harabagiu 1999 Da Sylva et Doll 2005) Deux phrases ayant un grand nombre de mots en commun auront un score de similariteacute plus eacuteleveacute que deux phrases qui ont peu de mots voire aucun en commun Tant que le score de similariteacute entre les phrases successives est eacuteleveacute on suppose que la suite preacutesente une uniteacute theacutematique Un score de similariteacute tregraves bas indiquerait une rupture dans la theacutematique et une coupure est alors proposeacutee agrave cet endroit Au-delagrave de la reacutepeacutetition exacte de mots pour capter la reprise theacutematique par un synonyme ou un geacuteneacuterique lutishylisation dun theacutesaurus est neacutecessaire Ainsi avec un theacutesaurus approprieacute on peut attribuer un score de coheacutesion eacuteleveacute pour les deux phrases suivantes bien quaucun mot ne soit reacutepeacuteteacute laquo Le pegravere regarda son garccedilon Lhomme eacutetait fier de son fils raquo J Morris et G Hirst (1991)raquo et M Hajime et al (1998) font usage dun theacutesaurus dans lalgorithme de segmentation Les chaicircnes lexicales ainsi creacuteeacutees ([pegravere homme] ainsi

que [garccedilon fils]) peuvent ecirctre utiliseacutees entre autres pour identifier les thegravemes principaux dun document (Chali 2001) ou pour construire un reacutesumeacute (Barzilay et Elhadad 1997)-

Principaux theacutesaurus utiliseacutes pour le traitement automatique

Certains theacutesaurus existants sont privileacutegieacutes par les systegravemes de traitement automatique

WordNet

WordNet (lthttpwordnetprincetonedugt) deacuteveloppeacute au Cognitive Science Laboratory de lUnishyversiteacute de Princeton est de loin le theacutesaurus le plus utiliseacute par les systegravemes de traitement automatique (sauf dans le domaine meacutedical) Sa conception a eacuteteacute inspireacutee par les theacuteories actuelles en psycholinguisshytique Limiteacute agrave langlais sa couverture lexicale est toutefois importante 155 327 mots-formes diffeacuterents ou 207 016 paires de mots et sens (lthttpwordnet princet0nedumanwnstats7WNgt) De ceux-lagrave plus de 117000 sont des noms mais WordNet contient aussi plus de 22000 adjectifs 11400 verbes et 4600 adverbes Ce sont tous des mots dits laquode la langue geacuteneacuteraleraquo

En reacutealiteacute WordNet nest pas un theacutesaurus documentaire notamment parce quil contient un bon nombre dentreacutees non nominales ainsi que des relations seacutemantiques additionnelles par rapport au theacutesaurus traditionnel (par exemple la relation meacuteronymique laquopartie-toutraquo) Les liens de synonymie sont exprimeacutes entre les sens des mots et non entre les mots eux-mecircmes Ainsi le mot bank a plusieurs sens Le sens laquoinstitution financiegravereraquo est associeacute agrave un certain nombre de synonymes tels que banking company par exemple ce qui deacutefinit un synset le sens laquo berge dune riviegravere raquo est relieacute agrave ses propres synonymes et geacuteneacuteriques Les deux sens sont rattacheacutes direcshytement au mot bank mais cest au synset que sont rattacheacutees les relations theacutesaurales Il ny a pas dans WordNet deacutequivalent pour lopposition entre descripshyteurs et non-descripteurs

Le theacutesaurus Rogets

Le Rogets International Thesaurus (Chapman et Roget 1992) est un dictionnaire analogique ou de synonymes de langlais dont la premiegravere version date de 1852 Il a eacuteteacute utiliseacute notamment pour calculer la coheacutesion lexicale (Morris et Hirst 1991) et la deacutesambi-guiumlsation de sens (Yarowsky 1992) Sa structure concepshytuelle est tregraves particuliegravere il sagit dune hieacuterarchie conceptuelle un arbre dont les feuilles terminales sont les mots et les six cateacutegories supeacuterieures regroupent des concepts geacuteneacuteraux et non des mots laquo Words

1 5 2 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Expressing Abstract Relationsraquo laquo Words Relating to Space raquo laquo Words Relating to Matterraquo laquo Words Relating to the Intellectual Faculties raquo laquo Words Relating to the Voluntary Powers raquo laquo Words Relating to the Sentient and Moral Powersraquo Les niveaux intermeacutediaires regroupent les mots en ensembles baseacutes sur lanalogie Ce nest pas un theacutesaurus documentaire cependant il semblerait mieux adapteacute que WordNet pour effectuer certains calculs de distance seacutemantique (Jarmasz et Szpakowicz 2003)

EuroWordNet

Le theacutesaurus EuroWordNet ( Vossen 1998 lthttp wwwillcuvanlEuroWordNetgt) est un eacutequivalent multilingue de WordNet parraineacute par la commushynauteacute europeacuteenne Le projet initial couvrait sept langues dont le franccedilais (chaque langue est lieacutee aux eacutequivalents anglais) dautres versions linguistiques sont en cours de deacuteveloppement Il a eacuteteacute peu utiliseacute jusquagrave maintenant lutilisation quen font J Gonzalo et al (1998) pour la recherche dinformation translinshyguistique exploite son atout majeur la recherche agrave laide de requecircte dans une langue de documents eacutecrits dans une autre langue

UMLS

UMLS (Unified Medical Language System) est un meacutetatheacutesaurus multilingue du domaine meacutedical (lthttpwwwnlmnihgovresearchumlsgt) utiliseacute dans les systegravemes de recherche dinformation notamment par D Eichmann et al (1998) pour la recherche translinguistique Notons que pour le domaine biomeacutedical plusieurs recherches reposent eacutegalement sur lutilisation des vedettes-matiegravere MeSH Medical Subject Headings)

Caracteacuteristiques des theacutesaurus requises pour lutilisation automatique et difficulteacutes reacutesiduelles

Un examen attentif des travaux preacuteciteacutes et des observations que lon y recense suggegravere que pour ecirctre utiliseacutes efficacement par un systegraveme de traitement automatique les theacutesaurus doivent satisfaire un certain nombre dexigences Les plus importantes sont dans lordre laccessibiliteacute la pertinence et la rigueur de conception du theacutesaurus

La notion daccessibiliteacute fait reacutefeacuterence agrave la faciliteacute dacquisition et dutilisation du theacutesaurus Ideacutealement on cherche un theacutesaurus gratuit et libre de droits Le format de fichier doit ecirctre le plus universel possible format ASCII (txt) deacutelimiteacute simplement Agrave la rigueur un format de base de donneacutees facilement transforshymable (base de donneacutees relationnelle par exemple) est acceptable mais pas un format proprieacutetaire (doc ou

Pour ecirctre utiliseacutes efficacement par un systegraveme de traitement automatique

les theacutesaurus doivent satisfaire un certain nombre dexigences oooltxgtoocgtoltgtltxgtltxgtoltgtoltxgtlt^^

autres semblables) ou baseacute sur limage de documents imprimeacutes (PDF) Enfin il faut avoir accegraves agrave la totaliteacute du theacutesaurus en format numeacuterique dune maniegravere qui permette le traitement en lots batch processing) et non limiteacute agrave une consultation par interface de requecircte ou par une succession dhyperliens

La pertinence deacutenote la concordance entre les caracteacuteristiques du theacutesaurus et celles du systegraveme de TAL viseacute Dabord le domaine un theacutesaurus speacutecialiseacute est preacutefeacuterable pour un systegraveme speacutecialiseacute dans le mecircme domaine mecircme si les reacutesultats seront alors difficilement transposables agrave dautres contextes Pour un theacutesaurus de langue geacuteneacuterale la couverture lexicale doit ecirctre excellente Et bien sucircr le theacutesaurus doit ecirctre disponible dans la bonne langue

Puisque les systegravemes automatiques ne peuvent pas interpreacuteter le sens des chaicircnes quils manipulent la rigueur dans la deacutefinition des relations est primorshydiale La relation hieacuterarchique doit ecirctre utiliseacutee de faccedilon tregraves stricte en conformiteacute avec les normes dailleurs Pour la relation deacutequivalenceles eacutequivashylents doivent ecirctre de vrais synonymes linguistiques et non des eacutequivalents documentaires deacutefinis contextuel-lement Par exemple dans le theacutesaurus AGROVOC (lthttpwwwfaoorgaimsag_introhtmgt) laquo bœufraquo et laquobouvillonraquo sont en relation deacutequivalence alors quils ne sont pas strictement synonymes De maniegravere plus geacuteneacuterale toutes les relations utiliseacutees devraient ecirctre univoques interpreacutetables dune seule faccedilon Or cest rarement le cas pour la relation associative (TA) On voudrait bien lutiliser dans lextension de requecirctes mais la varieacuteteacute des relations quelle encode peut engendrer rapidement des non-sens Pour un traitement automatique le theacutesaurus sera plus utile si la relation associative est remplaceacutee par dautres relations plus speacutecifiques tout-partie acteur-action action-reacutesultat action-lieu etc Ce codage explicite permet de programmer un traitement diffeacuterencieacute pour chaque relation

Mecircme si ces exigences sont respecteacutees un certain nombre de difficulteacutes demeurent La forme dun terme dans le theacutesaurus nest pas neacutecessairement celle que lon retrouvera dans un texte Une lemmatisation sera neacutecessaire cest-agrave-dire quil faudra ramener le terme agrave sa forme laquode baseraquo au masculin singulier le cas eacutecheacuteant Notons que le problegraveme nest pas le mecircme en franccedilais et en anglais en anglais il faudra

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 1 5 3

Lavenir demeure neacuteanmoins prometteur mecircme si Von doit surveiller la monteacutee des ontologies en particulier

dans le domaine biomeacutedical 0000000ltgtltgtltgtltgt0ltXgt0ltgtltXgtltgtltXgtlt^

aussi lemmatiser le theacutesaurus puisque les termes sy retrouvent essentiellement au pluriel conformeacutement aux normes pour le deacuteveloppement des theacutesaurus multilingues (ISO 5964) Il faudra eacutegalement faire abstraction des qualificatifs Par exemple dans le theacutesaurus AGROVOC on trouve agrave la fois laquopoisson (aliment) raquo et laquo poisson (animal) raquo Dans un texte donneacute on ne trouvera bien sucircr que la chaicircne laquopoissonraquo et il faudra retirer le qualificatif du theacutesaurus pour le comparer aux mots du texte Il faudra aussi effectuer une deacutesambiguiumlsation lexicale en contexte pour deacuteterminer si le texte parle de lanimal ou de sa chair comestible ce qui est un autre problegraveme celui-ci nest cependant pas limiteacute aux termes avec qualificatif mais est preacutesent pour tout terme du theacutesaurus qui est polyseacutemique

Il est souvent impossible de deacutenicher un theacutesaurus dans un domaine speacutecialiseacute (cest encore plus vrai pour des systegravemes bilingues ou multilingues) On saccommode souvent alors dun theacutesaurus de langue geacuteneacuterale comme WordNet mais les reacutesultats sont habituellement deacutecevants

Certains termes dun theacutesaurus documenshytaire sont accompagneacutes de notes dapplication qui reacutegissent leur utilisation On pense ici notamment aux notes qui renvoient dun non-descripteur agrave plus dun descripteur selon le sens un systegraveme automashytique sera incapable dinterpreacuteter la note pour choisir le descripteur approprieacute

Ainsi malgreacute leur inteacuterecirct les theacutesaurus preacutesentent des difficulteacutes dutilisation qui ne sont pas toujours simples agrave reacutesoudre

Une probleacutematique relieacutee la construction automatique de theacutesaurus

On peut identifier deux motivations agrave la construction automatique de theacutesaurus Dabord les chercheurs en TAL sentent le besoin davoir des ressources lexicales approprieacutees pour la collection quils sont agrave traiter dans la bonne langue et dans le bon domaine mais lexpertise humaine est coucircteuse et les theacutesaurus existants mecircme sils sont nombreux ne sont pas neacutecessairement pertinents Ensuite il y a un inteacuterecirct theacuteorique agrave veacuterifier des hypothegraveses quant aux connaissances implicites encodeacutees dans des textes

ou des dictionnaires On trouve bon nombre deacutecrits sur le sujet dont un nombre important sur le chinois (pour nen nommer que quelques-uns Foo et al 2000 Tseng 2002 Yang et Luk 2003)

Les premiers travaux dans ce domaine ont exploiteacute les dictionnaires de deacutefinitions (Shaikevich 1985 Houde 1992) Les techniques les plus reacutepandues procegravedent par analyse de corpus selon des approches linguistiques (Bertrand-Gastaldy et Pagola 1992 Takenobu et al 1995 Morin et Jacquemin 2004) ou statistiques (par exemple Salton 1972 Guntzer et al 1989 Crouch 1990 Grefenstette 1994 Park et Choi 1996 Hodge et Austin 2002 Kar et Yang 2005 Dejean eacutetal 2005)

Dans la plupart des cas les reacutesultats sont en fait proches dun theacutesaurus mais pas identiques puisquils contiennent des termes relieacutes de faccedilon erroneacutee Mais la recherche se poursuit

Conclusion

Une des frontiegraveres reconnues au TAL est le traitement de la seacutemantique des textes le traitement formel des aspects lexicaux morphologiques ou syntaxiques est plutocirct bien maicirctriseacute comparatishyvement agrave celui du sens Les theacutesaurus sont des outils tregraves appreacutecieacutes pour rendre possible au moins partielshylement cette tacircche de compreacutehension du sens en raison de leur structure formelle et de la clarteacute des relations seacutemantiques impliqueacutees Cette utiliteacute est eacutevidente en regard de leacuteventail des contextes dapplishycation des theacutesaurus preacutesenteacutes ci-haut Il est presque chose courante dans des exposeacutes de travaux en TAL que lon mentionne en passant que tel theacutesaurus a eacuteteacute utiliseacute pour effectuer des geacuteneacuteralisations seacutemantiques

On remarque aujourdhui une certaine concurshyrence entre les notions de theacutesaurus de taxinomies (normalement restreintes agrave la relation hieacuterarchique) et dontologies (permettant une gamme infinie de relations entre les concepts) Chacune a ses applicashytions privileacutegieacutees Les ontologies prendront de plus en plus dimportance dans le contexte de deacuteveloppement du Web seacutemantique Pour linstant les theacutesaurus existants sont rapidement happeacutes par leacutes concepteurs de systegravemes de TAL encore preneurs de theacutesaurus bacirctis selon les regravegles de lart Lavenir demeure neacuteanmoins prometteur mecircme si lon doit surveiller la monteacutee des ontologies en particulier dans le domaine biomeacutedical reg

Sources consulteacutees

Abuzir Y et F Vandamme 2001 Automatic e-mail classification based on thesaurus In Proceedings of the IASTED Intershynational Conference on Applied Informatics International Symposium on Software Engineering Databases and Applishycations 519-524

1 5 4 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Alani H C Jones et D Tudhope 2000 Associative and spatial relationships in thesaurus-based retrieval In Proceedings of Research and Advanced Technology for Digital Libraries 4th European Conference ECDL 2000 Lecture Notes in Computer Science vol 1923 45-58)

Ardo A et T Kpch 1999 Automatic classification applied to full text Internet documents in a robot-generated subject index In Proceedings of the 23rd International Online Information Meeting 239-246

Bang SL JD Yang et HJ Yang 2006 Hierarchical document categorization with k-NN and concept-based thesauri Inforshymation Processing amp Management 42 (2) 387-406

Barzilay R et M Elhadad 1997 Using lexical chains for text summashyrization In Proceedings of the AŒ97EACL97 Workshop on Intelligent Scalable Text Summarization Madrid 11 juillet 199710-17

Bertrand-Gastaldy S et G Pagola 1992 Lanalyse du contenu textuel en vue de la construction de theacutesaurus et de lindexation assisteacutees par ordinateur applications possibles avec SATO Documentation et bibliothegraveques 38 (2) 75-89

Chali Y 2001 Topic detection using lexical chains In Engineering of Intelligent Systems 14th International Conference on Indusshytrial and Engineering Applications of Artificial Intelligence and Expert Systems IE AAIE 2001 Proceedings (Lecture Notes in Artificial Intelligence vol 2070) 552-558

Chapman R et P Roget 1992 Rogets International Thesaurus 5e eacuted New York NY HarperCollins

Chartron G S Dalbin MG Monteil et M Verillon 1989 Indexation manuelle et indexation automatique deacutepasser les oppositions Documentaliste mdash Sciences de linformation 26 (4-5) 181-187

Chu WW Z Liu W Mao et Q Zou 2005 A knowledge-based approach for retrieving scenario-specific medical text documents Control Engineering Practice 13 (9) 1105-1121

Crouch CJ 1990 Approach to the automatic construction of global thesauri Information Processing amp Management 26 (5) 629-640

Da Sylva L et F Doll 2005 Information architecture for document description Semantic thematization of text segments In K Tochtermann et H Maurer (dir) Proceedings ofl-KNOW 05 5th International Conference on Knowledge Management Graz Austria 29 June-i July 2005 612-620

Dejean H E Gaussier J-M Renders et F Sadat 2005 Automatic processing of multilingual medical terminology Applications to thesaurus enrichment and cross-language information retrieval Artificial Intelligence in Medicine 33 (2) 111-124 (Special Issue Information Extraction and Summarization from Medical Documents)

Denber M 1998 Automatic resolution of anaphora in English Technical report Eastman Kodak Co

Dillon M 1982 Thesaurus-based automatic book indexing Inforshymation Processing amp Management 18 (4) 167-178

Efthimiadis EN 1996 Query expansion In ME Williams (dir) Annual Review of Information Science and Technology 31121-187

Eichmann D ME Ruiz et P Srinivasan 1998 Cross-language inforshymation retrieval with the UMLS Metathesaurus In Proceeshydings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 72-80

Farzindar A G Lapalme et J-P Descleacutes 2004 Reacutesumeacute de textes juridiques par identification de leur structure theacutematique Traitement Automatique des Langues (TAL) 45 (1) 1-21 (Numeacutero speacutecial Le reacutesumeacute automatique de texte solutions et perspectives)

Ferlez J et M Gams 2004 Shortest-path semantic distance measure in WordNet V20 Informatica 28 (4) 381-386

Foo S SC Hui HK Lim et L Hui 2000 Automatic thesaurus for enhanced Chinese text retrieval Library Review 49 (5-6) 230-239

Ginsberg A 1993 Unified approach to automatic indexing and information retrieval IEEE Expert 8 (5) 46-56

Gonzalo J F Verdejo C Peters et N Calzolari 1998 Applying EuroWordNet to crosslanguage text retrieval Computers and the Humanities 32 (2-3) 185-207

Greenberg J 2001a Optimal query expansion (QE) processing methods with semantically encoded structured thesauri terminology Journal of the American Society for Information Science 52 (6) 487-498

2001b Automatic query expansion via lexical-semantic relationships Journal of the American Society for Information Science 52 (5) 402-415

Grefenstette G 1994 Explorations in automatic thesaurus discovery Dordrecht Kluwer Academic

Guntzer U G Juttner G Seegmuller et F Sarre 1989 Automatic thesaurus construction by machine learning from retrieval sessions Information Processing amp Management^ (3) 265-273

Hajime M H Takeo et O Manabu 1998 Text segmentation with multiple surface linguistic cues In Proceedings of COLING-ACL98 881-885

Halliday M et R Hasan 1976 Cohesion in English London Longman

Harabagiu S 1999 From lexical cohesion to textual coherence A data driven perspective International Journal of Pattern Recognition and Artificial Intelligence 13 (2) 247-265

Hearst MA 1997 TextTiling Segmenting text into multi-paragraph subtopic passages Computational Linguistics 23 (1) 33-64

Hernandez N et B Grau 2002 Analyse theacutematique du discours segmentation structuration description et repreacutesentation In Actes de CIDE2002 Hammamet Tunisie 277-285

Hidalgo JMG M de Buenaga Rodriguez et JCC Perez 2005 The role of word sense disambiguation in automated text categorization In Natural Language Processing and Inforshymation Systems 10th International Conference on Applicashytions of Natural Language to Information Systems NLDB 200s (Lecture Notes in Computer Science 35i3)gt 298-309

Hodge VJ et J Austin 2002 Hierarchical word clustering mdash autoshymatic thesaurus generation Neurocomputing 48 819-846

Houde S 1992 Lapport des dictionnaires eacutelectroniques pour leacutelashyboration de theacutesaurus Documentation et bibliothegraveques 38 (2) 91-95

Jarmasz M et S Szpakowicz 2003 Rogets thesaurus and semantic similarity In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP-03) 212-219

Kar WL et CC Yang 2005 Automatic crosslingual thesaurus generated from the Hong Kong SAR Police Department Web corpus for crime analysis Journal of the American Society for Information Science and Technology 56 (3) 272-282

Kim Y BT Zhang et YT Kim 2001 Collocation dictionary optimization using WordNet and k-nearest neighbor learning Machine Translation 16 (2) 89-108

Litkowski KC 2001 Syntactic clues and lexical resources in question-answering In Information Technology Ninth Text REtrieval Conference (TREC-9) (NIST SP 500-249) 157-166

Mandala R T Tokunaga et H Tanaka 2000a Query expansion using heterogeneous thesauri Information Processing amp Management 36 (3) 361-378

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 5 5

20oob Improving information retrieval system performance by combining different text-mining techniques Intelligent Data Analysis 4 (6) 489-511

Mitkov R 2002 Anaphora Resolution London Longman

Morin E et C Jacquemin 2004 Automatic acquisition and expansion of hypernym links Computers and the Humanities 38 (4) 363-396

Morris J et G Hirst 1991 Lexical cohesion computed by thesaural relations as an indicator of the structure of text Computashytional Linguistics 17 (1) 21-48

Nasukawa T 1994- Robust method of pronoun resolution using full-text information In Proceedings of the 15th International Conference on Computational Linguistics (COLING94)gt Kyoto Japan 1157-1163

Park YC et KS Choi 1996 Automatic thesaurus construction using Bayesian networks Information Processing amp Management^ (5) 543-553-

Pizzato LAS 2003 Query expansion based on thesaurus relations evaluation over Internet In Computational Linguistics and Intelligent Text Processing 4th International Conference CICLing 2003 Proceedings (Lecture Notes in Computer Science Vol 2588) 553-556

Preiss J et M Stevenson 2004 Introduction to the special issue on word sense disambiguation Computer Speech and Language 18 (3) 201-207

Putejovsky J J Castano J Zhang M Kotecki et B Cochran 2002 Robust relational parsing over biomedical literature Extracting inhibit relations In Proceedings of the Pacific Symposium on Biocomputing Honolulu Hawaii 4-9 January 2000 362-373

Resnik P 1995 Using information content to evaluate semantic similarity In Proceedings of the 14th International Joint Confeshyrence on Artificial Intelligence (IJCAI) Montreacuteal 20-25 August 1995 448-453

Saggion H et G Lapalme 2002 Generating indicative-informative summaries with SumUM Computational Linguistics 28 (4) 497-526

Salton G 1972 Experiments in automatic thesaurus construction for information retrieval In Information Processing 71 Proceeshydings of the IFIP Congress 19711 Ljubljana Yougoslavie 23-28 August 1971115-123

Shaikevich AY 1985 Automatic construction of a thesaurus from explanatory dictionaries Automatic Documentation and Mathematical Linguistics 19 (4) 76-89

Soergel D 1999 The Rise of ontologies or the reinvention of classifishycation Journal of the American Society for Information Science 50 (12) 1119-1120

Srinivasan P 1996 Query expansion and MEDLINE Information Processing amp Management 32 (4) 431-443-

Sugato Bbdquo RJ Mooney KV Pasupuleti et J Ghosh 2001 Evaluating the novelty of text-mined rules using lexical knowledge In Proceedings of the Seventh ACM SIGKDD International Confeshyrence on Knowledge Discovery and Data Mining (KDD-2001) San Francisco California 26-29 August 2001 233-238

Sumita E O Furuse et H Iida 1995 An example-based disambishyguation of English prepositional phrase attachment Systems and Computers in Japan 26 (4) 30-41

Sussna M 1993 Word sense disambiguation for free-text indexing using a massive semantic network In Proceedings of the Second International Conference on Information and Knowledge Management (CIKM 93) Washington DC 1-5 November 1993 67-74

Takenobu T I Makoto et T Hozumi 1995 Automatic thesaurus construction based on grammatical relations In Proceedings of the 14th International Joint Conference on Artificial Intellishygence (IJCAI) pt 2 Montreacuteal 20-25 August 19951308-1313

Tseng YH 2002 Automatic thesaurus generation for Chinese documents Journal of the American Society for Information Science and Technology 5 (13) 1130-1138

Urena LA JMG Hidalgo et M de Buenaga 2000 Information retrieval by means of word sense disambiguation In Proceeshydings of the Third International Workshop on Text Speech and Dialogue TSD 2000 Lecture Notes in Artificial Intelligence Vol 902) 93-98

Voorhees E M 1994 Query expansion using lexical-semantic relations In 17th International Conference on Research and Development in Information Retrieval (SIGIR94) Dublin Ireland 3-6 July 1994 61-69

Vossen P 1998 EuroWordNet A multilingual database with lexical semantic networks Dordrecht Netherlands Kluwer

Yang CC et J Luk 2003 Automatic generation of EnglishChinese thesaurus based on a parallel corpus in laws Journal of the American Society for Information Science and Technology 54 (7) 671-682

Yarowsky D 1992 Word-sense disambiguation using statistical models of Rogets categories trained on large corpora In Proceedings ofCOLING-92 Nantes France 23-28 August 1992 454-460

Zhang HP J Sun B Wang et S Bai 2005 Computation on sentence semantic distance for novelty detection Journal of Computer Science and Technology (English Language Edition) 20 (3) 331-337

Zhang Z L Da Sylva C Davidson G Lizarralde G et JY Nie 2004 Domain-specific QA for the construction sector In Proceedings of the Workshop on Information Retrieval for Question Answering (IR4QA) SIGIR04 Sheffield UK 29 July 2004 6 5 - 7 1

1 5 6 I AVRIL bull JUIN 2 0 0 6 I DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 4: Thésaurus et systèmes de traitement automatique de la langue...Cet article vise à illustrer le rôle que joue le thésaurus documen taire, dans sa version la plus classique, dans

Autres applications du traitement automatique de la langue

Diverses applications du TAL visent agrave saisir automatiquement certains liens seacutemantiques entre les mots pour servir des applications ultimes comme la traduction ou la condensation automatiques Pour ce faire certaines tacircches intermeacutediaires se reacutevegravelent neacutecessaires et pour lesquelles les theacutesaurus peuvent ecirctre utiles

Calcul de distance seacutemantique

On peut vouloir se donner une mesure quantishytative de la distance seacutemantique entre deux mots pour pouvoir exprimer que laquo chien raquo et laquo molosse raquo sont tregraves proches de par leur sens que laquo chien raquo et laquo canideacute raquo le sont aussi mais agrave un degreacute moindre et que laquo chien raquo est plus proche de laquoeacuteleacutephantraquo que de laquosoucouperaquo par exemple Une technique proposeacutee se sert de repreacuteshysentations hieacuterarchiques des concepts telles que les theacutesaurus pour mesurer cette distance on attribue la distance entre deux eacutequivalents (synonymes) agrave o entre un speacutecifique et un geacuteneacuterique agrave 1 entre deux speacutecifiques dun mecircme geacuteneacuterique agrave 2 etc Il sagit de compter le nombre de liens agrave traverser dans la hieacuterarchie pour aller dun concept agrave lautre Certains chercheurs exploitent cette technique agrave diffeacuterentes fins dont B Sugato et al (2001) et Z Zhang et al (2005) dans un contexte dextraction dinformations Y Kim et al (2001) pour la traduction automatique et H Alani et al (2000) pour choisir certains termes associeacutes utiliseacutes pour eacutetendre une requecircte J Ferlez et M Gams (2004) en eacutevaluent lhypothegravese de base en mettant en comparaison des jugements humains sur la similariteacute des mots Un des problegravemes de cette approche est quelle preacutesuppose (agrave tort) que la distance seacutemantique est repreacutesenteacutee uniformeacutement dans les liens (Resnick 1995)

Reacutesolution danaphores

La reacutesolution danaphores deacutecrit la faccedilon dont on deacutetermine automatiquement lanteacuteceacutedent dun pronom ou dun autre type danaphore (voir Mitkov 2002) Il sagit par exemple de repeacuterer dans les exemples suivants que laquoilsraquo laquoles minousraquo et laquoces animaux raquo font tous reacutefeacuterence agrave laquo les chats raquo

gt Joseacutee aime bien les chats Ils sont affectueux et enjoueacutes

gt Joseacutee aime bien les chats Les minous sont affecshytueux et enjoueacutes

gt Joseacutee aime bien les chats Ces animaux sont affecshytueux et enjoueacutes

Les cas de reprises lexicales (et non pronomishynales) comme dans les deux derniers exemples

Diverses applications du TAL visent agrave saisir automatiquement certains liens

seacutemantiques entre les mots ltgtltXKXXgt0ltgtltgtltXgtltgtltgtltXgtltgt^^

neacutecessitent le recours agrave un theacutesaurus pour reacutesoudre lanaphore En reacutetablissant les liens seacutemantiques entre les entiteacutes du discours deacutecrites par leurs synonymes ou leurs geacuteneacuteriques la reacutesolution danaphores avec theacutesaurus (Nasukawa 1994 Denber 1998) peut aider agrave repeacuterer dans des textes des reacuteponses agrave des questions (Litkowski 2001) ou agrave effectuer de lextraction dinforshymation complexe (Putejovsky eacutetal 2002)

Preacutefeacuterences seacutelectionnelles

On nomme laquopreacutefeacuterences seacutelectionnellesraquo les critegraveres seacutemantiques quimpose par exemple un verbe agrave ses arguments Ainsi le verbe laquodistribuerraquo seacutelectionne un sujet humain ou animeacute un objet direct inanimeacute et de faccedilon optionnelle un objet indirect animeacute Par exemple laquo Marie distribue des sandwichs aux enfants raquo Par ailleurs un nom comme laquo sandwich raquo peut avoir un compleacutement de type laquoalimentraquo (ou laquo viande raquo ou laquo farce saleacutee raquo) notamment laquo au jambon raquo La phrase suivante doit ecirctre analyseacutee de faccedilon agrave ce que laquoau jambonraquo soit le compleacutement de laquosandwichsraquo et non de laquodistribuerraquo laquoMarie distribue des sandwichs au jambon raquo Une faccedilon daiguiller le systegraveme vers la bonne analyse dans chaque cas est de preacutevoir les types de compleacutements des verbes et des noms agrave laide de termes dun theacutesaurus (Sumita et al 1995) laquo humain raquo (et tous ses speacutecifiques) pour le sujet et pour lobjet indirect laquo objet inanimeacute raquo pour lobjet direct etc

Deacutesambiguiumlsation lexicale en contexte

La tacircche de deacutesambiguiumlsation lexicale en contexte (Preiss et Stevenson 2004) consiste agrave deacuteterminer pour un mot polyseacutemique comme laquotourraquo par exemple quel est son sens dans un eacutenonceacute donneacute Ainsi dans la phrase laquo Ces tours sont un exemple darchitecture gothique raquo on devrait pouvoir seacutelectionner automashytiquement le sens architectural de laquo tour raquo dapregraves les autres mots du contexte (contrairement au cas de laquoJai fait des tours de voitureraquo) Cette eacutetape est neacutecesshysaire entre autres agrave la traduction pour choisir entre les traductions possibles dun mot polyseacutemique ainsi quagrave la recherche dinformation efficace Un theacutesaurus peut faciliter cette deacutesambiguiumlsation automatique notamment pour le calcul de distance seacutemantique entre les divers mots du contexte Cette technique est utiliseacutee par M Sussna (1993) pour lindexation

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 1 5 1

WordNet nest pas un theacutesaurus documentaire notamment parce quil

contient un bon nombre dentreacutees non nominales ltXXgtltXXXgtOOltXgtltXKXgtltXXXXgtltXKgtltXgtltgtltgtltXXXgtltXgtltgt

par JMG Hidalgo et al (2005) pour la classification et par R Mandala et al (2000b) et LA Urena et al (2000) pour la recherche dinformation

Coheacutesion lexicale chaicircnes lexicales et segmentation de textes

Un certain nombre dapplications du TAL reposent sur la segmentation automatique (Hernandez et Grau 2002) dun texte en passages coheacuterents sur le plan theacutematique Le reacutesumeacute automatique en est un exemple H Saggion (2002) identifie les sections dun article scientifique typique alors que A Farzindar eacutetal (2004) deacutecoupent des jugements de la Cour feacutedeacuterale du Canada en sections selon une structure preacutedeacutefinie pour le genre Chacun produit ensuite un reacutesumeacute qui respecte la segmentation du texte original Une des techniques proposeacutees pour effectuer cette segmenshytation automatique exploite la notion de coheacutesion lexicale (Halliday et Hasan 1976) assureacutee entre autres par la reacutecurrence de thegravemes dans un discours Un calcul de similariteacute peut ecirctre effectueacute pour deux phrases conseacutecutives en tenant compte de la reacutepeacutetition des mots dune phrase agrave lautre (Morris et Hirst 1991 Hearst 1997 Harabagiu 1999 Da Sylva et Doll 2005) Deux phrases ayant un grand nombre de mots en commun auront un score de similariteacute plus eacuteleveacute que deux phrases qui ont peu de mots voire aucun en commun Tant que le score de similariteacute entre les phrases successives est eacuteleveacute on suppose que la suite preacutesente une uniteacute theacutematique Un score de similariteacute tregraves bas indiquerait une rupture dans la theacutematique et une coupure est alors proposeacutee agrave cet endroit Au-delagrave de la reacutepeacutetition exacte de mots pour capter la reprise theacutematique par un synonyme ou un geacuteneacuterique lutishylisation dun theacutesaurus est neacutecessaire Ainsi avec un theacutesaurus approprieacute on peut attribuer un score de coheacutesion eacuteleveacute pour les deux phrases suivantes bien quaucun mot ne soit reacutepeacuteteacute laquo Le pegravere regarda son garccedilon Lhomme eacutetait fier de son fils raquo J Morris et G Hirst (1991)raquo et M Hajime et al (1998) font usage dun theacutesaurus dans lalgorithme de segmentation Les chaicircnes lexicales ainsi creacuteeacutees ([pegravere homme] ainsi

que [garccedilon fils]) peuvent ecirctre utiliseacutees entre autres pour identifier les thegravemes principaux dun document (Chali 2001) ou pour construire un reacutesumeacute (Barzilay et Elhadad 1997)-

Principaux theacutesaurus utiliseacutes pour le traitement automatique

Certains theacutesaurus existants sont privileacutegieacutes par les systegravemes de traitement automatique

WordNet

WordNet (lthttpwordnetprincetonedugt) deacuteveloppeacute au Cognitive Science Laboratory de lUnishyversiteacute de Princeton est de loin le theacutesaurus le plus utiliseacute par les systegravemes de traitement automatique (sauf dans le domaine meacutedical) Sa conception a eacuteteacute inspireacutee par les theacuteories actuelles en psycholinguisshytique Limiteacute agrave langlais sa couverture lexicale est toutefois importante 155 327 mots-formes diffeacuterents ou 207 016 paires de mots et sens (lthttpwordnet princet0nedumanwnstats7WNgt) De ceux-lagrave plus de 117000 sont des noms mais WordNet contient aussi plus de 22000 adjectifs 11400 verbes et 4600 adverbes Ce sont tous des mots dits laquode la langue geacuteneacuteraleraquo

En reacutealiteacute WordNet nest pas un theacutesaurus documentaire notamment parce quil contient un bon nombre dentreacutees non nominales ainsi que des relations seacutemantiques additionnelles par rapport au theacutesaurus traditionnel (par exemple la relation meacuteronymique laquopartie-toutraquo) Les liens de synonymie sont exprimeacutes entre les sens des mots et non entre les mots eux-mecircmes Ainsi le mot bank a plusieurs sens Le sens laquoinstitution financiegravereraquo est associeacute agrave un certain nombre de synonymes tels que banking company par exemple ce qui deacutefinit un synset le sens laquo berge dune riviegravere raquo est relieacute agrave ses propres synonymes et geacuteneacuteriques Les deux sens sont rattacheacutes direcshytement au mot bank mais cest au synset que sont rattacheacutees les relations theacutesaurales Il ny a pas dans WordNet deacutequivalent pour lopposition entre descripshyteurs et non-descripteurs

Le theacutesaurus Rogets

Le Rogets International Thesaurus (Chapman et Roget 1992) est un dictionnaire analogique ou de synonymes de langlais dont la premiegravere version date de 1852 Il a eacuteteacute utiliseacute notamment pour calculer la coheacutesion lexicale (Morris et Hirst 1991) et la deacutesambi-guiumlsation de sens (Yarowsky 1992) Sa structure concepshytuelle est tregraves particuliegravere il sagit dune hieacuterarchie conceptuelle un arbre dont les feuilles terminales sont les mots et les six cateacutegories supeacuterieures regroupent des concepts geacuteneacuteraux et non des mots laquo Words

1 5 2 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Expressing Abstract Relationsraquo laquo Words Relating to Space raquo laquo Words Relating to Matterraquo laquo Words Relating to the Intellectual Faculties raquo laquo Words Relating to the Voluntary Powers raquo laquo Words Relating to the Sentient and Moral Powersraquo Les niveaux intermeacutediaires regroupent les mots en ensembles baseacutes sur lanalogie Ce nest pas un theacutesaurus documentaire cependant il semblerait mieux adapteacute que WordNet pour effectuer certains calculs de distance seacutemantique (Jarmasz et Szpakowicz 2003)

EuroWordNet

Le theacutesaurus EuroWordNet ( Vossen 1998 lthttp wwwillcuvanlEuroWordNetgt) est un eacutequivalent multilingue de WordNet parraineacute par la commushynauteacute europeacuteenne Le projet initial couvrait sept langues dont le franccedilais (chaque langue est lieacutee aux eacutequivalents anglais) dautres versions linguistiques sont en cours de deacuteveloppement Il a eacuteteacute peu utiliseacute jusquagrave maintenant lutilisation quen font J Gonzalo et al (1998) pour la recherche dinformation translinshyguistique exploite son atout majeur la recherche agrave laide de requecircte dans une langue de documents eacutecrits dans une autre langue

UMLS

UMLS (Unified Medical Language System) est un meacutetatheacutesaurus multilingue du domaine meacutedical (lthttpwwwnlmnihgovresearchumlsgt) utiliseacute dans les systegravemes de recherche dinformation notamment par D Eichmann et al (1998) pour la recherche translinguistique Notons que pour le domaine biomeacutedical plusieurs recherches reposent eacutegalement sur lutilisation des vedettes-matiegravere MeSH Medical Subject Headings)

Caracteacuteristiques des theacutesaurus requises pour lutilisation automatique et difficulteacutes reacutesiduelles

Un examen attentif des travaux preacuteciteacutes et des observations que lon y recense suggegravere que pour ecirctre utiliseacutes efficacement par un systegraveme de traitement automatique les theacutesaurus doivent satisfaire un certain nombre dexigences Les plus importantes sont dans lordre laccessibiliteacute la pertinence et la rigueur de conception du theacutesaurus

La notion daccessibiliteacute fait reacutefeacuterence agrave la faciliteacute dacquisition et dutilisation du theacutesaurus Ideacutealement on cherche un theacutesaurus gratuit et libre de droits Le format de fichier doit ecirctre le plus universel possible format ASCII (txt) deacutelimiteacute simplement Agrave la rigueur un format de base de donneacutees facilement transforshymable (base de donneacutees relationnelle par exemple) est acceptable mais pas un format proprieacutetaire (doc ou

Pour ecirctre utiliseacutes efficacement par un systegraveme de traitement automatique

les theacutesaurus doivent satisfaire un certain nombre dexigences oooltxgtoocgtoltgtltxgtltxgtoltgtoltxgtlt^^

autres semblables) ou baseacute sur limage de documents imprimeacutes (PDF) Enfin il faut avoir accegraves agrave la totaliteacute du theacutesaurus en format numeacuterique dune maniegravere qui permette le traitement en lots batch processing) et non limiteacute agrave une consultation par interface de requecircte ou par une succession dhyperliens

La pertinence deacutenote la concordance entre les caracteacuteristiques du theacutesaurus et celles du systegraveme de TAL viseacute Dabord le domaine un theacutesaurus speacutecialiseacute est preacutefeacuterable pour un systegraveme speacutecialiseacute dans le mecircme domaine mecircme si les reacutesultats seront alors difficilement transposables agrave dautres contextes Pour un theacutesaurus de langue geacuteneacuterale la couverture lexicale doit ecirctre excellente Et bien sucircr le theacutesaurus doit ecirctre disponible dans la bonne langue

Puisque les systegravemes automatiques ne peuvent pas interpreacuteter le sens des chaicircnes quils manipulent la rigueur dans la deacutefinition des relations est primorshydiale La relation hieacuterarchique doit ecirctre utiliseacutee de faccedilon tregraves stricte en conformiteacute avec les normes dailleurs Pour la relation deacutequivalenceles eacutequivashylents doivent ecirctre de vrais synonymes linguistiques et non des eacutequivalents documentaires deacutefinis contextuel-lement Par exemple dans le theacutesaurus AGROVOC (lthttpwwwfaoorgaimsag_introhtmgt) laquo bœufraquo et laquobouvillonraquo sont en relation deacutequivalence alors quils ne sont pas strictement synonymes De maniegravere plus geacuteneacuterale toutes les relations utiliseacutees devraient ecirctre univoques interpreacutetables dune seule faccedilon Or cest rarement le cas pour la relation associative (TA) On voudrait bien lutiliser dans lextension de requecirctes mais la varieacuteteacute des relations quelle encode peut engendrer rapidement des non-sens Pour un traitement automatique le theacutesaurus sera plus utile si la relation associative est remplaceacutee par dautres relations plus speacutecifiques tout-partie acteur-action action-reacutesultat action-lieu etc Ce codage explicite permet de programmer un traitement diffeacuterencieacute pour chaque relation

Mecircme si ces exigences sont respecteacutees un certain nombre de difficulteacutes demeurent La forme dun terme dans le theacutesaurus nest pas neacutecessairement celle que lon retrouvera dans un texte Une lemmatisation sera neacutecessaire cest-agrave-dire quil faudra ramener le terme agrave sa forme laquode baseraquo au masculin singulier le cas eacutecheacuteant Notons que le problegraveme nest pas le mecircme en franccedilais et en anglais en anglais il faudra

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 1 5 3

Lavenir demeure neacuteanmoins prometteur mecircme si Von doit surveiller la monteacutee des ontologies en particulier

dans le domaine biomeacutedical 0000000ltgtltgtltgtltgt0ltXgt0ltgtltXgtltgtltXgtlt^

aussi lemmatiser le theacutesaurus puisque les termes sy retrouvent essentiellement au pluriel conformeacutement aux normes pour le deacuteveloppement des theacutesaurus multilingues (ISO 5964) Il faudra eacutegalement faire abstraction des qualificatifs Par exemple dans le theacutesaurus AGROVOC on trouve agrave la fois laquopoisson (aliment) raquo et laquo poisson (animal) raquo Dans un texte donneacute on ne trouvera bien sucircr que la chaicircne laquopoissonraquo et il faudra retirer le qualificatif du theacutesaurus pour le comparer aux mots du texte Il faudra aussi effectuer une deacutesambiguiumlsation lexicale en contexte pour deacuteterminer si le texte parle de lanimal ou de sa chair comestible ce qui est un autre problegraveme celui-ci nest cependant pas limiteacute aux termes avec qualificatif mais est preacutesent pour tout terme du theacutesaurus qui est polyseacutemique

Il est souvent impossible de deacutenicher un theacutesaurus dans un domaine speacutecialiseacute (cest encore plus vrai pour des systegravemes bilingues ou multilingues) On saccommode souvent alors dun theacutesaurus de langue geacuteneacuterale comme WordNet mais les reacutesultats sont habituellement deacutecevants

Certains termes dun theacutesaurus documenshytaire sont accompagneacutes de notes dapplication qui reacutegissent leur utilisation On pense ici notamment aux notes qui renvoient dun non-descripteur agrave plus dun descripteur selon le sens un systegraveme automashytique sera incapable dinterpreacuteter la note pour choisir le descripteur approprieacute

Ainsi malgreacute leur inteacuterecirct les theacutesaurus preacutesentent des difficulteacutes dutilisation qui ne sont pas toujours simples agrave reacutesoudre

Une probleacutematique relieacutee la construction automatique de theacutesaurus

On peut identifier deux motivations agrave la construction automatique de theacutesaurus Dabord les chercheurs en TAL sentent le besoin davoir des ressources lexicales approprieacutees pour la collection quils sont agrave traiter dans la bonne langue et dans le bon domaine mais lexpertise humaine est coucircteuse et les theacutesaurus existants mecircme sils sont nombreux ne sont pas neacutecessairement pertinents Ensuite il y a un inteacuterecirct theacuteorique agrave veacuterifier des hypothegraveses quant aux connaissances implicites encodeacutees dans des textes

ou des dictionnaires On trouve bon nombre deacutecrits sur le sujet dont un nombre important sur le chinois (pour nen nommer que quelques-uns Foo et al 2000 Tseng 2002 Yang et Luk 2003)

Les premiers travaux dans ce domaine ont exploiteacute les dictionnaires de deacutefinitions (Shaikevich 1985 Houde 1992) Les techniques les plus reacutepandues procegravedent par analyse de corpus selon des approches linguistiques (Bertrand-Gastaldy et Pagola 1992 Takenobu et al 1995 Morin et Jacquemin 2004) ou statistiques (par exemple Salton 1972 Guntzer et al 1989 Crouch 1990 Grefenstette 1994 Park et Choi 1996 Hodge et Austin 2002 Kar et Yang 2005 Dejean eacutetal 2005)

Dans la plupart des cas les reacutesultats sont en fait proches dun theacutesaurus mais pas identiques puisquils contiennent des termes relieacutes de faccedilon erroneacutee Mais la recherche se poursuit

Conclusion

Une des frontiegraveres reconnues au TAL est le traitement de la seacutemantique des textes le traitement formel des aspects lexicaux morphologiques ou syntaxiques est plutocirct bien maicirctriseacute comparatishyvement agrave celui du sens Les theacutesaurus sont des outils tregraves appreacutecieacutes pour rendre possible au moins partielshylement cette tacircche de compreacutehension du sens en raison de leur structure formelle et de la clarteacute des relations seacutemantiques impliqueacutees Cette utiliteacute est eacutevidente en regard de leacuteventail des contextes dapplishycation des theacutesaurus preacutesenteacutes ci-haut Il est presque chose courante dans des exposeacutes de travaux en TAL que lon mentionne en passant que tel theacutesaurus a eacuteteacute utiliseacute pour effectuer des geacuteneacuteralisations seacutemantiques

On remarque aujourdhui une certaine concurshyrence entre les notions de theacutesaurus de taxinomies (normalement restreintes agrave la relation hieacuterarchique) et dontologies (permettant une gamme infinie de relations entre les concepts) Chacune a ses applicashytions privileacutegieacutees Les ontologies prendront de plus en plus dimportance dans le contexte de deacuteveloppement du Web seacutemantique Pour linstant les theacutesaurus existants sont rapidement happeacutes par leacutes concepteurs de systegravemes de TAL encore preneurs de theacutesaurus bacirctis selon les regravegles de lart Lavenir demeure neacuteanmoins prometteur mecircme si lon doit surveiller la monteacutee des ontologies en particulier dans le domaine biomeacutedical reg

Sources consulteacutees

Abuzir Y et F Vandamme 2001 Automatic e-mail classification based on thesaurus In Proceedings of the IASTED Intershynational Conference on Applied Informatics International Symposium on Software Engineering Databases and Applishycations 519-524

1 5 4 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Alani H C Jones et D Tudhope 2000 Associative and spatial relationships in thesaurus-based retrieval In Proceedings of Research and Advanced Technology for Digital Libraries 4th European Conference ECDL 2000 Lecture Notes in Computer Science vol 1923 45-58)

Ardo A et T Kpch 1999 Automatic classification applied to full text Internet documents in a robot-generated subject index In Proceedings of the 23rd International Online Information Meeting 239-246

Bang SL JD Yang et HJ Yang 2006 Hierarchical document categorization with k-NN and concept-based thesauri Inforshymation Processing amp Management 42 (2) 387-406

Barzilay R et M Elhadad 1997 Using lexical chains for text summashyrization In Proceedings of the AŒ97EACL97 Workshop on Intelligent Scalable Text Summarization Madrid 11 juillet 199710-17

Bertrand-Gastaldy S et G Pagola 1992 Lanalyse du contenu textuel en vue de la construction de theacutesaurus et de lindexation assisteacutees par ordinateur applications possibles avec SATO Documentation et bibliothegraveques 38 (2) 75-89

Chali Y 2001 Topic detection using lexical chains In Engineering of Intelligent Systems 14th International Conference on Indusshytrial and Engineering Applications of Artificial Intelligence and Expert Systems IE AAIE 2001 Proceedings (Lecture Notes in Artificial Intelligence vol 2070) 552-558

Chapman R et P Roget 1992 Rogets International Thesaurus 5e eacuted New York NY HarperCollins

Chartron G S Dalbin MG Monteil et M Verillon 1989 Indexation manuelle et indexation automatique deacutepasser les oppositions Documentaliste mdash Sciences de linformation 26 (4-5) 181-187

Chu WW Z Liu W Mao et Q Zou 2005 A knowledge-based approach for retrieving scenario-specific medical text documents Control Engineering Practice 13 (9) 1105-1121

Crouch CJ 1990 Approach to the automatic construction of global thesauri Information Processing amp Management 26 (5) 629-640

Da Sylva L et F Doll 2005 Information architecture for document description Semantic thematization of text segments In K Tochtermann et H Maurer (dir) Proceedings ofl-KNOW 05 5th International Conference on Knowledge Management Graz Austria 29 June-i July 2005 612-620

Dejean H E Gaussier J-M Renders et F Sadat 2005 Automatic processing of multilingual medical terminology Applications to thesaurus enrichment and cross-language information retrieval Artificial Intelligence in Medicine 33 (2) 111-124 (Special Issue Information Extraction and Summarization from Medical Documents)

Denber M 1998 Automatic resolution of anaphora in English Technical report Eastman Kodak Co

Dillon M 1982 Thesaurus-based automatic book indexing Inforshymation Processing amp Management 18 (4) 167-178

Efthimiadis EN 1996 Query expansion In ME Williams (dir) Annual Review of Information Science and Technology 31121-187

Eichmann D ME Ruiz et P Srinivasan 1998 Cross-language inforshymation retrieval with the UMLS Metathesaurus In Proceeshydings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 72-80

Farzindar A G Lapalme et J-P Descleacutes 2004 Reacutesumeacute de textes juridiques par identification de leur structure theacutematique Traitement Automatique des Langues (TAL) 45 (1) 1-21 (Numeacutero speacutecial Le reacutesumeacute automatique de texte solutions et perspectives)

Ferlez J et M Gams 2004 Shortest-path semantic distance measure in WordNet V20 Informatica 28 (4) 381-386

Foo S SC Hui HK Lim et L Hui 2000 Automatic thesaurus for enhanced Chinese text retrieval Library Review 49 (5-6) 230-239

Ginsberg A 1993 Unified approach to automatic indexing and information retrieval IEEE Expert 8 (5) 46-56

Gonzalo J F Verdejo C Peters et N Calzolari 1998 Applying EuroWordNet to crosslanguage text retrieval Computers and the Humanities 32 (2-3) 185-207

Greenberg J 2001a Optimal query expansion (QE) processing methods with semantically encoded structured thesauri terminology Journal of the American Society for Information Science 52 (6) 487-498

2001b Automatic query expansion via lexical-semantic relationships Journal of the American Society for Information Science 52 (5) 402-415

Grefenstette G 1994 Explorations in automatic thesaurus discovery Dordrecht Kluwer Academic

Guntzer U G Juttner G Seegmuller et F Sarre 1989 Automatic thesaurus construction by machine learning from retrieval sessions Information Processing amp Management^ (3) 265-273

Hajime M H Takeo et O Manabu 1998 Text segmentation with multiple surface linguistic cues In Proceedings of COLING-ACL98 881-885

Halliday M et R Hasan 1976 Cohesion in English London Longman

Harabagiu S 1999 From lexical cohesion to textual coherence A data driven perspective International Journal of Pattern Recognition and Artificial Intelligence 13 (2) 247-265

Hearst MA 1997 TextTiling Segmenting text into multi-paragraph subtopic passages Computational Linguistics 23 (1) 33-64

Hernandez N et B Grau 2002 Analyse theacutematique du discours segmentation structuration description et repreacutesentation In Actes de CIDE2002 Hammamet Tunisie 277-285

Hidalgo JMG M de Buenaga Rodriguez et JCC Perez 2005 The role of word sense disambiguation in automated text categorization In Natural Language Processing and Inforshymation Systems 10th International Conference on Applicashytions of Natural Language to Information Systems NLDB 200s (Lecture Notes in Computer Science 35i3)gt 298-309

Hodge VJ et J Austin 2002 Hierarchical word clustering mdash autoshymatic thesaurus generation Neurocomputing 48 819-846

Houde S 1992 Lapport des dictionnaires eacutelectroniques pour leacutelashyboration de theacutesaurus Documentation et bibliothegraveques 38 (2) 91-95

Jarmasz M et S Szpakowicz 2003 Rogets thesaurus and semantic similarity In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP-03) 212-219

Kar WL et CC Yang 2005 Automatic crosslingual thesaurus generated from the Hong Kong SAR Police Department Web corpus for crime analysis Journal of the American Society for Information Science and Technology 56 (3) 272-282

Kim Y BT Zhang et YT Kim 2001 Collocation dictionary optimization using WordNet and k-nearest neighbor learning Machine Translation 16 (2) 89-108

Litkowski KC 2001 Syntactic clues and lexical resources in question-answering In Information Technology Ninth Text REtrieval Conference (TREC-9) (NIST SP 500-249) 157-166

Mandala R T Tokunaga et H Tanaka 2000a Query expansion using heterogeneous thesauri Information Processing amp Management 36 (3) 361-378

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 5 5

20oob Improving information retrieval system performance by combining different text-mining techniques Intelligent Data Analysis 4 (6) 489-511

Mitkov R 2002 Anaphora Resolution London Longman

Morin E et C Jacquemin 2004 Automatic acquisition and expansion of hypernym links Computers and the Humanities 38 (4) 363-396

Morris J et G Hirst 1991 Lexical cohesion computed by thesaural relations as an indicator of the structure of text Computashytional Linguistics 17 (1) 21-48

Nasukawa T 1994- Robust method of pronoun resolution using full-text information In Proceedings of the 15th International Conference on Computational Linguistics (COLING94)gt Kyoto Japan 1157-1163

Park YC et KS Choi 1996 Automatic thesaurus construction using Bayesian networks Information Processing amp Management^ (5) 543-553-

Pizzato LAS 2003 Query expansion based on thesaurus relations evaluation over Internet In Computational Linguistics and Intelligent Text Processing 4th International Conference CICLing 2003 Proceedings (Lecture Notes in Computer Science Vol 2588) 553-556

Preiss J et M Stevenson 2004 Introduction to the special issue on word sense disambiguation Computer Speech and Language 18 (3) 201-207

Putejovsky J J Castano J Zhang M Kotecki et B Cochran 2002 Robust relational parsing over biomedical literature Extracting inhibit relations In Proceedings of the Pacific Symposium on Biocomputing Honolulu Hawaii 4-9 January 2000 362-373

Resnik P 1995 Using information content to evaluate semantic similarity In Proceedings of the 14th International Joint Confeshyrence on Artificial Intelligence (IJCAI) Montreacuteal 20-25 August 1995 448-453

Saggion H et G Lapalme 2002 Generating indicative-informative summaries with SumUM Computational Linguistics 28 (4) 497-526

Salton G 1972 Experiments in automatic thesaurus construction for information retrieval In Information Processing 71 Proceeshydings of the IFIP Congress 19711 Ljubljana Yougoslavie 23-28 August 1971115-123

Shaikevich AY 1985 Automatic construction of a thesaurus from explanatory dictionaries Automatic Documentation and Mathematical Linguistics 19 (4) 76-89

Soergel D 1999 The Rise of ontologies or the reinvention of classifishycation Journal of the American Society for Information Science 50 (12) 1119-1120

Srinivasan P 1996 Query expansion and MEDLINE Information Processing amp Management 32 (4) 431-443-

Sugato Bbdquo RJ Mooney KV Pasupuleti et J Ghosh 2001 Evaluating the novelty of text-mined rules using lexical knowledge In Proceedings of the Seventh ACM SIGKDD International Confeshyrence on Knowledge Discovery and Data Mining (KDD-2001) San Francisco California 26-29 August 2001 233-238

Sumita E O Furuse et H Iida 1995 An example-based disambishyguation of English prepositional phrase attachment Systems and Computers in Japan 26 (4) 30-41

Sussna M 1993 Word sense disambiguation for free-text indexing using a massive semantic network In Proceedings of the Second International Conference on Information and Knowledge Management (CIKM 93) Washington DC 1-5 November 1993 67-74

Takenobu T I Makoto et T Hozumi 1995 Automatic thesaurus construction based on grammatical relations In Proceedings of the 14th International Joint Conference on Artificial Intellishygence (IJCAI) pt 2 Montreacuteal 20-25 August 19951308-1313

Tseng YH 2002 Automatic thesaurus generation for Chinese documents Journal of the American Society for Information Science and Technology 5 (13) 1130-1138

Urena LA JMG Hidalgo et M de Buenaga 2000 Information retrieval by means of word sense disambiguation In Proceeshydings of the Third International Workshop on Text Speech and Dialogue TSD 2000 Lecture Notes in Artificial Intelligence Vol 902) 93-98

Voorhees E M 1994 Query expansion using lexical-semantic relations In 17th International Conference on Research and Development in Information Retrieval (SIGIR94) Dublin Ireland 3-6 July 1994 61-69

Vossen P 1998 EuroWordNet A multilingual database with lexical semantic networks Dordrecht Netherlands Kluwer

Yang CC et J Luk 2003 Automatic generation of EnglishChinese thesaurus based on a parallel corpus in laws Journal of the American Society for Information Science and Technology 54 (7) 671-682

Yarowsky D 1992 Word-sense disambiguation using statistical models of Rogets categories trained on large corpora In Proceedings ofCOLING-92 Nantes France 23-28 August 1992 454-460

Zhang HP J Sun B Wang et S Bai 2005 Computation on sentence semantic distance for novelty detection Journal of Computer Science and Technology (English Language Edition) 20 (3) 331-337

Zhang Z L Da Sylva C Davidson G Lizarralde G et JY Nie 2004 Domain-specific QA for the construction sector In Proceedings of the Workshop on Information Retrieval for Question Answering (IR4QA) SIGIR04 Sheffield UK 29 July 2004 6 5 - 7 1

1 5 6 I AVRIL bull JUIN 2 0 0 6 I DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 5: Thésaurus et systèmes de traitement automatique de la langue...Cet article vise à illustrer le rôle que joue le thésaurus documen taire, dans sa version la plus classique, dans

WordNet nest pas un theacutesaurus documentaire notamment parce quil

contient un bon nombre dentreacutees non nominales ltXXgtltXXXgtOOltXgtltXKXgtltXXXXgtltXKgtltXgtltgtltgtltXXXgtltXgtltgt

par JMG Hidalgo et al (2005) pour la classification et par R Mandala et al (2000b) et LA Urena et al (2000) pour la recherche dinformation

Coheacutesion lexicale chaicircnes lexicales et segmentation de textes

Un certain nombre dapplications du TAL reposent sur la segmentation automatique (Hernandez et Grau 2002) dun texte en passages coheacuterents sur le plan theacutematique Le reacutesumeacute automatique en est un exemple H Saggion (2002) identifie les sections dun article scientifique typique alors que A Farzindar eacutetal (2004) deacutecoupent des jugements de la Cour feacutedeacuterale du Canada en sections selon une structure preacutedeacutefinie pour le genre Chacun produit ensuite un reacutesumeacute qui respecte la segmentation du texte original Une des techniques proposeacutees pour effectuer cette segmenshytation automatique exploite la notion de coheacutesion lexicale (Halliday et Hasan 1976) assureacutee entre autres par la reacutecurrence de thegravemes dans un discours Un calcul de similariteacute peut ecirctre effectueacute pour deux phrases conseacutecutives en tenant compte de la reacutepeacutetition des mots dune phrase agrave lautre (Morris et Hirst 1991 Hearst 1997 Harabagiu 1999 Da Sylva et Doll 2005) Deux phrases ayant un grand nombre de mots en commun auront un score de similariteacute plus eacuteleveacute que deux phrases qui ont peu de mots voire aucun en commun Tant que le score de similariteacute entre les phrases successives est eacuteleveacute on suppose que la suite preacutesente une uniteacute theacutematique Un score de similariteacute tregraves bas indiquerait une rupture dans la theacutematique et une coupure est alors proposeacutee agrave cet endroit Au-delagrave de la reacutepeacutetition exacte de mots pour capter la reprise theacutematique par un synonyme ou un geacuteneacuterique lutishylisation dun theacutesaurus est neacutecessaire Ainsi avec un theacutesaurus approprieacute on peut attribuer un score de coheacutesion eacuteleveacute pour les deux phrases suivantes bien quaucun mot ne soit reacutepeacuteteacute laquo Le pegravere regarda son garccedilon Lhomme eacutetait fier de son fils raquo J Morris et G Hirst (1991)raquo et M Hajime et al (1998) font usage dun theacutesaurus dans lalgorithme de segmentation Les chaicircnes lexicales ainsi creacuteeacutees ([pegravere homme] ainsi

que [garccedilon fils]) peuvent ecirctre utiliseacutees entre autres pour identifier les thegravemes principaux dun document (Chali 2001) ou pour construire un reacutesumeacute (Barzilay et Elhadad 1997)-

Principaux theacutesaurus utiliseacutes pour le traitement automatique

Certains theacutesaurus existants sont privileacutegieacutes par les systegravemes de traitement automatique

WordNet

WordNet (lthttpwordnetprincetonedugt) deacuteveloppeacute au Cognitive Science Laboratory de lUnishyversiteacute de Princeton est de loin le theacutesaurus le plus utiliseacute par les systegravemes de traitement automatique (sauf dans le domaine meacutedical) Sa conception a eacuteteacute inspireacutee par les theacuteories actuelles en psycholinguisshytique Limiteacute agrave langlais sa couverture lexicale est toutefois importante 155 327 mots-formes diffeacuterents ou 207 016 paires de mots et sens (lthttpwordnet princet0nedumanwnstats7WNgt) De ceux-lagrave plus de 117000 sont des noms mais WordNet contient aussi plus de 22000 adjectifs 11400 verbes et 4600 adverbes Ce sont tous des mots dits laquode la langue geacuteneacuteraleraquo

En reacutealiteacute WordNet nest pas un theacutesaurus documentaire notamment parce quil contient un bon nombre dentreacutees non nominales ainsi que des relations seacutemantiques additionnelles par rapport au theacutesaurus traditionnel (par exemple la relation meacuteronymique laquopartie-toutraquo) Les liens de synonymie sont exprimeacutes entre les sens des mots et non entre les mots eux-mecircmes Ainsi le mot bank a plusieurs sens Le sens laquoinstitution financiegravereraquo est associeacute agrave un certain nombre de synonymes tels que banking company par exemple ce qui deacutefinit un synset le sens laquo berge dune riviegravere raquo est relieacute agrave ses propres synonymes et geacuteneacuteriques Les deux sens sont rattacheacutes direcshytement au mot bank mais cest au synset que sont rattacheacutees les relations theacutesaurales Il ny a pas dans WordNet deacutequivalent pour lopposition entre descripshyteurs et non-descripteurs

Le theacutesaurus Rogets

Le Rogets International Thesaurus (Chapman et Roget 1992) est un dictionnaire analogique ou de synonymes de langlais dont la premiegravere version date de 1852 Il a eacuteteacute utiliseacute notamment pour calculer la coheacutesion lexicale (Morris et Hirst 1991) et la deacutesambi-guiumlsation de sens (Yarowsky 1992) Sa structure concepshytuelle est tregraves particuliegravere il sagit dune hieacuterarchie conceptuelle un arbre dont les feuilles terminales sont les mots et les six cateacutegories supeacuterieures regroupent des concepts geacuteneacuteraux et non des mots laquo Words

1 5 2 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Expressing Abstract Relationsraquo laquo Words Relating to Space raquo laquo Words Relating to Matterraquo laquo Words Relating to the Intellectual Faculties raquo laquo Words Relating to the Voluntary Powers raquo laquo Words Relating to the Sentient and Moral Powersraquo Les niveaux intermeacutediaires regroupent les mots en ensembles baseacutes sur lanalogie Ce nest pas un theacutesaurus documentaire cependant il semblerait mieux adapteacute que WordNet pour effectuer certains calculs de distance seacutemantique (Jarmasz et Szpakowicz 2003)

EuroWordNet

Le theacutesaurus EuroWordNet ( Vossen 1998 lthttp wwwillcuvanlEuroWordNetgt) est un eacutequivalent multilingue de WordNet parraineacute par la commushynauteacute europeacuteenne Le projet initial couvrait sept langues dont le franccedilais (chaque langue est lieacutee aux eacutequivalents anglais) dautres versions linguistiques sont en cours de deacuteveloppement Il a eacuteteacute peu utiliseacute jusquagrave maintenant lutilisation quen font J Gonzalo et al (1998) pour la recherche dinformation translinshyguistique exploite son atout majeur la recherche agrave laide de requecircte dans une langue de documents eacutecrits dans une autre langue

UMLS

UMLS (Unified Medical Language System) est un meacutetatheacutesaurus multilingue du domaine meacutedical (lthttpwwwnlmnihgovresearchumlsgt) utiliseacute dans les systegravemes de recherche dinformation notamment par D Eichmann et al (1998) pour la recherche translinguistique Notons que pour le domaine biomeacutedical plusieurs recherches reposent eacutegalement sur lutilisation des vedettes-matiegravere MeSH Medical Subject Headings)

Caracteacuteristiques des theacutesaurus requises pour lutilisation automatique et difficulteacutes reacutesiduelles

Un examen attentif des travaux preacuteciteacutes et des observations que lon y recense suggegravere que pour ecirctre utiliseacutes efficacement par un systegraveme de traitement automatique les theacutesaurus doivent satisfaire un certain nombre dexigences Les plus importantes sont dans lordre laccessibiliteacute la pertinence et la rigueur de conception du theacutesaurus

La notion daccessibiliteacute fait reacutefeacuterence agrave la faciliteacute dacquisition et dutilisation du theacutesaurus Ideacutealement on cherche un theacutesaurus gratuit et libre de droits Le format de fichier doit ecirctre le plus universel possible format ASCII (txt) deacutelimiteacute simplement Agrave la rigueur un format de base de donneacutees facilement transforshymable (base de donneacutees relationnelle par exemple) est acceptable mais pas un format proprieacutetaire (doc ou

Pour ecirctre utiliseacutes efficacement par un systegraveme de traitement automatique

les theacutesaurus doivent satisfaire un certain nombre dexigences oooltxgtoocgtoltgtltxgtltxgtoltgtoltxgtlt^^

autres semblables) ou baseacute sur limage de documents imprimeacutes (PDF) Enfin il faut avoir accegraves agrave la totaliteacute du theacutesaurus en format numeacuterique dune maniegravere qui permette le traitement en lots batch processing) et non limiteacute agrave une consultation par interface de requecircte ou par une succession dhyperliens

La pertinence deacutenote la concordance entre les caracteacuteristiques du theacutesaurus et celles du systegraveme de TAL viseacute Dabord le domaine un theacutesaurus speacutecialiseacute est preacutefeacuterable pour un systegraveme speacutecialiseacute dans le mecircme domaine mecircme si les reacutesultats seront alors difficilement transposables agrave dautres contextes Pour un theacutesaurus de langue geacuteneacuterale la couverture lexicale doit ecirctre excellente Et bien sucircr le theacutesaurus doit ecirctre disponible dans la bonne langue

Puisque les systegravemes automatiques ne peuvent pas interpreacuteter le sens des chaicircnes quils manipulent la rigueur dans la deacutefinition des relations est primorshydiale La relation hieacuterarchique doit ecirctre utiliseacutee de faccedilon tregraves stricte en conformiteacute avec les normes dailleurs Pour la relation deacutequivalenceles eacutequivashylents doivent ecirctre de vrais synonymes linguistiques et non des eacutequivalents documentaires deacutefinis contextuel-lement Par exemple dans le theacutesaurus AGROVOC (lthttpwwwfaoorgaimsag_introhtmgt) laquo bœufraquo et laquobouvillonraquo sont en relation deacutequivalence alors quils ne sont pas strictement synonymes De maniegravere plus geacuteneacuterale toutes les relations utiliseacutees devraient ecirctre univoques interpreacutetables dune seule faccedilon Or cest rarement le cas pour la relation associative (TA) On voudrait bien lutiliser dans lextension de requecirctes mais la varieacuteteacute des relations quelle encode peut engendrer rapidement des non-sens Pour un traitement automatique le theacutesaurus sera plus utile si la relation associative est remplaceacutee par dautres relations plus speacutecifiques tout-partie acteur-action action-reacutesultat action-lieu etc Ce codage explicite permet de programmer un traitement diffeacuterencieacute pour chaque relation

Mecircme si ces exigences sont respecteacutees un certain nombre de difficulteacutes demeurent La forme dun terme dans le theacutesaurus nest pas neacutecessairement celle que lon retrouvera dans un texte Une lemmatisation sera neacutecessaire cest-agrave-dire quil faudra ramener le terme agrave sa forme laquode baseraquo au masculin singulier le cas eacutecheacuteant Notons que le problegraveme nest pas le mecircme en franccedilais et en anglais en anglais il faudra

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 1 5 3

Lavenir demeure neacuteanmoins prometteur mecircme si Von doit surveiller la monteacutee des ontologies en particulier

dans le domaine biomeacutedical 0000000ltgtltgtltgtltgt0ltXgt0ltgtltXgtltgtltXgtlt^

aussi lemmatiser le theacutesaurus puisque les termes sy retrouvent essentiellement au pluriel conformeacutement aux normes pour le deacuteveloppement des theacutesaurus multilingues (ISO 5964) Il faudra eacutegalement faire abstraction des qualificatifs Par exemple dans le theacutesaurus AGROVOC on trouve agrave la fois laquopoisson (aliment) raquo et laquo poisson (animal) raquo Dans un texte donneacute on ne trouvera bien sucircr que la chaicircne laquopoissonraquo et il faudra retirer le qualificatif du theacutesaurus pour le comparer aux mots du texte Il faudra aussi effectuer une deacutesambiguiumlsation lexicale en contexte pour deacuteterminer si le texte parle de lanimal ou de sa chair comestible ce qui est un autre problegraveme celui-ci nest cependant pas limiteacute aux termes avec qualificatif mais est preacutesent pour tout terme du theacutesaurus qui est polyseacutemique

Il est souvent impossible de deacutenicher un theacutesaurus dans un domaine speacutecialiseacute (cest encore plus vrai pour des systegravemes bilingues ou multilingues) On saccommode souvent alors dun theacutesaurus de langue geacuteneacuterale comme WordNet mais les reacutesultats sont habituellement deacutecevants

Certains termes dun theacutesaurus documenshytaire sont accompagneacutes de notes dapplication qui reacutegissent leur utilisation On pense ici notamment aux notes qui renvoient dun non-descripteur agrave plus dun descripteur selon le sens un systegraveme automashytique sera incapable dinterpreacuteter la note pour choisir le descripteur approprieacute

Ainsi malgreacute leur inteacuterecirct les theacutesaurus preacutesentent des difficulteacutes dutilisation qui ne sont pas toujours simples agrave reacutesoudre

Une probleacutematique relieacutee la construction automatique de theacutesaurus

On peut identifier deux motivations agrave la construction automatique de theacutesaurus Dabord les chercheurs en TAL sentent le besoin davoir des ressources lexicales approprieacutees pour la collection quils sont agrave traiter dans la bonne langue et dans le bon domaine mais lexpertise humaine est coucircteuse et les theacutesaurus existants mecircme sils sont nombreux ne sont pas neacutecessairement pertinents Ensuite il y a un inteacuterecirct theacuteorique agrave veacuterifier des hypothegraveses quant aux connaissances implicites encodeacutees dans des textes

ou des dictionnaires On trouve bon nombre deacutecrits sur le sujet dont un nombre important sur le chinois (pour nen nommer que quelques-uns Foo et al 2000 Tseng 2002 Yang et Luk 2003)

Les premiers travaux dans ce domaine ont exploiteacute les dictionnaires de deacutefinitions (Shaikevich 1985 Houde 1992) Les techniques les plus reacutepandues procegravedent par analyse de corpus selon des approches linguistiques (Bertrand-Gastaldy et Pagola 1992 Takenobu et al 1995 Morin et Jacquemin 2004) ou statistiques (par exemple Salton 1972 Guntzer et al 1989 Crouch 1990 Grefenstette 1994 Park et Choi 1996 Hodge et Austin 2002 Kar et Yang 2005 Dejean eacutetal 2005)

Dans la plupart des cas les reacutesultats sont en fait proches dun theacutesaurus mais pas identiques puisquils contiennent des termes relieacutes de faccedilon erroneacutee Mais la recherche se poursuit

Conclusion

Une des frontiegraveres reconnues au TAL est le traitement de la seacutemantique des textes le traitement formel des aspects lexicaux morphologiques ou syntaxiques est plutocirct bien maicirctriseacute comparatishyvement agrave celui du sens Les theacutesaurus sont des outils tregraves appreacutecieacutes pour rendre possible au moins partielshylement cette tacircche de compreacutehension du sens en raison de leur structure formelle et de la clarteacute des relations seacutemantiques impliqueacutees Cette utiliteacute est eacutevidente en regard de leacuteventail des contextes dapplishycation des theacutesaurus preacutesenteacutes ci-haut Il est presque chose courante dans des exposeacutes de travaux en TAL que lon mentionne en passant que tel theacutesaurus a eacuteteacute utiliseacute pour effectuer des geacuteneacuteralisations seacutemantiques

On remarque aujourdhui une certaine concurshyrence entre les notions de theacutesaurus de taxinomies (normalement restreintes agrave la relation hieacuterarchique) et dontologies (permettant une gamme infinie de relations entre les concepts) Chacune a ses applicashytions privileacutegieacutees Les ontologies prendront de plus en plus dimportance dans le contexte de deacuteveloppement du Web seacutemantique Pour linstant les theacutesaurus existants sont rapidement happeacutes par leacutes concepteurs de systegravemes de TAL encore preneurs de theacutesaurus bacirctis selon les regravegles de lart Lavenir demeure neacuteanmoins prometteur mecircme si lon doit surveiller la monteacutee des ontologies en particulier dans le domaine biomeacutedical reg

Sources consulteacutees

Abuzir Y et F Vandamme 2001 Automatic e-mail classification based on thesaurus In Proceedings of the IASTED Intershynational Conference on Applied Informatics International Symposium on Software Engineering Databases and Applishycations 519-524

1 5 4 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Alani H C Jones et D Tudhope 2000 Associative and spatial relationships in thesaurus-based retrieval In Proceedings of Research and Advanced Technology for Digital Libraries 4th European Conference ECDL 2000 Lecture Notes in Computer Science vol 1923 45-58)

Ardo A et T Kpch 1999 Automatic classification applied to full text Internet documents in a robot-generated subject index In Proceedings of the 23rd International Online Information Meeting 239-246

Bang SL JD Yang et HJ Yang 2006 Hierarchical document categorization with k-NN and concept-based thesauri Inforshymation Processing amp Management 42 (2) 387-406

Barzilay R et M Elhadad 1997 Using lexical chains for text summashyrization In Proceedings of the AŒ97EACL97 Workshop on Intelligent Scalable Text Summarization Madrid 11 juillet 199710-17

Bertrand-Gastaldy S et G Pagola 1992 Lanalyse du contenu textuel en vue de la construction de theacutesaurus et de lindexation assisteacutees par ordinateur applications possibles avec SATO Documentation et bibliothegraveques 38 (2) 75-89

Chali Y 2001 Topic detection using lexical chains In Engineering of Intelligent Systems 14th International Conference on Indusshytrial and Engineering Applications of Artificial Intelligence and Expert Systems IE AAIE 2001 Proceedings (Lecture Notes in Artificial Intelligence vol 2070) 552-558

Chapman R et P Roget 1992 Rogets International Thesaurus 5e eacuted New York NY HarperCollins

Chartron G S Dalbin MG Monteil et M Verillon 1989 Indexation manuelle et indexation automatique deacutepasser les oppositions Documentaliste mdash Sciences de linformation 26 (4-5) 181-187

Chu WW Z Liu W Mao et Q Zou 2005 A knowledge-based approach for retrieving scenario-specific medical text documents Control Engineering Practice 13 (9) 1105-1121

Crouch CJ 1990 Approach to the automatic construction of global thesauri Information Processing amp Management 26 (5) 629-640

Da Sylva L et F Doll 2005 Information architecture for document description Semantic thematization of text segments In K Tochtermann et H Maurer (dir) Proceedings ofl-KNOW 05 5th International Conference on Knowledge Management Graz Austria 29 June-i July 2005 612-620

Dejean H E Gaussier J-M Renders et F Sadat 2005 Automatic processing of multilingual medical terminology Applications to thesaurus enrichment and cross-language information retrieval Artificial Intelligence in Medicine 33 (2) 111-124 (Special Issue Information Extraction and Summarization from Medical Documents)

Denber M 1998 Automatic resolution of anaphora in English Technical report Eastman Kodak Co

Dillon M 1982 Thesaurus-based automatic book indexing Inforshymation Processing amp Management 18 (4) 167-178

Efthimiadis EN 1996 Query expansion In ME Williams (dir) Annual Review of Information Science and Technology 31121-187

Eichmann D ME Ruiz et P Srinivasan 1998 Cross-language inforshymation retrieval with the UMLS Metathesaurus In Proceeshydings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 72-80

Farzindar A G Lapalme et J-P Descleacutes 2004 Reacutesumeacute de textes juridiques par identification de leur structure theacutematique Traitement Automatique des Langues (TAL) 45 (1) 1-21 (Numeacutero speacutecial Le reacutesumeacute automatique de texte solutions et perspectives)

Ferlez J et M Gams 2004 Shortest-path semantic distance measure in WordNet V20 Informatica 28 (4) 381-386

Foo S SC Hui HK Lim et L Hui 2000 Automatic thesaurus for enhanced Chinese text retrieval Library Review 49 (5-6) 230-239

Ginsberg A 1993 Unified approach to automatic indexing and information retrieval IEEE Expert 8 (5) 46-56

Gonzalo J F Verdejo C Peters et N Calzolari 1998 Applying EuroWordNet to crosslanguage text retrieval Computers and the Humanities 32 (2-3) 185-207

Greenberg J 2001a Optimal query expansion (QE) processing methods with semantically encoded structured thesauri terminology Journal of the American Society for Information Science 52 (6) 487-498

2001b Automatic query expansion via lexical-semantic relationships Journal of the American Society for Information Science 52 (5) 402-415

Grefenstette G 1994 Explorations in automatic thesaurus discovery Dordrecht Kluwer Academic

Guntzer U G Juttner G Seegmuller et F Sarre 1989 Automatic thesaurus construction by machine learning from retrieval sessions Information Processing amp Management^ (3) 265-273

Hajime M H Takeo et O Manabu 1998 Text segmentation with multiple surface linguistic cues In Proceedings of COLING-ACL98 881-885

Halliday M et R Hasan 1976 Cohesion in English London Longman

Harabagiu S 1999 From lexical cohesion to textual coherence A data driven perspective International Journal of Pattern Recognition and Artificial Intelligence 13 (2) 247-265

Hearst MA 1997 TextTiling Segmenting text into multi-paragraph subtopic passages Computational Linguistics 23 (1) 33-64

Hernandez N et B Grau 2002 Analyse theacutematique du discours segmentation structuration description et repreacutesentation In Actes de CIDE2002 Hammamet Tunisie 277-285

Hidalgo JMG M de Buenaga Rodriguez et JCC Perez 2005 The role of word sense disambiguation in automated text categorization In Natural Language Processing and Inforshymation Systems 10th International Conference on Applicashytions of Natural Language to Information Systems NLDB 200s (Lecture Notes in Computer Science 35i3)gt 298-309

Hodge VJ et J Austin 2002 Hierarchical word clustering mdash autoshymatic thesaurus generation Neurocomputing 48 819-846

Houde S 1992 Lapport des dictionnaires eacutelectroniques pour leacutelashyboration de theacutesaurus Documentation et bibliothegraveques 38 (2) 91-95

Jarmasz M et S Szpakowicz 2003 Rogets thesaurus and semantic similarity In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP-03) 212-219

Kar WL et CC Yang 2005 Automatic crosslingual thesaurus generated from the Hong Kong SAR Police Department Web corpus for crime analysis Journal of the American Society for Information Science and Technology 56 (3) 272-282

Kim Y BT Zhang et YT Kim 2001 Collocation dictionary optimization using WordNet and k-nearest neighbor learning Machine Translation 16 (2) 89-108

Litkowski KC 2001 Syntactic clues and lexical resources in question-answering In Information Technology Ninth Text REtrieval Conference (TREC-9) (NIST SP 500-249) 157-166

Mandala R T Tokunaga et H Tanaka 2000a Query expansion using heterogeneous thesauri Information Processing amp Management 36 (3) 361-378

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 5 5

20oob Improving information retrieval system performance by combining different text-mining techniques Intelligent Data Analysis 4 (6) 489-511

Mitkov R 2002 Anaphora Resolution London Longman

Morin E et C Jacquemin 2004 Automatic acquisition and expansion of hypernym links Computers and the Humanities 38 (4) 363-396

Morris J et G Hirst 1991 Lexical cohesion computed by thesaural relations as an indicator of the structure of text Computashytional Linguistics 17 (1) 21-48

Nasukawa T 1994- Robust method of pronoun resolution using full-text information In Proceedings of the 15th International Conference on Computational Linguistics (COLING94)gt Kyoto Japan 1157-1163

Park YC et KS Choi 1996 Automatic thesaurus construction using Bayesian networks Information Processing amp Management^ (5) 543-553-

Pizzato LAS 2003 Query expansion based on thesaurus relations evaluation over Internet In Computational Linguistics and Intelligent Text Processing 4th International Conference CICLing 2003 Proceedings (Lecture Notes in Computer Science Vol 2588) 553-556

Preiss J et M Stevenson 2004 Introduction to the special issue on word sense disambiguation Computer Speech and Language 18 (3) 201-207

Putejovsky J J Castano J Zhang M Kotecki et B Cochran 2002 Robust relational parsing over biomedical literature Extracting inhibit relations In Proceedings of the Pacific Symposium on Biocomputing Honolulu Hawaii 4-9 January 2000 362-373

Resnik P 1995 Using information content to evaluate semantic similarity In Proceedings of the 14th International Joint Confeshyrence on Artificial Intelligence (IJCAI) Montreacuteal 20-25 August 1995 448-453

Saggion H et G Lapalme 2002 Generating indicative-informative summaries with SumUM Computational Linguistics 28 (4) 497-526

Salton G 1972 Experiments in automatic thesaurus construction for information retrieval In Information Processing 71 Proceeshydings of the IFIP Congress 19711 Ljubljana Yougoslavie 23-28 August 1971115-123

Shaikevich AY 1985 Automatic construction of a thesaurus from explanatory dictionaries Automatic Documentation and Mathematical Linguistics 19 (4) 76-89

Soergel D 1999 The Rise of ontologies or the reinvention of classifishycation Journal of the American Society for Information Science 50 (12) 1119-1120

Srinivasan P 1996 Query expansion and MEDLINE Information Processing amp Management 32 (4) 431-443-

Sugato Bbdquo RJ Mooney KV Pasupuleti et J Ghosh 2001 Evaluating the novelty of text-mined rules using lexical knowledge In Proceedings of the Seventh ACM SIGKDD International Confeshyrence on Knowledge Discovery and Data Mining (KDD-2001) San Francisco California 26-29 August 2001 233-238

Sumita E O Furuse et H Iida 1995 An example-based disambishyguation of English prepositional phrase attachment Systems and Computers in Japan 26 (4) 30-41

Sussna M 1993 Word sense disambiguation for free-text indexing using a massive semantic network In Proceedings of the Second International Conference on Information and Knowledge Management (CIKM 93) Washington DC 1-5 November 1993 67-74

Takenobu T I Makoto et T Hozumi 1995 Automatic thesaurus construction based on grammatical relations In Proceedings of the 14th International Joint Conference on Artificial Intellishygence (IJCAI) pt 2 Montreacuteal 20-25 August 19951308-1313

Tseng YH 2002 Automatic thesaurus generation for Chinese documents Journal of the American Society for Information Science and Technology 5 (13) 1130-1138

Urena LA JMG Hidalgo et M de Buenaga 2000 Information retrieval by means of word sense disambiguation In Proceeshydings of the Third International Workshop on Text Speech and Dialogue TSD 2000 Lecture Notes in Artificial Intelligence Vol 902) 93-98

Voorhees E M 1994 Query expansion using lexical-semantic relations In 17th International Conference on Research and Development in Information Retrieval (SIGIR94) Dublin Ireland 3-6 July 1994 61-69

Vossen P 1998 EuroWordNet A multilingual database with lexical semantic networks Dordrecht Netherlands Kluwer

Yang CC et J Luk 2003 Automatic generation of EnglishChinese thesaurus based on a parallel corpus in laws Journal of the American Society for Information Science and Technology 54 (7) 671-682

Yarowsky D 1992 Word-sense disambiguation using statistical models of Rogets categories trained on large corpora In Proceedings ofCOLING-92 Nantes France 23-28 August 1992 454-460

Zhang HP J Sun B Wang et S Bai 2005 Computation on sentence semantic distance for novelty detection Journal of Computer Science and Technology (English Language Edition) 20 (3) 331-337

Zhang Z L Da Sylva C Davidson G Lizarralde G et JY Nie 2004 Domain-specific QA for the construction sector In Proceedings of the Workshop on Information Retrieval for Question Answering (IR4QA) SIGIR04 Sheffield UK 29 July 2004 6 5 - 7 1

1 5 6 I AVRIL bull JUIN 2 0 0 6 I DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 6: Thésaurus et systèmes de traitement automatique de la langue...Cet article vise à illustrer le rôle que joue le thésaurus documen taire, dans sa version la plus classique, dans

Expressing Abstract Relationsraquo laquo Words Relating to Space raquo laquo Words Relating to Matterraquo laquo Words Relating to the Intellectual Faculties raquo laquo Words Relating to the Voluntary Powers raquo laquo Words Relating to the Sentient and Moral Powersraquo Les niveaux intermeacutediaires regroupent les mots en ensembles baseacutes sur lanalogie Ce nest pas un theacutesaurus documentaire cependant il semblerait mieux adapteacute que WordNet pour effectuer certains calculs de distance seacutemantique (Jarmasz et Szpakowicz 2003)

EuroWordNet

Le theacutesaurus EuroWordNet ( Vossen 1998 lthttp wwwillcuvanlEuroWordNetgt) est un eacutequivalent multilingue de WordNet parraineacute par la commushynauteacute europeacuteenne Le projet initial couvrait sept langues dont le franccedilais (chaque langue est lieacutee aux eacutequivalents anglais) dautres versions linguistiques sont en cours de deacuteveloppement Il a eacuteteacute peu utiliseacute jusquagrave maintenant lutilisation quen font J Gonzalo et al (1998) pour la recherche dinformation translinshyguistique exploite son atout majeur la recherche agrave laide de requecircte dans une langue de documents eacutecrits dans une autre langue

UMLS

UMLS (Unified Medical Language System) est un meacutetatheacutesaurus multilingue du domaine meacutedical (lthttpwwwnlmnihgovresearchumlsgt) utiliseacute dans les systegravemes de recherche dinformation notamment par D Eichmann et al (1998) pour la recherche translinguistique Notons que pour le domaine biomeacutedical plusieurs recherches reposent eacutegalement sur lutilisation des vedettes-matiegravere MeSH Medical Subject Headings)

Caracteacuteristiques des theacutesaurus requises pour lutilisation automatique et difficulteacutes reacutesiduelles

Un examen attentif des travaux preacuteciteacutes et des observations que lon y recense suggegravere que pour ecirctre utiliseacutes efficacement par un systegraveme de traitement automatique les theacutesaurus doivent satisfaire un certain nombre dexigences Les plus importantes sont dans lordre laccessibiliteacute la pertinence et la rigueur de conception du theacutesaurus

La notion daccessibiliteacute fait reacutefeacuterence agrave la faciliteacute dacquisition et dutilisation du theacutesaurus Ideacutealement on cherche un theacutesaurus gratuit et libre de droits Le format de fichier doit ecirctre le plus universel possible format ASCII (txt) deacutelimiteacute simplement Agrave la rigueur un format de base de donneacutees facilement transforshymable (base de donneacutees relationnelle par exemple) est acceptable mais pas un format proprieacutetaire (doc ou

Pour ecirctre utiliseacutes efficacement par un systegraveme de traitement automatique

les theacutesaurus doivent satisfaire un certain nombre dexigences oooltxgtoocgtoltgtltxgtltxgtoltgtoltxgtlt^^

autres semblables) ou baseacute sur limage de documents imprimeacutes (PDF) Enfin il faut avoir accegraves agrave la totaliteacute du theacutesaurus en format numeacuterique dune maniegravere qui permette le traitement en lots batch processing) et non limiteacute agrave une consultation par interface de requecircte ou par une succession dhyperliens

La pertinence deacutenote la concordance entre les caracteacuteristiques du theacutesaurus et celles du systegraveme de TAL viseacute Dabord le domaine un theacutesaurus speacutecialiseacute est preacutefeacuterable pour un systegraveme speacutecialiseacute dans le mecircme domaine mecircme si les reacutesultats seront alors difficilement transposables agrave dautres contextes Pour un theacutesaurus de langue geacuteneacuterale la couverture lexicale doit ecirctre excellente Et bien sucircr le theacutesaurus doit ecirctre disponible dans la bonne langue

Puisque les systegravemes automatiques ne peuvent pas interpreacuteter le sens des chaicircnes quils manipulent la rigueur dans la deacutefinition des relations est primorshydiale La relation hieacuterarchique doit ecirctre utiliseacutee de faccedilon tregraves stricte en conformiteacute avec les normes dailleurs Pour la relation deacutequivalenceles eacutequivashylents doivent ecirctre de vrais synonymes linguistiques et non des eacutequivalents documentaires deacutefinis contextuel-lement Par exemple dans le theacutesaurus AGROVOC (lthttpwwwfaoorgaimsag_introhtmgt) laquo bœufraquo et laquobouvillonraquo sont en relation deacutequivalence alors quils ne sont pas strictement synonymes De maniegravere plus geacuteneacuterale toutes les relations utiliseacutees devraient ecirctre univoques interpreacutetables dune seule faccedilon Or cest rarement le cas pour la relation associative (TA) On voudrait bien lutiliser dans lextension de requecirctes mais la varieacuteteacute des relations quelle encode peut engendrer rapidement des non-sens Pour un traitement automatique le theacutesaurus sera plus utile si la relation associative est remplaceacutee par dautres relations plus speacutecifiques tout-partie acteur-action action-reacutesultat action-lieu etc Ce codage explicite permet de programmer un traitement diffeacuterencieacute pour chaque relation

Mecircme si ces exigences sont respecteacutees un certain nombre de difficulteacutes demeurent La forme dun terme dans le theacutesaurus nest pas neacutecessairement celle que lon retrouvera dans un texte Une lemmatisation sera neacutecessaire cest-agrave-dire quil faudra ramener le terme agrave sa forme laquode baseraquo au masculin singulier le cas eacutecheacuteant Notons que le problegraveme nest pas le mecircme en franccedilais et en anglais en anglais il faudra

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 1 5 3

Lavenir demeure neacuteanmoins prometteur mecircme si Von doit surveiller la monteacutee des ontologies en particulier

dans le domaine biomeacutedical 0000000ltgtltgtltgtltgt0ltXgt0ltgtltXgtltgtltXgtlt^

aussi lemmatiser le theacutesaurus puisque les termes sy retrouvent essentiellement au pluriel conformeacutement aux normes pour le deacuteveloppement des theacutesaurus multilingues (ISO 5964) Il faudra eacutegalement faire abstraction des qualificatifs Par exemple dans le theacutesaurus AGROVOC on trouve agrave la fois laquopoisson (aliment) raquo et laquo poisson (animal) raquo Dans un texte donneacute on ne trouvera bien sucircr que la chaicircne laquopoissonraquo et il faudra retirer le qualificatif du theacutesaurus pour le comparer aux mots du texte Il faudra aussi effectuer une deacutesambiguiumlsation lexicale en contexte pour deacuteterminer si le texte parle de lanimal ou de sa chair comestible ce qui est un autre problegraveme celui-ci nest cependant pas limiteacute aux termes avec qualificatif mais est preacutesent pour tout terme du theacutesaurus qui est polyseacutemique

Il est souvent impossible de deacutenicher un theacutesaurus dans un domaine speacutecialiseacute (cest encore plus vrai pour des systegravemes bilingues ou multilingues) On saccommode souvent alors dun theacutesaurus de langue geacuteneacuterale comme WordNet mais les reacutesultats sont habituellement deacutecevants

Certains termes dun theacutesaurus documenshytaire sont accompagneacutes de notes dapplication qui reacutegissent leur utilisation On pense ici notamment aux notes qui renvoient dun non-descripteur agrave plus dun descripteur selon le sens un systegraveme automashytique sera incapable dinterpreacuteter la note pour choisir le descripteur approprieacute

Ainsi malgreacute leur inteacuterecirct les theacutesaurus preacutesentent des difficulteacutes dutilisation qui ne sont pas toujours simples agrave reacutesoudre

Une probleacutematique relieacutee la construction automatique de theacutesaurus

On peut identifier deux motivations agrave la construction automatique de theacutesaurus Dabord les chercheurs en TAL sentent le besoin davoir des ressources lexicales approprieacutees pour la collection quils sont agrave traiter dans la bonne langue et dans le bon domaine mais lexpertise humaine est coucircteuse et les theacutesaurus existants mecircme sils sont nombreux ne sont pas neacutecessairement pertinents Ensuite il y a un inteacuterecirct theacuteorique agrave veacuterifier des hypothegraveses quant aux connaissances implicites encodeacutees dans des textes

ou des dictionnaires On trouve bon nombre deacutecrits sur le sujet dont un nombre important sur le chinois (pour nen nommer que quelques-uns Foo et al 2000 Tseng 2002 Yang et Luk 2003)

Les premiers travaux dans ce domaine ont exploiteacute les dictionnaires de deacutefinitions (Shaikevich 1985 Houde 1992) Les techniques les plus reacutepandues procegravedent par analyse de corpus selon des approches linguistiques (Bertrand-Gastaldy et Pagola 1992 Takenobu et al 1995 Morin et Jacquemin 2004) ou statistiques (par exemple Salton 1972 Guntzer et al 1989 Crouch 1990 Grefenstette 1994 Park et Choi 1996 Hodge et Austin 2002 Kar et Yang 2005 Dejean eacutetal 2005)

Dans la plupart des cas les reacutesultats sont en fait proches dun theacutesaurus mais pas identiques puisquils contiennent des termes relieacutes de faccedilon erroneacutee Mais la recherche se poursuit

Conclusion

Une des frontiegraveres reconnues au TAL est le traitement de la seacutemantique des textes le traitement formel des aspects lexicaux morphologiques ou syntaxiques est plutocirct bien maicirctriseacute comparatishyvement agrave celui du sens Les theacutesaurus sont des outils tregraves appreacutecieacutes pour rendre possible au moins partielshylement cette tacircche de compreacutehension du sens en raison de leur structure formelle et de la clarteacute des relations seacutemantiques impliqueacutees Cette utiliteacute est eacutevidente en regard de leacuteventail des contextes dapplishycation des theacutesaurus preacutesenteacutes ci-haut Il est presque chose courante dans des exposeacutes de travaux en TAL que lon mentionne en passant que tel theacutesaurus a eacuteteacute utiliseacute pour effectuer des geacuteneacuteralisations seacutemantiques

On remarque aujourdhui une certaine concurshyrence entre les notions de theacutesaurus de taxinomies (normalement restreintes agrave la relation hieacuterarchique) et dontologies (permettant une gamme infinie de relations entre les concepts) Chacune a ses applicashytions privileacutegieacutees Les ontologies prendront de plus en plus dimportance dans le contexte de deacuteveloppement du Web seacutemantique Pour linstant les theacutesaurus existants sont rapidement happeacutes par leacutes concepteurs de systegravemes de TAL encore preneurs de theacutesaurus bacirctis selon les regravegles de lart Lavenir demeure neacuteanmoins prometteur mecircme si lon doit surveiller la monteacutee des ontologies en particulier dans le domaine biomeacutedical reg

Sources consulteacutees

Abuzir Y et F Vandamme 2001 Automatic e-mail classification based on thesaurus In Proceedings of the IASTED Intershynational Conference on Applied Informatics International Symposium on Software Engineering Databases and Applishycations 519-524

1 5 4 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Alani H C Jones et D Tudhope 2000 Associative and spatial relationships in thesaurus-based retrieval In Proceedings of Research and Advanced Technology for Digital Libraries 4th European Conference ECDL 2000 Lecture Notes in Computer Science vol 1923 45-58)

Ardo A et T Kpch 1999 Automatic classification applied to full text Internet documents in a robot-generated subject index In Proceedings of the 23rd International Online Information Meeting 239-246

Bang SL JD Yang et HJ Yang 2006 Hierarchical document categorization with k-NN and concept-based thesauri Inforshymation Processing amp Management 42 (2) 387-406

Barzilay R et M Elhadad 1997 Using lexical chains for text summashyrization In Proceedings of the AŒ97EACL97 Workshop on Intelligent Scalable Text Summarization Madrid 11 juillet 199710-17

Bertrand-Gastaldy S et G Pagola 1992 Lanalyse du contenu textuel en vue de la construction de theacutesaurus et de lindexation assisteacutees par ordinateur applications possibles avec SATO Documentation et bibliothegraveques 38 (2) 75-89

Chali Y 2001 Topic detection using lexical chains In Engineering of Intelligent Systems 14th International Conference on Indusshytrial and Engineering Applications of Artificial Intelligence and Expert Systems IE AAIE 2001 Proceedings (Lecture Notes in Artificial Intelligence vol 2070) 552-558

Chapman R et P Roget 1992 Rogets International Thesaurus 5e eacuted New York NY HarperCollins

Chartron G S Dalbin MG Monteil et M Verillon 1989 Indexation manuelle et indexation automatique deacutepasser les oppositions Documentaliste mdash Sciences de linformation 26 (4-5) 181-187

Chu WW Z Liu W Mao et Q Zou 2005 A knowledge-based approach for retrieving scenario-specific medical text documents Control Engineering Practice 13 (9) 1105-1121

Crouch CJ 1990 Approach to the automatic construction of global thesauri Information Processing amp Management 26 (5) 629-640

Da Sylva L et F Doll 2005 Information architecture for document description Semantic thematization of text segments In K Tochtermann et H Maurer (dir) Proceedings ofl-KNOW 05 5th International Conference on Knowledge Management Graz Austria 29 June-i July 2005 612-620

Dejean H E Gaussier J-M Renders et F Sadat 2005 Automatic processing of multilingual medical terminology Applications to thesaurus enrichment and cross-language information retrieval Artificial Intelligence in Medicine 33 (2) 111-124 (Special Issue Information Extraction and Summarization from Medical Documents)

Denber M 1998 Automatic resolution of anaphora in English Technical report Eastman Kodak Co

Dillon M 1982 Thesaurus-based automatic book indexing Inforshymation Processing amp Management 18 (4) 167-178

Efthimiadis EN 1996 Query expansion In ME Williams (dir) Annual Review of Information Science and Technology 31121-187

Eichmann D ME Ruiz et P Srinivasan 1998 Cross-language inforshymation retrieval with the UMLS Metathesaurus In Proceeshydings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 72-80

Farzindar A G Lapalme et J-P Descleacutes 2004 Reacutesumeacute de textes juridiques par identification de leur structure theacutematique Traitement Automatique des Langues (TAL) 45 (1) 1-21 (Numeacutero speacutecial Le reacutesumeacute automatique de texte solutions et perspectives)

Ferlez J et M Gams 2004 Shortest-path semantic distance measure in WordNet V20 Informatica 28 (4) 381-386

Foo S SC Hui HK Lim et L Hui 2000 Automatic thesaurus for enhanced Chinese text retrieval Library Review 49 (5-6) 230-239

Ginsberg A 1993 Unified approach to automatic indexing and information retrieval IEEE Expert 8 (5) 46-56

Gonzalo J F Verdejo C Peters et N Calzolari 1998 Applying EuroWordNet to crosslanguage text retrieval Computers and the Humanities 32 (2-3) 185-207

Greenberg J 2001a Optimal query expansion (QE) processing methods with semantically encoded structured thesauri terminology Journal of the American Society for Information Science 52 (6) 487-498

2001b Automatic query expansion via lexical-semantic relationships Journal of the American Society for Information Science 52 (5) 402-415

Grefenstette G 1994 Explorations in automatic thesaurus discovery Dordrecht Kluwer Academic

Guntzer U G Juttner G Seegmuller et F Sarre 1989 Automatic thesaurus construction by machine learning from retrieval sessions Information Processing amp Management^ (3) 265-273

Hajime M H Takeo et O Manabu 1998 Text segmentation with multiple surface linguistic cues In Proceedings of COLING-ACL98 881-885

Halliday M et R Hasan 1976 Cohesion in English London Longman

Harabagiu S 1999 From lexical cohesion to textual coherence A data driven perspective International Journal of Pattern Recognition and Artificial Intelligence 13 (2) 247-265

Hearst MA 1997 TextTiling Segmenting text into multi-paragraph subtopic passages Computational Linguistics 23 (1) 33-64

Hernandez N et B Grau 2002 Analyse theacutematique du discours segmentation structuration description et repreacutesentation In Actes de CIDE2002 Hammamet Tunisie 277-285

Hidalgo JMG M de Buenaga Rodriguez et JCC Perez 2005 The role of word sense disambiguation in automated text categorization In Natural Language Processing and Inforshymation Systems 10th International Conference on Applicashytions of Natural Language to Information Systems NLDB 200s (Lecture Notes in Computer Science 35i3)gt 298-309

Hodge VJ et J Austin 2002 Hierarchical word clustering mdash autoshymatic thesaurus generation Neurocomputing 48 819-846

Houde S 1992 Lapport des dictionnaires eacutelectroniques pour leacutelashyboration de theacutesaurus Documentation et bibliothegraveques 38 (2) 91-95

Jarmasz M et S Szpakowicz 2003 Rogets thesaurus and semantic similarity In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP-03) 212-219

Kar WL et CC Yang 2005 Automatic crosslingual thesaurus generated from the Hong Kong SAR Police Department Web corpus for crime analysis Journal of the American Society for Information Science and Technology 56 (3) 272-282

Kim Y BT Zhang et YT Kim 2001 Collocation dictionary optimization using WordNet and k-nearest neighbor learning Machine Translation 16 (2) 89-108

Litkowski KC 2001 Syntactic clues and lexical resources in question-answering In Information Technology Ninth Text REtrieval Conference (TREC-9) (NIST SP 500-249) 157-166

Mandala R T Tokunaga et H Tanaka 2000a Query expansion using heterogeneous thesauri Information Processing amp Management 36 (3) 361-378

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 5 5

20oob Improving information retrieval system performance by combining different text-mining techniques Intelligent Data Analysis 4 (6) 489-511

Mitkov R 2002 Anaphora Resolution London Longman

Morin E et C Jacquemin 2004 Automatic acquisition and expansion of hypernym links Computers and the Humanities 38 (4) 363-396

Morris J et G Hirst 1991 Lexical cohesion computed by thesaural relations as an indicator of the structure of text Computashytional Linguistics 17 (1) 21-48

Nasukawa T 1994- Robust method of pronoun resolution using full-text information In Proceedings of the 15th International Conference on Computational Linguistics (COLING94)gt Kyoto Japan 1157-1163

Park YC et KS Choi 1996 Automatic thesaurus construction using Bayesian networks Information Processing amp Management^ (5) 543-553-

Pizzato LAS 2003 Query expansion based on thesaurus relations evaluation over Internet In Computational Linguistics and Intelligent Text Processing 4th International Conference CICLing 2003 Proceedings (Lecture Notes in Computer Science Vol 2588) 553-556

Preiss J et M Stevenson 2004 Introduction to the special issue on word sense disambiguation Computer Speech and Language 18 (3) 201-207

Putejovsky J J Castano J Zhang M Kotecki et B Cochran 2002 Robust relational parsing over biomedical literature Extracting inhibit relations In Proceedings of the Pacific Symposium on Biocomputing Honolulu Hawaii 4-9 January 2000 362-373

Resnik P 1995 Using information content to evaluate semantic similarity In Proceedings of the 14th International Joint Confeshyrence on Artificial Intelligence (IJCAI) Montreacuteal 20-25 August 1995 448-453

Saggion H et G Lapalme 2002 Generating indicative-informative summaries with SumUM Computational Linguistics 28 (4) 497-526

Salton G 1972 Experiments in automatic thesaurus construction for information retrieval In Information Processing 71 Proceeshydings of the IFIP Congress 19711 Ljubljana Yougoslavie 23-28 August 1971115-123

Shaikevich AY 1985 Automatic construction of a thesaurus from explanatory dictionaries Automatic Documentation and Mathematical Linguistics 19 (4) 76-89

Soergel D 1999 The Rise of ontologies or the reinvention of classifishycation Journal of the American Society for Information Science 50 (12) 1119-1120

Srinivasan P 1996 Query expansion and MEDLINE Information Processing amp Management 32 (4) 431-443-

Sugato Bbdquo RJ Mooney KV Pasupuleti et J Ghosh 2001 Evaluating the novelty of text-mined rules using lexical knowledge In Proceedings of the Seventh ACM SIGKDD International Confeshyrence on Knowledge Discovery and Data Mining (KDD-2001) San Francisco California 26-29 August 2001 233-238

Sumita E O Furuse et H Iida 1995 An example-based disambishyguation of English prepositional phrase attachment Systems and Computers in Japan 26 (4) 30-41

Sussna M 1993 Word sense disambiguation for free-text indexing using a massive semantic network In Proceedings of the Second International Conference on Information and Knowledge Management (CIKM 93) Washington DC 1-5 November 1993 67-74

Takenobu T I Makoto et T Hozumi 1995 Automatic thesaurus construction based on grammatical relations In Proceedings of the 14th International Joint Conference on Artificial Intellishygence (IJCAI) pt 2 Montreacuteal 20-25 August 19951308-1313

Tseng YH 2002 Automatic thesaurus generation for Chinese documents Journal of the American Society for Information Science and Technology 5 (13) 1130-1138

Urena LA JMG Hidalgo et M de Buenaga 2000 Information retrieval by means of word sense disambiguation In Proceeshydings of the Third International Workshop on Text Speech and Dialogue TSD 2000 Lecture Notes in Artificial Intelligence Vol 902) 93-98

Voorhees E M 1994 Query expansion using lexical-semantic relations In 17th International Conference on Research and Development in Information Retrieval (SIGIR94) Dublin Ireland 3-6 July 1994 61-69

Vossen P 1998 EuroWordNet A multilingual database with lexical semantic networks Dordrecht Netherlands Kluwer

Yang CC et J Luk 2003 Automatic generation of EnglishChinese thesaurus based on a parallel corpus in laws Journal of the American Society for Information Science and Technology 54 (7) 671-682

Yarowsky D 1992 Word-sense disambiguation using statistical models of Rogets categories trained on large corpora In Proceedings ofCOLING-92 Nantes France 23-28 August 1992 454-460

Zhang HP J Sun B Wang et S Bai 2005 Computation on sentence semantic distance for novelty detection Journal of Computer Science and Technology (English Language Edition) 20 (3) 331-337

Zhang Z L Da Sylva C Davidson G Lizarralde G et JY Nie 2004 Domain-specific QA for the construction sector In Proceedings of the Workshop on Information Retrieval for Question Answering (IR4QA) SIGIR04 Sheffield UK 29 July 2004 6 5 - 7 1

1 5 6 I AVRIL bull JUIN 2 0 0 6 I DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 7: Thésaurus et systèmes de traitement automatique de la langue...Cet article vise à illustrer le rôle que joue le thésaurus documen taire, dans sa version la plus classique, dans

Lavenir demeure neacuteanmoins prometteur mecircme si Von doit surveiller la monteacutee des ontologies en particulier

dans le domaine biomeacutedical 0000000ltgtltgtltgtltgt0ltXgt0ltgtltXgtltgtltXgtlt^

aussi lemmatiser le theacutesaurus puisque les termes sy retrouvent essentiellement au pluriel conformeacutement aux normes pour le deacuteveloppement des theacutesaurus multilingues (ISO 5964) Il faudra eacutegalement faire abstraction des qualificatifs Par exemple dans le theacutesaurus AGROVOC on trouve agrave la fois laquopoisson (aliment) raquo et laquo poisson (animal) raquo Dans un texte donneacute on ne trouvera bien sucircr que la chaicircne laquopoissonraquo et il faudra retirer le qualificatif du theacutesaurus pour le comparer aux mots du texte Il faudra aussi effectuer une deacutesambiguiumlsation lexicale en contexte pour deacuteterminer si le texte parle de lanimal ou de sa chair comestible ce qui est un autre problegraveme celui-ci nest cependant pas limiteacute aux termes avec qualificatif mais est preacutesent pour tout terme du theacutesaurus qui est polyseacutemique

Il est souvent impossible de deacutenicher un theacutesaurus dans un domaine speacutecialiseacute (cest encore plus vrai pour des systegravemes bilingues ou multilingues) On saccommode souvent alors dun theacutesaurus de langue geacuteneacuterale comme WordNet mais les reacutesultats sont habituellement deacutecevants

Certains termes dun theacutesaurus documenshytaire sont accompagneacutes de notes dapplication qui reacutegissent leur utilisation On pense ici notamment aux notes qui renvoient dun non-descripteur agrave plus dun descripteur selon le sens un systegraveme automashytique sera incapable dinterpreacuteter la note pour choisir le descripteur approprieacute

Ainsi malgreacute leur inteacuterecirct les theacutesaurus preacutesentent des difficulteacutes dutilisation qui ne sont pas toujours simples agrave reacutesoudre

Une probleacutematique relieacutee la construction automatique de theacutesaurus

On peut identifier deux motivations agrave la construction automatique de theacutesaurus Dabord les chercheurs en TAL sentent le besoin davoir des ressources lexicales approprieacutees pour la collection quils sont agrave traiter dans la bonne langue et dans le bon domaine mais lexpertise humaine est coucircteuse et les theacutesaurus existants mecircme sils sont nombreux ne sont pas neacutecessairement pertinents Ensuite il y a un inteacuterecirct theacuteorique agrave veacuterifier des hypothegraveses quant aux connaissances implicites encodeacutees dans des textes

ou des dictionnaires On trouve bon nombre deacutecrits sur le sujet dont un nombre important sur le chinois (pour nen nommer que quelques-uns Foo et al 2000 Tseng 2002 Yang et Luk 2003)

Les premiers travaux dans ce domaine ont exploiteacute les dictionnaires de deacutefinitions (Shaikevich 1985 Houde 1992) Les techniques les plus reacutepandues procegravedent par analyse de corpus selon des approches linguistiques (Bertrand-Gastaldy et Pagola 1992 Takenobu et al 1995 Morin et Jacquemin 2004) ou statistiques (par exemple Salton 1972 Guntzer et al 1989 Crouch 1990 Grefenstette 1994 Park et Choi 1996 Hodge et Austin 2002 Kar et Yang 2005 Dejean eacutetal 2005)

Dans la plupart des cas les reacutesultats sont en fait proches dun theacutesaurus mais pas identiques puisquils contiennent des termes relieacutes de faccedilon erroneacutee Mais la recherche se poursuit

Conclusion

Une des frontiegraveres reconnues au TAL est le traitement de la seacutemantique des textes le traitement formel des aspects lexicaux morphologiques ou syntaxiques est plutocirct bien maicirctriseacute comparatishyvement agrave celui du sens Les theacutesaurus sont des outils tregraves appreacutecieacutes pour rendre possible au moins partielshylement cette tacircche de compreacutehension du sens en raison de leur structure formelle et de la clarteacute des relations seacutemantiques impliqueacutees Cette utiliteacute est eacutevidente en regard de leacuteventail des contextes dapplishycation des theacutesaurus preacutesenteacutes ci-haut Il est presque chose courante dans des exposeacutes de travaux en TAL que lon mentionne en passant que tel theacutesaurus a eacuteteacute utiliseacute pour effectuer des geacuteneacuteralisations seacutemantiques

On remarque aujourdhui une certaine concurshyrence entre les notions de theacutesaurus de taxinomies (normalement restreintes agrave la relation hieacuterarchique) et dontologies (permettant une gamme infinie de relations entre les concepts) Chacune a ses applicashytions privileacutegieacutees Les ontologies prendront de plus en plus dimportance dans le contexte de deacuteveloppement du Web seacutemantique Pour linstant les theacutesaurus existants sont rapidement happeacutes par leacutes concepteurs de systegravemes de TAL encore preneurs de theacutesaurus bacirctis selon les regravegles de lart Lavenir demeure neacuteanmoins prometteur mecircme si lon doit surveiller la monteacutee des ontologies en particulier dans le domaine biomeacutedical reg

Sources consulteacutees

Abuzir Y et F Vandamme 2001 Automatic e-mail classification based on thesaurus In Proceedings of the IASTED Intershynational Conference on Applied Informatics International Symposium on Software Engineering Databases and Applishycations 519-524

1 5 4 | AVRIL bull JUIN 2 0 0 6 | DOCUMENTATION ET BIBLIOTHEgraveQUES

Alani H C Jones et D Tudhope 2000 Associative and spatial relationships in thesaurus-based retrieval In Proceedings of Research and Advanced Technology for Digital Libraries 4th European Conference ECDL 2000 Lecture Notes in Computer Science vol 1923 45-58)

Ardo A et T Kpch 1999 Automatic classification applied to full text Internet documents in a robot-generated subject index In Proceedings of the 23rd International Online Information Meeting 239-246

Bang SL JD Yang et HJ Yang 2006 Hierarchical document categorization with k-NN and concept-based thesauri Inforshymation Processing amp Management 42 (2) 387-406

Barzilay R et M Elhadad 1997 Using lexical chains for text summashyrization In Proceedings of the AŒ97EACL97 Workshop on Intelligent Scalable Text Summarization Madrid 11 juillet 199710-17

Bertrand-Gastaldy S et G Pagola 1992 Lanalyse du contenu textuel en vue de la construction de theacutesaurus et de lindexation assisteacutees par ordinateur applications possibles avec SATO Documentation et bibliothegraveques 38 (2) 75-89

Chali Y 2001 Topic detection using lexical chains In Engineering of Intelligent Systems 14th International Conference on Indusshytrial and Engineering Applications of Artificial Intelligence and Expert Systems IE AAIE 2001 Proceedings (Lecture Notes in Artificial Intelligence vol 2070) 552-558

Chapman R et P Roget 1992 Rogets International Thesaurus 5e eacuted New York NY HarperCollins

Chartron G S Dalbin MG Monteil et M Verillon 1989 Indexation manuelle et indexation automatique deacutepasser les oppositions Documentaliste mdash Sciences de linformation 26 (4-5) 181-187

Chu WW Z Liu W Mao et Q Zou 2005 A knowledge-based approach for retrieving scenario-specific medical text documents Control Engineering Practice 13 (9) 1105-1121

Crouch CJ 1990 Approach to the automatic construction of global thesauri Information Processing amp Management 26 (5) 629-640

Da Sylva L et F Doll 2005 Information architecture for document description Semantic thematization of text segments In K Tochtermann et H Maurer (dir) Proceedings ofl-KNOW 05 5th International Conference on Knowledge Management Graz Austria 29 June-i July 2005 612-620

Dejean H E Gaussier J-M Renders et F Sadat 2005 Automatic processing of multilingual medical terminology Applications to thesaurus enrichment and cross-language information retrieval Artificial Intelligence in Medicine 33 (2) 111-124 (Special Issue Information Extraction and Summarization from Medical Documents)

Denber M 1998 Automatic resolution of anaphora in English Technical report Eastman Kodak Co

Dillon M 1982 Thesaurus-based automatic book indexing Inforshymation Processing amp Management 18 (4) 167-178

Efthimiadis EN 1996 Query expansion In ME Williams (dir) Annual Review of Information Science and Technology 31121-187

Eichmann D ME Ruiz et P Srinivasan 1998 Cross-language inforshymation retrieval with the UMLS Metathesaurus In Proceeshydings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 72-80

Farzindar A G Lapalme et J-P Descleacutes 2004 Reacutesumeacute de textes juridiques par identification de leur structure theacutematique Traitement Automatique des Langues (TAL) 45 (1) 1-21 (Numeacutero speacutecial Le reacutesumeacute automatique de texte solutions et perspectives)

Ferlez J et M Gams 2004 Shortest-path semantic distance measure in WordNet V20 Informatica 28 (4) 381-386

Foo S SC Hui HK Lim et L Hui 2000 Automatic thesaurus for enhanced Chinese text retrieval Library Review 49 (5-6) 230-239

Ginsberg A 1993 Unified approach to automatic indexing and information retrieval IEEE Expert 8 (5) 46-56

Gonzalo J F Verdejo C Peters et N Calzolari 1998 Applying EuroWordNet to crosslanguage text retrieval Computers and the Humanities 32 (2-3) 185-207

Greenberg J 2001a Optimal query expansion (QE) processing methods with semantically encoded structured thesauri terminology Journal of the American Society for Information Science 52 (6) 487-498

2001b Automatic query expansion via lexical-semantic relationships Journal of the American Society for Information Science 52 (5) 402-415

Grefenstette G 1994 Explorations in automatic thesaurus discovery Dordrecht Kluwer Academic

Guntzer U G Juttner G Seegmuller et F Sarre 1989 Automatic thesaurus construction by machine learning from retrieval sessions Information Processing amp Management^ (3) 265-273

Hajime M H Takeo et O Manabu 1998 Text segmentation with multiple surface linguistic cues In Proceedings of COLING-ACL98 881-885

Halliday M et R Hasan 1976 Cohesion in English London Longman

Harabagiu S 1999 From lexical cohesion to textual coherence A data driven perspective International Journal of Pattern Recognition and Artificial Intelligence 13 (2) 247-265

Hearst MA 1997 TextTiling Segmenting text into multi-paragraph subtopic passages Computational Linguistics 23 (1) 33-64

Hernandez N et B Grau 2002 Analyse theacutematique du discours segmentation structuration description et repreacutesentation In Actes de CIDE2002 Hammamet Tunisie 277-285

Hidalgo JMG M de Buenaga Rodriguez et JCC Perez 2005 The role of word sense disambiguation in automated text categorization In Natural Language Processing and Inforshymation Systems 10th International Conference on Applicashytions of Natural Language to Information Systems NLDB 200s (Lecture Notes in Computer Science 35i3)gt 298-309

Hodge VJ et J Austin 2002 Hierarchical word clustering mdash autoshymatic thesaurus generation Neurocomputing 48 819-846

Houde S 1992 Lapport des dictionnaires eacutelectroniques pour leacutelashyboration de theacutesaurus Documentation et bibliothegraveques 38 (2) 91-95

Jarmasz M et S Szpakowicz 2003 Rogets thesaurus and semantic similarity In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP-03) 212-219

Kar WL et CC Yang 2005 Automatic crosslingual thesaurus generated from the Hong Kong SAR Police Department Web corpus for crime analysis Journal of the American Society for Information Science and Technology 56 (3) 272-282

Kim Y BT Zhang et YT Kim 2001 Collocation dictionary optimization using WordNet and k-nearest neighbor learning Machine Translation 16 (2) 89-108

Litkowski KC 2001 Syntactic clues and lexical resources in question-answering In Information Technology Ninth Text REtrieval Conference (TREC-9) (NIST SP 500-249) 157-166

Mandala R T Tokunaga et H Tanaka 2000a Query expansion using heterogeneous thesauri Information Processing amp Management 36 (3) 361-378

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 5 5

20oob Improving information retrieval system performance by combining different text-mining techniques Intelligent Data Analysis 4 (6) 489-511

Mitkov R 2002 Anaphora Resolution London Longman

Morin E et C Jacquemin 2004 Automatic acquisition and expansion of hypernym links Computers and the Humanities 38 (4) 363-396

Morris J et G Hirst 1991 Lexical cohesion computed by thesaural relations as an indicator of the structure of text Computashytional Linguistics 17 (1) 21-48

Nasukawa T 1994- Robust method of pronoun resolution using full-text information In Proceedings of the 15th International Conference on Computational Linguistics (COLING94)gt Kyoto Japan 1157-1163

Park YC et KS Choi 1996 Automatic thesaurus construction using Bayesian networks Information Processing amp Management^ (5) 543-553-

Pizzato LAS 2003 Query expansion based on thesaurus relations evaluation over Internet In Computational Linguistics and Intelligent Text Processing 4th International Conference CICLing 2003 Proceedings (Lecture Notes in Computer Science Vol 2588) 553-556

Preiss J et M Stevenson 2004 Introduction to the special issue on word sense disambiguation Computer Speech and Language 18 (3) 201-207

Putejovsky J J Castano J Zhang M Kotecki et B Cochran 2002 Robust relational parsing over biomedical literature Extracting inhibit relations In Proceedings of the Pacific Symposium on Biocomputing Honolulu Hawaii 4-9 January 2000 362-373

Resnik P 1995 Using information content to evaluate semantic similarity In Proceedings of the 14th International Joint Confeshyrence on Artificial Intelligence (IJCAI) Montreacuteal 20-25 August 1995 448-453

Saggion H et G Lapalme 2002 Generating indicative-informative summaries with SumUM Computational Linguistics 28 (4) 497-526

Salton G 1972 Experiments in automatic thesaurus construction for information retrieval In Information Processing 71 Proceeshydings of the IFIP Congress 19711 Ljubljana Yougoslavie 23-28 August 1971115-123

Shaikevich AY 1985 Automatic construction of a thesaurus from explanatory dictionaries Automatic Documentation and Mathematical Linguistics 19 (4) 76-89

Soergel D 1999 The Rise of ontologies or the reinvention of classifishycation Journal of the American Society for Information Science 50 (12) 1119-1120

Srinivasan P 1996 Query expansion and MEDLINE Information Processing amp Management 32 (4) 431-443-

Sugato Bbdquo RJ Mooney KV Pasupuleti et J Ghosh 2001 Evaluating the novelty of text-mined rules using lexical knowledge In Proceedings of the Seventh ACM SIGKDD International Confeshyrence on Knowledge Discovery and Data Mining (KDD-2001) San Francisco California 26-29 August 2001 233-238

Sumita E O Furuse et H Iida 1995 An example-based disambishyguation of English prepositional phrase attachment Systems and Computers in Japan 26 (4) 30-41

Sussna M 1993 Word sense disambiguation for free-text indexing using a massive semantic network In Proceedings of the Second International Conference on Information and Knowledge Management (CIKM 93) Washington DC 1-5 November 1993 67-74

Takenobu T I Makoto et T Hozumi 1995 Automatic thesaurus construction based on grammatical relations In Proceedings of the 14th International Joint Conference on Artificial Intellishygence (IJCAI) pt 2 Montreacuteal 20-25 August 19951308-1313

Tseng YH 2002 Automatic thesaurus generation for Chinese documents Journal of the American Society for Information Science and Technology 5 (13) 1130-1138

Urena LA JMG Hidalgo et M de Buenaga 2000 Information retrieval by means of word sense disambiguation In Proceeshydings of the Third International Workshop on Text Speech and Dialogue TSD 2000 Lecture Notes in Artificial Intelligence Vol 902) 93-98

Voorhees E M 1994 Query expansion using lexical-semantic relations In 17th International Conference on Research and Development in Information Retrieval (SIGIR94) Dublin Ireland 3-6 July 1994 61-69

Vossen P 1998 EuroWordNet A multilingual database with lexical semantic networks Dordrecht Netherlands Kluwer

Yang CC et J Luk 2003 Automatic generation of EnglishChinese thesaurus based on a parallel corpus in laws Journal of the American Society for Information Science and Technology 54 (7) 671-682

Yarowsky D 1992 Word-sense disambiguation using statistical models of Rogets categories trained on large corpora In Proceedings ofCOLING-92 Nantes France 23-28 August 1992 454-460

Zhang HP J Sun B Wang et S Bai 2005 Computation on sentence semantic distance for novelty detection Journal of Computer Science and Technology (English Language Edition) 20 (3) 331-337

Zhang Z L Da Sylva C Davidson G Lizarralde G et JY Nie 2004 Domain-specific QA for the construction sector In Proceedings of the Workshop on Information Retrieval for Question Answering (IR4QA) SIGIR04 Sheffield UK 29 July 2004 6 5 - 7 1

1 5 6 I AVRIL bull JUIN 2 0 0 6 I DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 8: Thésaurus et systèmes de traitement automatique de la langue...Cet article vise à illustrer le rôle que joue le thésaurus documen taire, dans sa version la plus classique, dans

Alani H C Jones et D Tudhope 2000 Associative and spatial relationships in thesaurus-based retrieval In Proceedings of Research and Advanced Technology for Digital Libraries 4th European Conference ECDL 2000 Lecture Notes in Computer Science vol 1923 45-58)

Ardo A et T Kpch 1999 Automatic classification applied to full text Internet documents in a robot-generated subject index In Proceedings of the 23rd International Online Information Meeting 239-246

Bang SL JD Yang et HJ Yang 2006 Hierarchical document categorization with k-NN and concept-based thesauri Inforshymation Processing amp Management 42 (2) 387-406

Barzilay R et M Elhadad 1997 Using lexical chains for text summashyrization In Proceedings of the AŒ97EACL97 Workshop on Intelligent Scalable Text Summarization Madrid 11 juillet 199710-17

Bertrand-Gastaldy S et G Pagola 1992 Lanalyse du contenu textuel en vue de la construction de theacutesaurus et de lindexation assisteacutees par ordinateur applications possibles avec SATO Documentation et bibliothegraveques 38 (2) 75-89

Chali Y 2001 Topic detection using lexical chains In Engineering of Intelligent Systems 14th International Conference on Indusshytrial and Engineering Applications of Artificial Intelligence and Expert Systems IE AAIE 2001 Proceedings (Lecture Notes in Artificial Intelligence vol 2070) 552-558

Chapman R et P Roget 1992 Rogets International Thesaurus 5e eacuted New York NY HarperCollins

Chartron G S Dalbin MG Monteil et M Verillon 1989 Indexation manuelle et indexation automatique deacutepasser les oppositions Documentaliste mdash Sciences de linformation 26 (4-5) 181-187

Chu WW Z Liu W Mao et Q Zou 2005 A knowledge-based approach for retrieving scenario-specific medical text documents Control Engineering Practice 13 (9) 1105-1121

Crouch CJ 1990 Approach to the automatic construction of global thesauri Information Processing amp Management 26 (5) 629-640

Da Sylva L et F Doll 2005 Information architecture for document description Semantic thematization of text segments In K Tochtermann et H Maurer (dir) Proceedings ofl-KNOW 05 5th International Conference on Knowledge Management Graz Austria 29 June-i July 2005 612-620

Dejean H E Gaussier J-M Renders et F Sadat 2005 Automatic processing of multilingual medical terminology Applications to thesaurus enrichment and cross-language information retrieval Artificial Intelligence in Medicine 33 (2) 111-124 (Special Issue Information Extraction and Summarization from Medical Documents)

Denber M 1998 Automatic resolution of anaphora in English Technical report Eastman Kodak Co

Dillon M 1982 Thesaurus-based automatic book indexing Inforshymation Processing amp Management 18 (4) 167-178

Efthimiadis EN 1996 Query expansion In ME Williams (dir) Annual Review of Information Science and Technology 31121-187

Eichmann D ME Ruiz et P Srinivasan 1998 Cross-language inforshymation retrieval with the UMLS Metathesaurus In Proceeshydings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval 72-80

Farzindar A G Lapalme et J-P Descleacutes 2004 Reacutesumeacute de textes juridiques par identification de leur structure theacutematique Traitement Automatique des Langues (TAL) 45 (1) 1-21 (Numeacutero speacutecial Le reacutesumeacute automatique de texte solutions et perspectives)

Ferlez J et M Gams 2004 Shortest-path semantic distance measure in WordNet V20 Informatica 28 (4) 381-386

Foo S SC Hui HK Lim et L Hui 2000 Automatic thesaurus for enhanced Chinese text retrieval Library Review 49 (5-6) 230-239

Ginsberg A 1993 Unified approach to automatic indexing and information retrieval IEEE Expert 8 (5) 46-56

Gonzalo J F Verdejo C Peters et N Calzolari 1998 Applying EuroWordNet to crosslanguage text retrieval Computers and the Humanities 32 (2-3) 185-207

Greenberg J 2001a Optimal query expansion (QE) processing methods with semantically encoded structured thesauri terminology Journal of the American Society for Information Science 52 (6) 487-498

2001b Automatic query expansion via lexical-semantic relationships Journal of the American Society for Information Science 52 (5) 402-415

Grefenstette G 1994 Explorations in automatic thesaurus discovery Dordrecht Kluwer Academic

Guntzer U G Juttner G Seegmuller et F Sarre 1989 Automatic thesaurus construction by machine learning from retrieval sessions Information Processing amp Management^ (3) 265-273

Hajime M H Takeo et O Manabu 1998 Text segmentation with multiple surface linguistic cues In Proceedings of COLING-ACL98 881-885

Halliday M et R Hasan 1976 Cohesion in English London Longman

Harabagiu S 1999 From lexical cohesion to textual coherence A data driven perspective International Journal of Pattern Recognition and Artificial Intelligence 13 (2) 247-265

Hearst MA 1997 TextTiling Segmenting text into multi-paragraph subtopic passages Computational Linguistics 23 (1) 33-64

Hernandez N et B Grau 2002 Analyse theacutematique du discours segmentation structuration description et repreacutesentation In Actes de CIDE2002 Hammamet Tunisie 277-285

Hidalgo JMG M de Buenaga Rodriguez et JCC Perez 2005 The role of word sense disambiguation in automated text categorization In Natural Language Processing and Inforshymation Systems 10th International Conference on Applicashytions of Natural Language to Information Systems NLDB 200s (Lecture Notes in Computer Science 35i3)gt 298-309

Hodge VJ et J Austin 2002 Hierarchical word clustering mdash autoshymatic thesaurus generation Neurocomputing 48 819-846

Houde S 1992 Lapport des dictionnaires eacutelectroniques pour leacutelashyboration de theacutesaurus Documentation et bibliothegraveques 38 (2) 91-95

Jarmasz M et S Szpakowicz 2003 Rogets thesaurus and semantic similarity In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP-03) 212-219

Kar WL et CC Yang 2005 Automatic crosslingual thesaurus generated from the Hong Kong SAR Police Department Web corpus for crime analysis Journal of the American Society for Information Science and Technology 56 (3) 272-282

Kim Y BT Zhang et YT Kim 2001 Collocation dictionary optimization using WordNet and k-nearest neighbor learning Machine Translation 16 (2) 89-108

Litkowski KC 2001 Syntactic clues and lexical resources in question-answering In Information Technology Ninth Text REtrieval Conference (TREC-9) (NIST SP 500-249) 157-166

Mandala R T Tokunaga et H Tanaka 2000a Query expansion using heterogeneous thesauri Information Processing amp Management 36 (3) 361-378

DOCUMENTATION ET BIBLIOTHEgraveQUES | AVRIL bull JUIN 2006 | 5 5

20oob Improving information retrieval system performance by combining different text-mining techniques Intelligent Data Analysis 4 (6) 489-511

Mitkov R 2002 Anaphora Resolution London Longman

Morin E et C Jacquemin 2004 Automatic acquisition and expansion of hypernym links Computers and the Humanities 38 (4) 363-396

Morris J et G Hirst 1991 Lexical cohesion computed by thesaural relations as an indicator of the structure of text Computashytional Linguistics 17 (1) 21-48

Nasukawa T 1994- Robust method of pronoun resolution using full-text information In Proceedings of the 15th International Conference on Computational Linguistics (COLING94)gt Kyoto Japan 1157-1163

Park YC et KS Choi 1996 Automatic thesaurus construction using Bayesian networks Information Processing amp Management^ (5) 543-553-

Pizzato LAS 2003 Query expansion based on thesaurus relations evaluation over Internet In Computational Linguistics and Intelligent Text Processing 4th International Conference CICLing 2003 Proceedings (Lecture Notes in Computer Science Vol 2588) 553-556

Preiss J et M Stevenson 2004 Introduction to the special issue on word sense disambiguation Computer Speech and Language 18 (3) 201-207

Putejovsky J J Castano J Zhang M Kotecki et B Cochran 2002 Robust relational parsing over biomedical literature Extracting inhibit relations In Proceedings of the Pacific Symposium on Biocomputing Honolulu Hawaii 4-9 January 2000 362-373

Resnik P 1995 Using information content to evaluate semantic similarity In Proceedings of the 14th International Joint Confeshyrence on Artificial Intelligence (IJCAI) Montreacuteal 20-25 August 1995 448-453

Saggion H et G Lapalme 2002 Generating indicative-informative summaries with SumUM Computational Linguistics 28 (4) 497-526

Salton G 1972 Experiments in automatic thesaurus construction for information retrieval In Information Processing 71 Proceeshydings of the IFIP Congress 19711 Ljubljana Yougoslavie 23-28 August 1971115-123

Shaikevich AY 1985 Automatic construction of a thesaurus from explanatory dictionaries Automatic Documentation and Mathematical Linguistics 19 (4) 76-89

Soergel D 1999 The Rise of ontologies or the reinvention of classifishycation Journal of the American Society for Information Science 50 (12) 1119-1120

Srinivasan P 1996 Query expansion and MEDLINE Information Processing amp Management 32 (4) 431-443-

Sugato Bbdquo RJ Mooney KV Pasupuleti et J Ghosh 2001 Evaluating the novelty of text-mined rules using lexical knowledge In Proceedings of the Seventh ACM SIGKDD International Confeshyrence on Knowledge Discovery and Data Mining (KDD-2001) San Francisco California 26-29 August 2001 233-238

Sumita E O Furuse et H Iida 1995 An example-based disambishyguation of English prepositional phrase attachment Systems and Computers in Japan 26 (4) 30-41

Sussna M 1993 Word sense disambiguation for free-text indexing using a massive semantic network In Proceedings of the Second International Conference on Information and Knowledge Management (CIKM 93) Washington DC 1-5 November 1993 67-74

Takenobu T I Makoto et T Hozumi 1995 Automatic thesaurus construction based on grammatical relations In Proceedings of the 14th International Joint Conference on Artificial Intellishygence (IJCAI) pt 2 Montreacuteal 20-25 August 19951308-1313

Tseng YH 2002 Automatic thesaurus generation for Chinese documents Journal of the American Society for Information Science and Technology 5 (13) 1130-1138

Urena LA JMG Hidalgo et M de Buenaga 2000 Information retrieval by means of word sense disambiguation In Proceeshydings of the Third International Workshop on Text Speech and Dialogue TSD 2000 Lecture Notes in Artificial Intelligence Vol 902) 93-98

Voorhees E M 1994 Query expansion using lexical-semantic relations In 17th International Conference on Research and Development in Information Retrieval (SIGIR94) Dublin Ireland 3-6 July 1994 61-69

Vossen P 1998 EuroWordNet A multilingual database with lexical semantic networks Dordrecht Netherlands Kluwer

Yang CC et J Luk 2003 Automatic generation of EnglishChinese thesaurus based on a parallel corpus in laws Journal of the American Society for Information Science and Technology 54 (7) 671-682

Yarowsky D 1992 Word-sense disambiguation using statistical models of Rogets categories trained on large corpora In Proceedings ofCOLING-92 Nantes France 23-28 August 1992 454-460

Zhang HP J Sun B Wang et S Bai 2005 Computation on sentence semantic distance for novelty detection Journal of Computer Science and Technology (English Language Edition) 20 (3) 331-337

Zhang Z L Da Sylva C Davidson G Lizarralde G et JY Nie 2004 Domain-specific QA for the construction sector In Proceedings of the Workshop on Information Retrieval for Question Answering (IR4QA) SIGIR04 Sheffield UK 29 July 2004 6 5 - 7 1

1 5 6 I AVRIL bull JUIN 2 0 0 6 I DOCUMENTATION ET BIBLIOTHEgraveQUES

Page 9: Thésaurus et systèmes de traitement automatique de la langue...Cet article vise à illustrer le rôle que joue le thésaurus documen taire, dans sa version la plus classique, dans

20oob Improving information retrieval system performance by combining different text-mining techniques Intelligent Data Analysis 4 (6) 489-511

Mitkov R 2002 Anaphora Resolution London Longman

Morin E et C Jacquemin 2004 Automatic acquisition and expansion of hypernym links Computers and the Humanities 38 (4) 363-396

Morris J et G Hirst 1991 Lexical cohesion computed by thesaural relations as an indicator of the structure of text Computashytional Linguistics 17 (1) 21-48

Nasukawa T 1994- Robust method of pronoun resolution using full-text information In Proceedings of the 15th International Conference on Computational Linguistics (COLING94)gt Kyoto Japan 1157-1163

Park YC et KS Choi 1996 Automatic thesaurus construction using Bayesian networks Information Processing amp Management^ (5) 543-553-

Pizzato LAS 2003 Query expansion based on thesaurus relations evaluation over Internet In Computational Linguistics and Intelligent Text Processing 4th International Conference CICLing 2003 Proceedings (Lecture Notes in Computer Science Vol 2588) 553-556

Preiss J et M Stevenson 2004 Introduction to the special issue on word sense disambiguation Computer Speech and Language 18 (3) 201-207

Putejovsky J J Castano J Zhang M Kotecki et B Cochran 2002 Robust relational parsing over biomedical literature Extracting inhibit relations In Proceedings of the Pacific Symposium on Biocomputing Honolulu Hawaii 4-9 January 2000 362-373

Resnik P 1995 Using information content to evaluate semantic similarity In Proceedings of the 14th International Joint Confeshyrence on Artificial Intelligence (IJCAI) Montreacuteal 20-25 August 1995 448-453

Saggion H et G Lapalme 2002 Generating indicative-informative summaries with SumUM Computational Linguistics 28 (4) 497-526

Salton G 1972 Experiments in automatic thesaurus construction for information retrieval In Information Processing 71 Proceeshydings of the IFIP Congress 19711 Ljubljana Yougoslavie 23-28 August 1971115-123

Shaikevich AY 1985 Automatic construction of a thesaurus from explanatory dictionaries Automatic Documentation and Mathematical Linguistics 19 (4) 76-89

Soergel D 1999 The Rise of ontologies or the reinvention of classifishycation Journal of the American Society for Information Science 50 (12) 1119-1120

Srinivasan P 1996 Query expansion and MEDLINE Information Processing amp Management 32 (4) 431-443-

Sugato Bbdquo RJ Mooney KV Pasupuleti et J Ghosh 2001 Evaluating the novelty of text-mined rules using lexical knowledge In Proceedings of the Seventh ACM SIGKDD International Confeshyrence on Knowledge Discovery and Data Mining (KDD-2001) San Francisco California 26-29 August 2001 233-238

Sumita E O Furuse et H Iida 1995 An example-based disambishyguation of English prepositional phrase attachment Systems and Computers in Japan 26 (4) 30-41

Sussna M 1993 Word sense disambiguation for free-text indexing using a massive semantic network In Proceedings of the Second International Conference on Information and Knowledge Management (CIKM 93) Washington DC 1-5 November 1993 67-74

Takenobu T I Makoto et T Hozumi 1995 Automatic thesaurus construction based on grammatical relations In Proceedings of the 14th International Joint Conference on Artificial Intellishygence (IJCAI) pt 2 Montreacuteal 20-25 August 19951308-1313

Tseng YH 2002 Automatic thesaurus generation for Chinese documents Journal of the American Society for Information Science and Technology 5 (13) 1130-1138

Urena LA JMG Hidalgo et M de Buenaga 2000 Information retrieval by means of word sense disambiguation In Proceeshydings of the Third International Workshop on Text Speech and Dialogue TSD 2000 Lecture Notes in Artificial Intelligence Vol 902) 93-98

Voorhees E M 1994 Query expansion using lexical-semantic relations In 17th International Conference on Research and Development in Information Retrieval (SIGIR94) Dublin Ireland 3-6 July 1994 61-69

Vossen P 1998 EuroWordNet A multilingual database with lexical semantic networks Dordrecht Netherlands Kluwer

Yang CC et J Luk 2003 Automatic generation of EnglishChinese thesaurus based on a parallel corpus in laws Journal of the American Society for Information Science and Technology 54 (7) 671-682

Yarowsky D 1992 Word-sense disambiguation using statistical models of Rogets categories trained on large corpora In Proceedings ofCOLING-92 Nantes France 23-28 August 1992 454-460

Zhang HP J Sun B Wang et S Bai 2005 Computation on sentence semantic distance for novelty detection Journal of Computer Science and Technology (English Language Edition) 20 (3) 331-337

Zhang Z L Da Sylva C Davidson G Lizarralde G et JY Nie 2004 Domain-specific QA for the construction sector In Proceedings of the Workshop on Information Retrieval for Question Answering (IR4QA) SIGIR04 Sheffield UK 29 July 2004 6 5 - 7 1

1 5 6 I AVRIL bull JUIN 2 0 0 6 I DOCUMENTATION ET BIBLIOTHEgraveQUES