les collocations en langue de spécialité. lune des principales caractéristiques des langues de...

46
Les collocations en langue de spécialité

Upload: nel-vignal

Post on 03-Apr-2015

109 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Les collocations en langue de spécialité

Page 2: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

L’une des principales caractéristiques des langues de spécialité est leur haute densité terminologique.

Cette prédominance quantitative de la terminologie fait de l’extraction terminologique un champ d’investigation privilégié en traitement automatique des langues.

Page 3: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Les expressions de patrons syntaxiques identiques (par exemple, celle du type Adjectif + Nom en anglais) peuvent être repérées automatiquement grâce à un étiquetage morpho-syntaxique

Mais un étiquetage tenant compte de traits sémantiques est nécessaire pour séparer les termes des collocations.

Page 4: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Travaux récents en ESP

G. Williams dans le domaine de la biologie végétale

M-C. L’Homme dans le domaine de l’informatique

F. Maniez dans le domaine de la médecine

Page 5: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

G. Williams

recherche les cooccurrences significatives entre deux lexèmes

Son but est d'extraire des binômes ou des expressions polylexicales et de déterminer leur « rôle thématique, facteur de cohésion textuelle »

Il représente ses « réseaux de collocation»sous forme graphique.

Page 6: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

WILLIAMS G. (1998) “Collocational Networks : Interlocking Patterns of Lexis in a Corpus of Plant Biology Research Articles”. International Journal of

Corpus Linguistics. Vol 3/1, pp. 151-171

Il utilise pour le repérage des collocations en corpus l’indice du MI score de Church et Hanks.

Les réseaux ainsi définis décrivent en fait une combinatoire lexicale et grammaticale des termes du domaine.

Page 7: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

A partir du repérage d’un terme (ptDNA), on peut découvrir un « encadrement collocationnel » (the ptDNA of)

Ce cadre peut lui-même être intégré à des modèles de taille supérieure (in the ptDNA of <plant_name>, genes/regions in the ptDNA of <plant_name>).

Williams regroupe les exemples faisant intervenir les formes nominales, verbales et adjectivales pour arriver à la définition de ses réseaux.

Page 8: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

L’HOMME, M.C. (1998). « Définition du statut du verbe en langue de spécialité et sa description lexicographique. » Cahiers de lexicologie 73 (2), pp. 61-84.

étudie les collocations à base verbale, en particulier dans le domaine de l’informatique.

Se livre à une description des verbes spécialisés dans une optique de traitement automatique et la situe à différents niveaux (syntaxique, sémantique et combinatoire)

Page 9: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

emplois du vocabulaire informatique tels que « tourner sur », formalisé par la formule Act1(logiciel) tourne(1) sur Act2(ordinateur)

modèle descriptif qui s'inspire de la lexicologie explicative et combinatoire de Mel’čuk

Page 10: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Pour un liste des fonctions lexicales de Mel’čuk :

http://engdep1.philo.ulg.ac.be/decide/LexicalFunctions.html

Exemple : Function :Magn Description : intensifier Example :

Magn(bachelor)=confirmed

Page 11: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Quelques difficultés concernant la description des collocations verbales

faible fréquence et forte variation des formes verbales en langue de spécialité relativement aux groupes nominaux recours à des corpus de très grande taille si l’on souhaite atteindre la significativité statistique

nécessité d’un corpus arboré pour la détection de l’ensemble des structures faisant intervenir des syntagmes prépositionnels (souvent distants)

Page 12: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Exemples de dépendance à distance

Il demeure entendu que les réductions de prix accordées aux clients étrangers par retenue à la source ou par voie de transfert doivent être déduites des 20% dont bénéficie l’exportateur au titre de la promotion des exportations à l’étranger à porter au crédit de son compte C.C.P.EX et/ou de son compte en devises.

accorder une réduction par voie de transfert

bénéficier de % au titre de X porter % au crédit d’un compte

Page 13: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

MANIEZ, F. (1999a) : « The use of electronic corpora and lexical frequency data in solving translation problems », in Altenberg, Bengt &

Sylviane Granger (eds), Lexis in Contrast,

Amsterdam, John Benjamins, 2001.

absence de séparation nette entre vocabulaire spécialisé et vocabulaire général (polysémie de nombreux mots d’usage courant)

Etude des emplois du mot « lit » à partir d’un corpus (2 M), compilé à partir des sites des Universités de Grenoble 2, Lyon 1 et Rennes 2.

Page 14: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Deux emplois distincts  :

le lit désigne l’objet matériel : surélévation de la tête du lit, repos au

lit, (geste) réalisé / réalisable au lit du patient, pouvant être utilisé au lit du malade, confiné au lit, garder le lit

il désigne une partie de l’anatomie lit vasculaire / artériel / vésiculaire /

capillaire

Page 15: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Un traitement automatique devrait distinguer deux homonymes : lit1 et lit2

9 emplois de l’expression métaphorique « faire le lit de » dans son sens étiologique : Les infarctus osseux qui accompagnent

le processus infectieux semblent faire le lit des localisations septiques.

expression de la langue générale élément de la phraséologie médicale

Page 16: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Mais le MI score ou le Z-score des collocations impliquant des items lexicaux d’usage très fréquent (faire, lit) reste bas

Le repérage de ces collocations est impossible automatiquement sur la seule base de la fréquence

Page 17: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Repérage des collocations disjointes

Results_NN2 of_IO trials_NN2 of_IO selective_JJ gut_NN1 decontamination_NN1 have_VH0 been_VBN mixed_VVN ._. (étiquetage CLAWS du BNC)

Des résultats des épreuves de la décontamination sélective d’intestin ont été mélangés (traduction « littérale » par Systran Classic)

Page 18: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

collocation non identifiée : mixed results (résultats mitigés)

catégorie grammaticale incorrectement attribuée à mixed par le programme d’étiquetage (et par l’analyseur de Systran) : participe passé (au lieu d’adjectif).

Page 19: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Solutions envisageables en TAL

recensement de tous les participes passés à emploi adjectival

l’analyse par défaut d’une forme de participe passé suivant been comme faisant partie d’une structure passive sera suivie d’une tentative de désambiguïsation automatique.

3 modes de désambiguïsation sont possibles:

Page 20: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

a) vérification des verbes ayant "results" pour argument

Exemples du corpus combine est un collocant naturel de results dans le cadre de l'explication de la procédure de méta-analyse:

How best to combine the results of different clinical trials to produce a single valid conclusion has been an issue in clinical pharmacology and the rest of medicine since literature reviews were first conducted. Although formal statistical methodology for combining clinical trial results, or meta-analysis, is an improvement over earlier methods of less formal literature review and interpretation […]

Page 21: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

2 méthodes possibles :

Vérification de la présence de <combine – results> dans une base de donnée collocationnelle regroupant les verbes et leurs principaux arguments

recherche en corpus d’éventuelles cooccurrences entre results et les synonymes de mix fournis par une base lexicale comme Wordnet.

Page 22: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

IM93 : corpus regroupant la totalité des articles parus en 1993 dans quatre revues médicales de langue anglaise et totalisant environ 12 millions de mots.

la collocation combine results est présente sous sa forme liée dans 46 articles (le verbe s'y présente sous les trois formes combine, combined et combining)

toutes les cooccurrences de mix et de results se présentent sous la forme mixed results, mixed étant un adjectif.

Page 23: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

b) stockage de la collocation "mixed results"

Repérage des collocations de mixed en langue générale (Time 20th Century, 10 M)

Page 24: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Collocants de MIXED

TIME 20th

Traductions

signals 26 signaux, messages contradictoires

race 25 race mixte

blessing 21 avantage incertain

feelings 21 sentiments contraires, contradictoires

reviews 21 avis partagés

results 19 résultats mitigés, bilan contrasté

messages 16 signaux, messages contradictoires

economy 10 économie mixte

emotions 10 sentiments contradictoires

Page 25: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

nécessité de disposer d'un corpus de grande taille

seules deux des dix collocations comptent plus de 2 occurrences dans un sous-ensemble de Time 20th comptant 1,8 million de mots

Page 26: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

c) repérage de la collocation sous sa forme disjointe telle qu'elle se présente dans le contexte

Les programmes de collecte automatique de collocations fonctionnent : soit par repérage de mots

immédiatement consécutifs soit en fournissant une série de

contextes de cooccurrence de deux mots donnés dans des limites de proximité prédéfinies.

Page 27: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Adjonction d’information statistique concernant la fréquence d’emploi des différentes parties du discours et de leurs fonctions grammaticale par rapport au type de langue utilisé (langue générale / langue spécialisée)

Page 28: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Statut grammatical de mixed dans les corpus TIME91 et IM93

Nature et fonction de mixed

L. Générale L. Médicale

Voix active 4 2

Voix passive 9 8

Adj. Attribut 10 5

Adj. Épithète 44 (66%) 261(95%)

Total 67 276

Page 29: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Quelle méthode adopter?

Le premier critère (élimination de l'interprétation erronée grâce au stockage préalable en mémoire d'un collocat d'une plus grande probabilité d'occurrence) est difficilement applicable à la traduction automatique CAR

le caractère incongru de l'interprétation passive est dû à la perception de l'acceptabilité d'une collocation dans le cadre d'une langue de spécialité, phénomène difficile à formaliser et quantifier.

Page 30: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Le deuxième critère est plus adapté à l'outil informatique, d'une grande puissance pour la génération de collocations tirées de textes numérisés.

Page 31: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Collocations de fréquence >4 dans un corpus médical de 200 000 mots

FREQUENCE MOT 1 MOT 2

12 atteintes inflammatoires

8 anses grêles

7 aspects radiologiques

7 atrophie villositaire

6 abcès hépatiques

6 anses intestinales

6 aspects observés

6 atteintes vasculaires

5 adénomes hépatocellulaires

5 aspect pseudo-tumoral

Page 32: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

homogénéité (typique de la langue scientifique) quant aux catégories grammaticales représentées (les collocations sont de type <Nom – Adjectif>.

clivage assez net entre les termes (formes relevant du lexique spécialisé), et les collocations, dont les bases (aspect, atteinte) n’appartiennent pas au vocabulaire spécialisé.

Page 33: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Détection de « results… mixed? »

2 solutions : Optimisation de la fonction d'empan par

la prise en compte de statistiques de présence à l'état disjoint (la collocation "aspects observés" sera plus souvent disjointe que la combinaison "atteinte vasculaire")

Isolement des chunks dont la traduction dans une langue est homogène dans les corpus bilingues alignés : have been mixed ont été mitigé(e)s (results, reviews, reactions, rating, marks, profile)

Page 34: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette
Page 35: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Les langues de spécialité

Les grands corpus de références comme le TLF ou le BNC ont pour but principal de représenter le plus fidèlement possible la langue générale.

Mais la linguistique de corpus s’applique toutefois également aux langues de spécialité, parfois appelées langues spécialisées ou sous-langages.

Page 36: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

LERAT, P. (1995) : Les langues spécialisées, Paris, P.U.F.

Il préfère le terme langue spécialisée, car il conçoit la langue de spécialité non pas comme une « sous-langue » mais comme une forme d’usage particulière de la langue.

L’anglais language for special purposes (LSP) dit bien cette particularité […]. « langue spécialisée » renvoie au système linguistique pour l’expression et aux professions pour les savoirs. »

Page 37: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Sublanguage (les sous-langages)

« Sublanguage », employé par Z. Harris, sous-entend, au delà d’une particularité du lexique, un fonctionnement langagier spécifique

Le terme englobe non seulement les langages des disciplines scientifiques et techniques, mais également les méta-langages comme celui de la linguistique.

Page 38: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

L’hypothèse de Harris veut que les sous-langages aient un lexique limité et un nombre fini de schémas de phrases, qui seraient des combinaisons de sous-classes de mots propres à ces sous-langages.

Cette finitude rend l’utilisation des corpus particulièrement propice à l’étude des sous-langages.

Page 39: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

McEnery & Wilson (1996)

One key feature that has been hypothesised for a sublanguage is that it will show a high degree of closure at various levels of description. […] In short, a corpus should be an exceptionally good tool for identifying and describing a sublanguage, because they both have an important feature in common – a finite nature.

Page 40: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

HABERT, B., NAZARENKO, A. & SALEM A. (1997) : Les linguistiques de corpus, Paris, Armand Colin / Masson.

Les sous-langages ne sont pas forcément des sous-ensembles de la langue générale. Certains traits de la langue générale s’y retrouvent, d’autres leur sont propres.

Inversement, les sous-langages peuvent recourir à des patrons syntaxiques particuliers qu’il serait difficile d’intégrer tels quels à une grammaire « de langue ». C’est le cas de certains motifs dénominatifs qui forment de véritables « grammaires locales ».

Page 41: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Exemple cité par Habert : The system will be unable to vary

on the device. Mais cette tournure est une simple

variation lexicale sur le verbe à particule adverbiale to turn on, et non pas un patron syntaxique typique de la langue de spécialité.

Page 42: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Il y a dissociation partielle des lexiques de la langue générale et des langues de

spécialité des langues de spécialité entre elles

Mais leur syntaxe est fondamentalement identique.

Page 43: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Notion de langue commune (CABRÉ, M. T. (1998). La Terminologie- Théorie, méthode et applications.)

« La langue générale (…) peut être considérée comme un ensemble d’ensembles, imbriqués et reliés entre eux selon de nombreux points de vue. Le lien entre tous ces ensembles est la langue commune. Chacun de ces sous-ensembles peut être une langue de spécialité. » (1998 : 115) 

Page 44: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette
Page 45: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Anglais de spécialité : absence de lexèmes

d’origine dialectale (bodacious) appartenant au registre familier

(groovy) exprimant un jugement de manière

affective (loathsome)

Page 46: Les collocations en langue de spécialité. Lune des principales caractéristiques des langues de spécialité est leur haute densité terminologique. Cette

Inversement, les technolectes sont absents des corpus de langue générale : cervicothoracic-lumbosacral orthosis hypothalamic-pituitary-gonadal

Mais une partie du lexique de la langue générale est investie d’un sens spécifique en langue de spécialité (cf. sensibilité)