extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron...
TRANSCRIPT
Extraction d’équivalents de traduction à partir d’un corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical
François MANIEZ
Centre de Recherche en Terminologie et Traduction
Université Lumière Lyon 2, [email protected]
1. Introduction2. Hypothèses initiales3. Corpus utilisé4. Les adjectifs composés de l’anglais5. Méthode de repérage utilisée6. Résultats7. Sources de l’absence d’appariement8. Améliorations à apporter au modèle
1. Introduction
Les corpus bilingues alignés permettent d’extraire automatiquement des équivalents de traduction des collocations et des lexies complexes (Langlois & Plamondon 1998).
Les termes de l’anglais sont majoritairement formés à l’aide des deux seuls patrons syntaxiques N N et Adj N. (Gaussier 2001).
Le repérage des bigrammes correspondant à ces patrons syntaxiques et celui de leur équivalent de traduction dans le corpus bilingue (bitexte) peut servir à l’extraction d’une terminologie bilingue.
2. Hypothèses initiales
Similitude morphologique entre les ETLes termes de la langue technique et scientifique anglaise et leurs traductions françaises partagent fréquemment les mêmes racines gréco-latines (méthode des cognats).
Stabilité des traductions
Il y a peu de variation dans la traduction des termes et collocations de la langue scientifique.
Traductions de myocardial infarction (39 occurrences)
infarctus du myocarde 14
infarctus myocardique 10
IDM (sigle) 8
infarctus (ellipse) 7
3. Corpus utilisé
corpus bilingue aligné composé de 30 articles ayant pour sujet la cardiologie (134 000 mots) et de leur traduction parue dans la version française du Journal of the American Medical Association
étiquetage morpho-syntaxique des deux parties du corpus ; pas d’analyse syntaxique
Formes traitées : toutes les expressions de patron syntaxique ADJ N (élimination des formes de comparatif et de superlatif, ainsi que des adjectifs composés).
4. Les adjectifs composés de l’anglais
Absence de traitement car : leurs équivalents de traduction (ET) varient
beaucoup plus que ceux des autres adjectifs les patrons syntaxiques utilisés pour les traduire sont
divers et plus complexes que ceux déjà mentionnés, d’où une augmentation du temps de traitement.
difficulté d’un repérage exhaustif (pretest probability, noninvasive tests)
Exemples de traductions des adjectifs composés :
adjectif simple: placebo-controlled human study essai
contrôlé chez l'homme low-cholesterol diet régime
hypocholestéromique calcium-channel blockers inhibiteurs
calciques connective-tissue disease connectivite
sigle : low-density lipoprotein LDL groupe prépositionnel : dental-induced endocarditis endocardite
d’origine dentaire single-dose regimen protocole de prise unique antibiotic-resistant endocarditis endocardite à
germes résistants dental procedure-induced infective endocarditis
endocardite infectieuse d'origine dentaire
Ellipse (réduction)The high initial dose of antibiotic ensures a
high blood level during and just after the bacteremia-producing procedure. La dose initiale élevée assure une concentration sanguine élevée pendant et juste après le geste bactériémique.
EtoffementMaintenance-dose antibiotics are inadequate
to prevent bacterial endocarditis. Les antibiotiques administrés à dose d'entretien sont inefficaces pour prévenir l'endocardite bactérienne.
• Transformation de la structure syntaxiqueLDL represents the atherogenic, cholesterol-
containing particle les LDL, véhicules du cholestérol, sont les particules athérogènes.
• Variation des équivalents de traduction (plus fréquente pour les participes)
cocaine-induced myocardial infarction IDM associés à l'usage de cocaïne, infarctus myocardique par usage de cocaïne
5. Méthode de repérage utilisée
Extraction des séquences de type Adj N de la partie anglaise du corpus.
Extraction des séquences correspondant aux patrons syntaxiques les plus fréquemment observés dans les traductions françaises des séquences de type Adj N (Adj N, N Adj, N Prep N, N Prep Det N) de la partie française du corpus.
Appariement des groupes nominaux des deux langues au niveau du corpus, et non pas au niveau des phrases alignées.
Patrons syntaxiques des traductions françaises
Adj N vast majority grande majorité
N Adj pericardial effusion épanchement péricardique
N Prep N
hypercoagulable state état d'hypercoagulabilité
N Prep Det N
myocardial infarction infarctus du myocarde, hypertensive group groupe des hypertendus
La méthode d’extraction compare les informations contenues dans trois tables distinctes :
le corpus bilingue aligné au niveau de la phrase (2000 enregistrements).
les séquences Adj N de l’anglais (2000 séquences distinctes pour 3200 occurrences)
les groupes nominaux du français correspondant aux quatre patrons syntaxiques sélectionnés (4000 séquences distinctes pour 5500 occurrences)
Appariement entre les séquences de type Adj N et leurs équivalents de traduction potentiels, par un programme mettant en relation les trois fichiers, écrit sous un SGBD:
Chaque séquence Adj N est dans un premier temps mise en relation avec un sous-ensemble du fichier des groupes nominaux français.
filtre utilisé : similitude graphique des quatre premiers caractères de l’adjectif et du nom (méthode des cognats)
+ utilisation de la fonction DIFFERENCE() de DBASE pour la reconnaissance d’ET contenant des accents (predictive value).
•Le corpus bilingue est consulté afin d’établir le nombre d’enregistrements contenant les deux chaînes comparées dans chacun des deux champs du corpus bilingue, l’énoncé anglais et sa traduction française.
Indices utilisés :
R1 = nombre de phrases contenant les 2 GN comparés / fréquence du GN anglais
R2 = nombre de phrases contenant les 2 GN comparés / fréquence du GN français
Les trois équivalents de traduction les plus fréquemment observés sont relevés et classés en fonction de leur probabilité de correspondance calculée à partir du pourcentage de co-occurrence dans les énoncés alignés par rapport à leur fréquence d’emploi sur l’ensemble du corpus.
6. Résultats :
(pour toutes les séquences de fréquence supérieure à 2 sur l’ensemble du corpus).
précision de 92% (129 ET corrects /140 ET attribués)
rappel de 71% (129 ET corrects attribués /182 GN au total)
7. Sources de l’absence d’appariement :
7.1. Le GN fait partie d’une unité terminologique de taille supérieure :
familial dyslipidemic hypertension : hypertension familiale dyslipidémique, dyslipidémie familiale hypertensive
hypertensive heart disease : cardiopathie hypertensive
sudden cardiac death : mort subite d'origine cardiaque
7.2. Le GN appartient à une structure coordonnée : [pulmonary and systemic] venous [hypertension and congestion] l'hypertension et la congestion veineuse pulmonaire et systémique
7.3. Non-correspondance du nombre de mots des ET.
Traduction du nom par une lexie composée : clinical management : prise en charge clinique
Amalgame à la traduction :
antibiotic therapy : antibiothérapie
coronary angiography : coronarographie
Réduction
hypertensive patients (hommes / patients) hypertendus
7.4. La synonymie entraîne une faible valeur des indices R1 et R2to use parenteral prophylaxis : avoir recours à la voie injectable, utiliser des antibiotiques par voie parentérale.
7.5. non correspondance des cognatsmale patients sujets masculins
7.6. Siglaisonischemic stroke AVC ischémiquemyocardial infarction IDM
8. Améliorations à apporter au modèle
Traitement du patron syntaxique N N Sélection plus fine des candidats ET Traitement au niveau de la phrase pour les
hapax, avec prise en compte de la position des groupes nominaux dans la phrase.
Reconnaissance des séquences appartenant à des unités de taille supérieure (Cf. Frantzi 99, Maynard 01)