une représentation sémantique de lexique pour un ...mangeot/publications/glat06_mt-slides.pdf ·...

Post on 29-Jul-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

GLAT2006 1

une Représentation Sémantique de Lexiquepour un Dictionnaire de Traduction

Manuelle et Automatique

Mutsuko Tomokiyo, CLIPS (Grenoble) & ENST (Paris),Peter Weyer-Brown, ENST (Paris)

Mathieu Mangeot, Université de Savoie (Chambéry)Mathieu.Mangeot@univ-savoie.fr

GLAT2006 2

Plan

• Base de données lexicale « Papillon » etune théorie lexicographique « Sens-Texte »

• Application du dictionnaire à la traduction automatique dans le cadre de« Universal Networking Language (UNL) »

• Perspectives d’avenir

GLAT2006 3

Base de données lexicale “Papillon”

Lancement du projet: 1999-Partenaires : Consortium de GETA-CLIPS-

imag (Grenoble), NII (Tokyo) et Ambassadede France au Japon (Tokyo)

Réalisation: Base de données lexicale multilangue

GLAT2006 4

Structures de “Papillon”DiCo Français

DiCo Japonais

ka-do.1=carte à jouer

chizu.1=carte géographique

DiCo Anglaiscarte.2=carte géographique

carte.1=carte à jouer

ka-do.2= carte de crédit.1

card.1=carte à jouer

card.2= carte de crédit.1

map=carte géographique

Langue pivot

Acception101Card(icl>play)

Acception.102Card(icl>geography)

Card(icl>cash card)Acception205

carte de crédit.1=carte bancaire

GLAT2006 5

Théorie lexicographique “Sens-Texte” (1)

Description de lexies multidimentionnelle :

- l’aspect morpho-syntaxique, sémantique et pragmatique

- une analyse combinatoire et explicative(DEC, 92)

GLAT2006 6

Théorie lexicographique “Sens-Texte” (2)

la langue est considérée comme un mécanisme,ou un système de règles, qui permet au locuteurde faire deux choses : parler et comprendre. Latâche de linguistes est donc de construire, pourla langue étudiée L, un système de règles, …quidéfinisse les mêmes correspondances entre senset textes que celles qu'établissent les locuteurs(Mel’cuk, 97)

GLAT2006 7

Zones principales dans le dictionnaire DEC

• zone vedette (lexie)• zone phonologique (prononciation)

• zone morphologique (classe)

• zone stylistique (marques d'usage)

• zone sémantique (définition et connotations)

• zone de combinatoire syntaxique (régime, restrictions surla cooccurrence des différents actants)

• zone de combinatoire lexicale restreinte (la cooccurrencecontextuelle et ontologique)

• zone d'exemples

• zone de Nota Bene (OLST, 05)

GLAT2006 8

Fichier de patron pour le dictionnaire du français(1)

Format XML au moyen d’une DTD:

• de décrire les lexies de manière homogène,

• de les réviser,

• de les importer dans la base de données, à fin de les

rendre disponibles en ligne au format HTML

GLAT2006 9

Fichier de patron pour le dictionnaire du français(2)

<?xml version="1.0" encoding="UTF-8" ?><!-- $Author: --> <!-- $Date: --> <!-- $Revision : 1.0 --><!-- ?xml-stylesheet type="text/css" href="../stylesheets/papillon-fr.css --><lexied:id="Undefined”xmlns=http://www.clips.imag.fr/geta/services/dml xmlns:d="http://www-clips.imag.fr/geta/services/dml"x m l n s : x l i n k = " h t t p : / / w w w . w 3 . o r g / 1 9 9 9 / x l i n k "xmlns:xsi="http: / /www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://www-clips.imag.fr/geta/services/dmlhttp://www-clips.imag.fr/geta/services/dml/papillon_deu.xsd"><history><modification><author/><date/><comment/></modification></history>

GLAT2006 10

Fichier de patron : lexies

<headword >"évaluer.1"</headword ><prononciation= "evalµe" </prononciation><pos>v.tr.</pos>

GLAT2006 11

Fichier de patron : usage

<language-levels><politeness grade="neutral"/><usage grade="NA"/> <domain="NA"/>

</language-levels>

GLAT2006 12

Fichier de patron : Régime.1

e.g. lexie.1 évaluer

<semantic-formula> action : action intellectuelle

<sem-label>quelqu‘un</sem-label>

<actor>X</actor>

<sem-label>quelque chose</sem-label>

<actor>Y</actor>

</semantic-formula>

GLAT2006 13

<government-pattern> <mod nb="1"> <actor> <sem-actant>X</sem-actant> = † <synt-actant>I</synt-actant> = <surface-group><surface>N</surface></surface-group> </actor> <actor> <sem-actant>Y</sem-actant> = † <synt-actant>II</synt-actant> = <surface-group> <surface>N</surface></surface-group> </actor> </mod> </government-pattern>

Fichier de patron : Régime.2

GLAT2006 14

Fichier de patron : Fonctions lexicales.1

- d'un point de vue de la synonymie :

<lexical-functions>

<function><name>Qsyn</name>

<valgroup><value>fixer</value> </valgroup>

</function>

</lexical-functions>

GLAT2006 15

Fichier de patron : Fonctions lexicales.2

d'un point de vue de rapports paradigmatiques :<lexical-functions><function><name>S0 (évaluer)</name><valgroup><value>évaluation</value> </valgroup></function></lexical-functions>

GLAT2006 16

Fichier de patron : Fonctions lexicales.3

d'un point de vue de la transformation paraphrastique :e.g. évaluation<lexical-functions><function><name>Oper1 (évaluation)</name><valgroup><value>faire</value> </valgroup></function></lexical-functions>

GLAT2006 17

Fichier de Patron : Fonctions lexicales.4

d'un point de vue de modificateurs :e.g. évaluation<lexical-functions><function><name>A3(évaluation) </name><valgroup><value>rapide</value> </valgroup></function>e.g. mesure<lexical-functions><function><name>Magn(mesure) </name><valgroup><value>drastique</value> </valgroup></function> (DEC, 92)

GLAT2006 18

Fichier de patron : exemples et expressions figées<examples><example dml:id="fra.évaluer.1.e1"> On y évalue lafaisabilité et réalisme économique des nouvelles technologiesradio.</example> <!--P.10 --><full-idioms>

<idiom dml:id="évaluation.1.i1">évaluationbudgétaire</idiom>

<idiom dml:id="évaluation.1.i2">évaluation fiscale</idiom><!--Logos -->

</full-idioms>

GLAT2006 19

Application du dictionnaire à la traduction automatique

Universal Networking Language (UNL) : - Langue de codage

- Formalisme- Environnement de la traduction automatique avec un analyseur, ungénérateur et un dictionnaire « UWs (Universal words) »

GLAT2006 20

Dictionnaire de UNL : UWs langue pivot: mots anglais désambiguïsés avecdes restrictionse.g.

state(icl>do>express) -> énoncer en françaisstate(icl>country) -> nation en françaisstate(icl>abstract thing) ->condition en françaisState(icl>government) -> Etat en français

(UNL center, 03)

GLAT2006 21

Formalisme de UNL : Hyper-Graphessémantiquese.g. Paul a acheté deux livres en ville.

<unlsem>

agt(buy.@entry.@past,Paul(icl>name>first name))

obj(buy.@entry.@past, book(icl>thing).@pl)

plc(buy.@entry.@past, town)

qua(book(icl>thing).@pl, two)

</unlsem> (tomokiyo, 05)

GLAT2006 22

buy.@entry.@past

Paul(icl>name>first name) Book(icl<thing).@pl

town

two

agt objplc

qua

(tomokiyo, 05)

UNL graphes -> déconvertiseur de GETA

GLAT2006 23

Correspondance de l'information dans ledictionnaire UWs et le dictionnaire de PlaquetteDans le dictionnaire d’UWs bilingue :

a c h e t e r - b u y ,AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)

a c h e t e r - b r i b e ( o b j > h u m a n ) ,AUX(AVOIR),CAT(CATV),GP2(A),VAL1(GN),VAL2(GN)

GLAT2006 24

Correspondance de l'information dans le dictionnaireUWs et le dictionnaire de Plaquette

Dans le dictionnaire de Plaquette pour acheter-bribe :

<semantic-formula> action : action intellectuelle

<sem-label>quelqu'un</sem-label>

<actor>X</actor>

<sem-label>quelqu'un</sem-label>

<actor>Y</actor>

</semantic-formula>

GLAT2006 25

Correspondance de l'information entre ledictionnaire UWs et le dictionnaire de Plaquette

«  évaluer  » : to value, to appraise, to assess et toestimate (Harrap's, 1989)

Dans l'énoncé "On y évalue la faisabilité et le réalismeéconomique des nouvelles technologies..."( page 10),Dans le dictionnaire UWs "assess" a une restriction surson objet direct :évaluer-assess(obj>abstract thing>feasibility, realism),AUX(AVOIR), CAT(CATV), GP2(A), VAL1(GN),VAL2(GN)

GLAT2006 26

Dans le dictionnaire de la plaquette :<lexical-functions>

<function name="S2c(évaluer)"><valgroup>

<value><reflexie xlink:href="faisabilité.1"> faisabilité</reflexie> </value>

<value><reflexie xlink:href="réalisme.1"> réalisme</reflexie> </value> </valgroup></function>

</lexical-functions>

GLAT2006 27

Réflexions et perspectives (1)

• Pour la terminologie : sous-catégorisation des mots(Dickman, 1999)e.g.tri-classifying(icl>la poste)tri- odd trick(icl>games>bridge)tri-carrier tricycle(icl>vehicle)trier-sort(obj>courier)tournée-delivery(icl>distribution)

GLAT2006 28

Réflexions et perspectives (2)

• Pour établir une liste de lexies un logiciel KWICbilangue« Koyori » est utilisé.

• Pour intégrer les données de la Plaquette surPapillon au dictionnaire de UNL, il faut développerun outil.

• Pour la génération de l’anglais, on utilisera undécodeur de UNL.

top related