des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux...

21
Des corpus bilingues annotés sémantiquement pour l’aide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès Tutin LIDILEM Université Stendhal Grenoble 3 Paris, Journée ATALA « Outils de TAL pour l’aide à la rédaction »

Upload: giselle-derrien

Post on 03-Apr-2015

104 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Des corpus bilingues annotés

sémantiquement pour l’aide à la

rédaction: application aux collocations de

la langue scientifique générale

Olivier Kraif, Agnès TutinLIDILEM

Université Stendhal Grenoble 3

Paris, Journée ATALA « Outils de TAL pour l’aide à la rédaction »

Page 2: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Objectif

• Montrer comment des corpus bilingues alignés étiquetés et annotés sémantiquement permettraient d’élaborer des outils d’aide à la rédaction en L2 :– Pour la constitution des données :

En permettant au concepteur d’extraire facilement des données lexicales fines pour constituer des bases de collocations monolingues et bilingues.

– Pour la consultation des données :En permettant à l’utilisateur d’observer les phénomènes lexicaux dans leur contexte naturel, les corpus, à partir d’un accès onomasiologique et sémasiologique.

TUTIN
Insister dans le traitement linguistique :a) la caractère empirique de la définition de transdisciplinaire.b) les problèmes posés par la modélisationc) présenter le balisage.
Page 3: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Plan

• Les collocations : un phénomène qui doit être observé en corpus

• Une proposition d’architecture d’un outil d’aide à la rédaction exploitant des corpus bilingues annotés linguistiquement

• Les ressources TAL exploitées à cette fin

TUTIN
Insister dans le traitement linguistique :a) la caractère empirique de la définition de transdisciplinaire.b) les problèmes posés par la modélisationc) présenter le balisage.
Page 4: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Les collocations : un phénomène qui doit être observé sur corpus

• Les collocations

• Donner exemples syntaxiques et exemples sémantiques

• Informations sur les fréquences et les genres

►Collocations

Architecture

Ressources TAL

Page 5: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Architecture d’un système d’aide à la rédaction basé sur corpus

• Principes :– Navigation entre les ressources lexicales et

les exemples sur corpus. – Accès par le sens (classe sémantique,

synonyme) ou par la forme (lemme, catégorie)– Navigation entre les langues par le biais d’un

lexique pivot et des alignements de phrases.– Exploitation d’analogies sémantiques pour

vérifier des candidats collocations et proposer le cas échéant des collocations valides.

Collocations

► Architecture

Ressources TAL

Page 6: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Architecture générale

Collocations

► Architecture

Ressources TAL

Base+ collocatif

corpus monolingue

corpus bilingue

échec

Généralisation à la classe de la base et/ou du collocatif

Substitution synonymique

Index

Fiche lexicographique

de la base

• classe sémantique

• collocatifs triés par

1/ classes et

2/ fréquences d'occurrence

3/ fréquences des constructions

Les exemples sont triés en fonction des correspondances (par ordre de fréquence décroissante)

Les exemples sont triés en fonction des constructions (par ordre de fréquence décroissante)

Schéma d'interrogation unilingue

Base+ collocatif L2

Dictionnaire

Page 7: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Accès aux informations linguistiques

Exemple de recherche (corpus bilingue)– Critère de recherche : défendre une approche

• Le corpus ne contient pas d'exemple

• Possibilité de généraliser : type-verbe='défendre'

Résultats, dans le corpus bilingue :pourquoi et comment nous préconisons une démarche de design…why and how we promote a design…

En soutenant l' idée d' un essai contrôlé …In endorsing the idea of a placebo-controlled …

Trois arguments sont généralement avancés à l' appui …Three arguments are generally put forth to support …

Kracke et Parker , aux Etats-Unis , ont avancé l' hypothèse que …Kracke and Parker argued that ….

Je veux préconiser une approche au problème…I want to advocate a view of the problem ….(…)

Collocations

► Architecture

Ressources TAL

Page 8: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Accès aux informations linguistiques

Exemple de recherche (corpus bilingue)

On obtient ainsi des quasi-synonymes :

approche -> démarche

défendre -> préconiser

Mais aussi des équivalents potentiels en anglais

to promote

to advocate a view

Collocations

► Architecture

Ressources TAL

Page 9: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Accès aux informations linguistiques

Des classes de quasi-synonymes peuvent être obtenues automatiquement grâce au corpus bilingue :

• Technique de l'aller-retour

• Deux unités de L2 qui partagent les mêmes correspondances

en L1 ont sans doute des sens en commun.

Exemples (extrait d'un corpus de 27 000 couples de phrases):

prouver-verb -> démontrer-verb montrer-verb révéler-verb

question-noun -> problème-noun

apercevoir-verb -> observer-verb montrer-verb remarquer-verb distinguer-

verb trouver-verb voir-verb vivre-verb

• Les quasi-synonymes permettent également de généraliser la

recherche

Collocations

► Architecture

Ressources TAL

Page 10: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Accès aux informations linguistiques

Autre parcours

• On traduit la requête mot à mot

• Puis on effectue une recherche dans le corpus en L2.

• Exemple :approche -> approach

préconiser -> promote

Trouve-t-on des occurrences de la collocation: to promote +

approach ?

Collocations

► Architecture

Ressources TAL

Page 11: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Accès aux informations linguistiques

Collocations

► Architecture

Ressources TAL

Page 12: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Accès aux informations linguistiques

Collocations

► Architecture

Ressources TAL

Page 13: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Accès aux informations linguistiques

Pour la traduction des requêtes, on peut utiliser un lexique bilingue extrait à partir du corpus aligné.

• On calcule les correspondances lexicales

• On enregistre les équivalences les plus fréquentes et

statistiquement significatives

• Plus le corpus est vaste, mieux on peut filtrer les

correspondances valides.

Exemple (WHR95)

Collocations

► Architecture

Ressources TAL

Page 14: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Accès aux informations linguistiques

Différents types d’accès :- Forme

- Catégorie- Lemme

- Sens (thésaurus)- Classe sémantique

- Généralisations- En cas d’échec à une réponse, extension à la

classe sémantique et aux synonymes

Collocations

► Architecture

Ressources TAL

Page 15: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Exemple 1

Exemple 1 : défendre approchefrançais ou bilingue

Collocations

► Architecture

Ressources TAL

Page 16: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Exemple 2

Défendre approche vers l’anglais

Traduction de l’expression en utilisant les équivalents traductionnels et classes sémantiques (en sélectionnant les équivalents jugés pertinents)

Collocations

► Architecture

Ressources TAL

Page 17: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Ressources TAL nécessaires

• Corpus

- Corpus en anglais et français étiquetés au niveau morpho-syntaxique.

- Corpus annotés au niveau des collocations :- Annotation simple à réaliser (par exemple, emploi de

transducteurs d’états finis).

- Annotations à vérifier manuellement.– Corpus bilingues alignés (techniques??).

• Alignement à vérifier manuellement.

Collocations

Architecture

► Ressources TAL

Page 18: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Ressources TAL nécessaires

• Ressources lexicales

- Dictionnaire de collocations (produit automatiquement à partir des annotations vérifiées sur corpus).

- Lexique d’équivalents traductionnels (mots simples), généré automatiquement, à vérifier en partie manuellement.

- Lexique des synonymes généré automatiquement à partir des équivalents traductionnels, à vérifier en partie manuellement.

Collocations

Architecture

► Ressources TAL

Page 19: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Problèmes posés par les ressources

• La qualité du lexique bilingue et du dictionnaire de synonymes est tributaire de la taille des corpus (difficiles à obtenir).

• Pistes à envisager :– Corpus d’autres domaines, par exemple, presse

ou discours institutionnels (vocabulaire abstrait commun).

– Exploiter les corpus comparables pour affiner les dictionnaires de synonymes.

Collocations

Architecture

► Ressources TAL

Page 20: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Interface utilisateur

• L’intégration des ressources TAL doit être pensée du point de vue de l’utilisateur.

• Points à envisager : – L’accès sémantique aux données doit être simple

et « naturel ». Expérimentation nécessaire pour vérifier l’ « utilisabilité » des étiquettes sémantiques.

– Le mode d’interrogation doit être simple mais puissant. Trouver un compromis entre des formulaires peu

puissants et des expressions régulières indigestes. Proposer des requêtes préenregistrées pour permettre

l’interrogation par analogie.

Collocations

Architecture

► Ressources TAL

Page 21: Des corpus bilingues annotés sémantiquement pour laide à la rédaction: application aux collocations de la langue scientifique générale Olivier Kraif, Agnès

Conclusion

• Des techniques de TAL éprouvées (étiquetage morpho-syntaxique, automates d’états finis, alignement de textes bilingues) pourraient être exploitées facilement pour élaborer un outil d’aide à la rédaction.

• Une vérification manuelle des outils reste indispensable (mais est relativement peu coûteuse).

• L’ergonomie de l’interface utilisateur doit être prise sérieusement en compte. Moteurs de recherche Correcteurs orthographiques