patrick paroubek / limsi-cnrs Évaluation et traitement automatique des languesmardi 21 février...

99
trick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Langues mardi 21 février 2006 trick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Langues Patrick Paroubek aboratoire pour la Mécanique et les Sciences de l’Ingénieur Centre National de la Recherche Scientifique

Upload: cerf-gaillard

Post on 03-Apr-2015

119 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Patrick Paroubek / Limsi-CNRS

Évaluationet

Traitement Automatique des Langues

Patrick Paroubek Laboratoire pour la Mécanique et les Sciences de l’Ingénieur

Centre National de la Recherche Scientifique

Page 2: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

1. Le paradigme d’évaluation

2. Contrastes Historiques Europe / États-Unis

3. Le traitement de l’écrit

1. Annoter (Kappa) & Aligner (Prog. Dyn.) &Évaluer (Précision/Rappel)

2. Morphosyntaxe

3. Syntaxe

4. Remarque sur l’évaluation des systèmes de dialogue

Page 3: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

1. Le paradigme d’évaluation

Page 4: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Évaluation : subst fém.

Action d’évaluer, d’apprécier la valeur (d’un chose); technique, méthode d’estimation. [TLFI]

L’évaluation est "une formalisation" d’un processus de sélection naturelle.

L’évaluation est inhérente au processus scientifique.

Trouver une réponse (optimale) à un problème.

Comment comparer les réponses ?

L’évaluation nécessite l’adoption d’un système de valeurs.

Page 5: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

1) Qu’évalue t’on ? (identifier la frontière du système et la tâche effectuée par le système)

2) Évalue t’on un système ou un couple système-utilisateur ?

3) Par rapport à quel système de valeurs ?

4) Par rapport à quel objectif ? (réponse apportée par l’évaluation).

Rem. L’évaluation n’est pas une compétition (compétition = qui ? , évalution = comment ?)

Page 6: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

L’évaluation fait peur (sélection/compétition).

Le rapport ALPAC 1966 a engendré un arrêt des financements aux USA pour la Traduction Automatiquependant 20 ans. Mais ce qui est dangereux n’est pas l’évaluation, mais la manière dont on utilise ses résultats.

Par ex. une lecture abusive du livre de Minsky & Papert (Perceptrons) a retardé l’avènement des réseaux de neurones multi-couches d’une dizaine d’années.

Maghi King, « When is the next ALPAC report due? », 10th International Conferenceon Computational Linguistics, Proceedings of Coling84, July 1984, Stanford University,Ca (ACL 1984); p 352-353.

http://ourworld.compuserve.com/homepages/WJHutchins/Alpac.htm

Page 7: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Les campagnes d’évaluations sont un accélérateur duprocessus scientifique: ressources, outils, standards, infrastructure, synergie.

LDC (http ://www.ldc.upenn.edu) aux USA et ELRA/ELDA en Europe (http ://www.elra.org ou www.elda.info)

Objectif : créer, maintenir, distribuer, partager des ressourceslinguistiques.

LDC = Linguistic Data Consortium, consortium ouvert de laboartoires de recherche, univsertités, industriels et agences gouvernementales, fondé en 1992 (ARPA et NSF), hébergé à l’Université Pennsylvania.

Page 8: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

ELRA association à buts non lucratifs (loi 1901), basée au Luxembourg, fondée en février 1995.

ELDA, S.A. fondée en février 1995, instrument exécutif d’ELRA.Financement Européen initial, puis auto-financement.

Objectif: pérenniser/partager les ressources produites par les projets Européens, ainsi que produire de nouvelles ressources.

Impact de l’évaluation : Ex. Progrès en reconnaissance de Parole grace aux évaluationsDARPA aux USA qui ont amené la technologie sur le marché.

Page 9: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Compétition: 1 critère, ordre total, pas d’audit de performance, pas de reproductibilité

Validation : plusieurs critères, ordre partiel, seuil de performance, réponse oui/non, reproductibilité

Évaluation: plusieurs critères, ordre partiel, audit de performance, reproductibilité.

Page 10: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

ELSE distingue : 5 types d’évaluations:

ELSE: http: //www.limsi.fr/TLP/ELSE

Page 11: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

1. Évaluation en recherche de base, pour valider des idées nouvelles et quantifier leur apport,

2. Évaluation de technologie, mesure de la performance etde l’adéquation de méthodes pour résoudre un problèmebien défini, simplifié et abstrait,

3. Évaluation orientée utilisateur, utilisabilité d’une technologie pour résoudre un problème de terrain,en conditions réelles d’utilisation,

4. Évaluation d’impact, conséquences socio-économiquedu déploiement d’une technologie,

5. Évaluation de programme, évaluation d’impact destechnologies supportées par un programme institutionnel.

Page 12: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

« extrinsic » / « intrinsic » evaluation criteria,

Intrinsèque = critère lié uniquement à la fonction propre du système

Extrinsèque = critère lié à la fonction du système, considérée dans son environnement de déploiement usuel.

Karen Spark-Jones & Julia R. Galliers, « Evaluating Natural Language Processing Systems »,Springer, 1995.

Page 13: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

EAGLES distingue 3 types d’évaluation:

1. « adequacy » evaluation, adéquation d’un systèmepour une fonction donnée

2. « diagnostic » evaluation, identification des raisonsde dysfonctionnement

3. « progress » evaluation, mesure des progrès en performance

EAGLES : http: //www.issco.unige.ch/projects/ewg96/ewg96.html(evalutation of NLP systems : final report, )

Page 14: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Qualitative (morpholympics)

Quantitative (NIST/DARPA, Technolangue-EVALDA)

Comparative (NIST/DARPA, Technolangue-EVALDA)

Boîte « noire » (NIST/DARPA, Technolangue-EVALDA)

Boîte « blanche » (DISC)

Subjective (morpholympics)

Objective (NIST/DARPA, Technolangue-EVALDA)

Page 15: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Le paradigme d’évaluation (Joseph Mariani)

1. Assembler des acteurs (évaluateurs, participants, producteurs de ressources)

2. Organiser une campagne d’évaluation sur de données communes

3. Définir une mesure de performance commune

Joseph Mariani, Patrick Paroubek, "Human Language Technologies Evaluation in the European Framework", actes de l'atelier DARPA Broadcast News Workshop, Whashington, February 1999, Morgan Kaufman Publishers, ISBN-1-55860-638-6, pp 237-242

Page 16: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Une infrastructure pour l ’évaluation en ingéniérie linguistique :

1. Comparative & Collaborative

2. Tâche/Application Indépendente

3. Semi-Automatique & Reproduisible

4. Boîte Noire + Conférence

5. Quantitative

6. Multilingue

7. Oral & écrit

Page 17: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Actors in the infrastructure

European CommissionELRA

ParticipantsEvaluators

Users & Customers

(EU / non EU)

L. R. Producers

Research Industry Citizens

Page 18: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Attentes:

1. Renforcement de l’utilisation des standards

2. Des informations et des connaissances sur les applications et les technologies disponibles de meilleur qualité et plus abondantes

3. Des produits et des ressources de meilleurs qualité

4. Un accroissement de la quantité de ressources linguistiques annotées et validées

Page 19: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Structure d’une campagne

1. Phase 1 - Développement (distribution calibrage / données d’entrainement)

2. Phase 2 - Essais + première Adjudication (+ Conférence/Atelier)

3. Phase 3 - Tests + seconde Adjudication + Conférence/Atelier

4. Phase 4 - Valorisation (distribution des données produites et des résultats)

5. Phase 4 - Étude d ’Impact

Page 20: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

La tâche de contrôle

1. La fonction de traitement du language doit être facile a comprendre

2. Elle peut être réalisée manuellement

3. Il peut s’agir d’une tâche « artificielle »

4. Il existe un formalisme commun, facilement accessible (projection/transcodage aisé)

5. Il est « facile » de définir une mesure de performance

Page 21: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

2. Contrastes Historiques Europe / États-Unis

Page 22: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Contexte international

1. États-Unis1. Campagnes d ’évaluation NIST - DARPA

1. Depuis 1987, ouvertes en 19922. Ecrit / Oral3. Production / distribution des ressources (LDC)4. Organisation des campagnes (NIST)

2. Traitement du Langage Parlé1. Dictée Vocale (RM, WSJ, NAB)2. Compréhension de la langue parlée (ATIS)3. Transcription infos radio/télédiffusées (BN)4. Reconnaissance de conversations (switchboard)5. Reconnaissance du locuteur6. Reconnaissance de la langue parlée

Page 23: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Page 24: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Contexte international

1. États-Unis1. Traitement du Langage Écrit

1. Recherche d’Informations Textuelles (TREC)2. Compréhension de Messages (MUC)3. Traduction Automatique

2. Traitement du Langage Écrit + Parlé1. Extraction d’Entités Nommées (dans BN)2. Détection et Suivi de Thèmes (TDT) (dans BN)

3. Reconnaissance de caractères etc...

Page 25: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Évaluation aux USA (Parole)

1. CSR (DARPA) read & found english, 89-97

2. LVCSR conversationel, multilingue

3. ATIS (DARPA)

4. DARPA/NSF en 1998 (multilingue):

1. Extraction d ’entité nommées

2. Détection et suivit de thèmes

3. Transcription de nouvelles

4. COMMUNICATOR

Page 26: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Patrick Paroubek / Limsi-CNRS

Traitement Automatique des Langues et Industrie de la Langue

Évaluation (USA)

COMMUNICATOR dialogue oral pour la réservation de transport, l’hébergement et planification d’itinéraire

TIDES extraction d’information interlingue, traduction et résumé automatique

Page 27: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Patrick Paroubek / Limsi-CNRS

Traitement Automatique des Langues et Industrie de la Langue

Évaluation (USA)

AQUAINT (Defense Ministry) programme de l’ ARDA, extraction d'information étendue en amont et en aval sur des données multimodales, pour incorporer des connaissances à des données factuelles du types de celles manipulées dans les évaluations TREC

ITR (NSF) recherche en technologie de l'information)

Page 28: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Patrick Paroubek / Limsi-CNRS

Traitement Automatique des Langues et Industrie de la Langue

Évaluation (USA)

SYMPHONY (DARPA) suite de COMMUNICATOR et dont les objectifs sont : la reconnaissance de la parole robuste en milieu bruité, le compte rendu automatique de réunion, la fusion de données multimodales, l'interprète automatique, les interfaces homme-machine dialogiques, la traduction automatique (déjà présente dans le programme TIDES), et l'exploitation rapide et automatique de langues nouvelles

Page 29: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Évaluation aux USA (écrit)

1. Tipster program (DARPA & NIST)

2. MUC-1 (1987) to MUC-7 (1998)

3. MET-1 (1995) and MET-2 (1998)

4. TREC-1 (1992) to TREC-7 (1998)

5. SUMMAC

6. MT Evaluation (1992, 1993, 1994)

Page 30: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Patrick Paroubek / Limsi-CNRS

Traitement Automatique des Langues et Industrie de la Langue

Évaluation (USA)

Les directions de recherche favorisées par le DARPA:

les technologies robustes à large couverture,les technologie de base largement réutilisables, la multilingualité, le partage des données ( LDC)les corpus arborés (U. Penn)

les évaluation comparatives supportées par des métriques quantitatives,

les expériences d'intégration et de faisabilitéL’objectif à plus long terme étant la compréhension du langage

Page 31: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Contexte international1. Japon, National Institute of Informatics

(http ://www.nii.ac.jp)1. Research Center for Information Ressources (test collection for IR

systems) 2. Research Center for Testbeds and Prototyping

(scholarly information retrieval)

2. Cocosda / Oriental Cocosda(International Committee for the Coordination andStandardisation of Speech Databases and Assesment Techniques)

3. Conférences :1. HLT workshop 02, 03, 04, 062. LREC conference  98, 00, 02, 04, 063. LangTech conference 02, 03,

Page 32: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Évaluation en Europe

EAGLES

TSNLP

DIET

TEMAA

SQALE

SPARKLE

DISC

MATE

COCOSDA

SAM & SAM-A

Morpholympics

Actions de recherche concerté de l’AUPELF

GRACE (CNRS)

VerbMobil

Page 33: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Pilot Senseval / Romanseval

Task: Word Sense Disambiguating (Senseval/English) 20 nouns, 20 adjectives and 20 verbs Romanseval, same task in French & Italian. 8 month (December 1997 - September 1998) 35 teams interested / 21 systems evaluated Senseval: FR, USA, IT, UK, CH, KO, MA, CA, SP, NL Romanseval: FR, IT, CH Budget :61 KEuros(English) Data, hardware and computing for free. Evaluatees not funded.

Page 34: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

SQALE Project

Duration 1993 to 1995. Evaluation of 3 different ASR 3 languages + 1 common (Fr., Germ., UK Eng. + US Eng.) TNO-IZF (NL), Philips (D), U. Cambridge (UK), Limsi-

CNRS (F) Task: dictation of newspaper texts Result: If a system is better on the common language than

another system, it will also be better on its own language. Comparison with human performance was studied.

Page 35: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

DISC Project

Reference methodology for SLDS development. Best practice development and evaluation (existing

components & procedures) Results: Guidelines and Heuristics 2 Guiding principles: Grid Aspects of SLDS components

and Development Lifecycle of SLDS 7 Participants: NIS (DK), LIMSI (F), IMS (D), KTH (S),

Vocalis (UK), D-Benz (D), ELSNET (NL) Duration: 1 year (1998) Follow-up: DISC-2 (January 1999) information update,

packaging, access and usability

Page 36: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

DISC Project

Page 37: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

EAGLES Evaluation WG

EAGLES was launched in 1993 Aim: standards for NLP technology (including evaluation) Eval. working group started from ISO 9126 (software) User-oriented methodology (consumer report paradigm) for adequacy evaluation or progress evaluation Formalism (based on feature structures) for classifying

products and users. Case studies on: spelling checkers (LRE-TEMAA),

grammar checkers and translators’ aids. Follow-up: EAGLES-II (1995-1998), consolidate, extend

and disseminate EAGLES results.

Page 38: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

ELSE Project

Evaluation in Language and SpeechEngineering 8 partners: MIP (DK), LIMSI (FR), DFKI (D), U. Pisa (I),

EPFL (CH), XRCE (FR), U. Sheffiel (UK), CECOJI (FR)+ ELSNET & ELRA

Duration: January 1998 - April 1999. Budget: 414 KECU Draw a blueprint for an evaluation infrastructure (IST Key

Actions of FP5 ?) Evaluation Paradigm: contrastive quantitative Technology

Evaluation.

Page 39: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Actors in the infrastructure

European CommissionELRA

ParticipantsEvaluators

Users & Customers

(EU / non EU)

L. R. Producers

Research Industry Citizens

Page 40: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Patrick Paroubek / Limsi-CNRS

Traitement Automatique des Langues et Industrie de la Langue

Évaluation (Europe)

EAGLES TSNLP DIET TEMAA SQALE SPARKLE DISC MATE

COCOSDA SAM & SAM-A Morpholympics Actions de recherche

concerté de l  ’AUPELF

GRACE (CNRS) VerbMobil ELSE

Page 41: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Patrick Paroubek / Limsi-CNRS

Traitement Automatique des Langues et Industrie de la Langue

Évaluation (Europe)

CLASS EvaluationURL: http: //www.limsi.fr/TLP/CLASS

Disponibles sur le site : Actes de LREC2000 CLASS atelier satellite sur l’évaluation.

1. Actes de EACL 2OO1, Toulouse, atelier « Evaluation for Language & Dialog Systems »

2. Présentations du Bullet Course on the paradigm of Evaluation in Speech and Language, Juillet, Paris 02 et 032001.

Page 42: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Patrick Paroubek / Limsi-CNRS

Traitement Automatique des Langues et Industrie de la Langue

Évaluation (Europe)

CLEF: recherche d’information interlingue

SENSEVAL: désambiguïsation sémantique

SMARTKOM: nouveau projet allemand.

TCSTAR technologie pour interprète automatique

ECOM (ELRA) évaluation

Page 43: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

FRANCIL Program

Created : June 1994

Coordinator: J. Mariani, F. Néel

Networking (70 laboratories, 9 countries)

Training

Collaborative Research Actions (ARP)

Strategic Research Actions (ARC)

Budget: 4 Meuro / 4 years - 2 Meuro ARC

Page 44: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

ARC

Use of the evaluation paradigm for accompanying research :Infrastructure for evaluation (protocols, metrics,

organization...)Language Resources for systems development and

evaluationDiscussion of the advantages and disadvantages of

different approaches based on objective evaluation conducted on common data

Written and spoken language

Page 45: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

ARC ILEC (Written Language)

Language Resources for written French language and system evaluation:A1 (Amaryllis): Natural Language Access to

textual information

A2 (Arcade): (Bi/Multi)lingual (French-English) corpus alignment

A3: Automated terminological database design

A4: Text understanding

Page 46: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

ARC ILOR (Spoken language)

• Language Resources for spoken French language and system evaluationB1: Voice Dictation (large vocabulary

recognition)

B2: Vocal Dialog

B3: Text-to-Speech synthesis

Page 47: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

ARC: Calendar & Budget

Call for proposals in July 1994, selection in November 1994 of 50 proposals (34 labs) out of 89 proposals.

2 evaluation campaigns of a two year time span (1996-1997 and 1998-1999)

Total budget (6 ARCs) = 2 Meuros ( 4 years) 167 Keuros / campaign / control task (1 evaluator, ~ 7 evaluatees, 3 different countries)

Page 48: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

CNRS CCIIL GRACE Action

Control Task: POS tagging for French. Corpora: Train.= 10 Mw, D.R.= 450Kw, T.= 650 Kw Call for tenders November 1995. Training January 1996. Dry run October 1996. Workshop (JST April 1997). Tests December 1997. Workshop in May 1998. First results disclosed on the WEB in November 1998. 18+3 participants, 5 countries (CA, USA, D, CH, FR). Budget 800 Keuros Byproducts: eval. results, com. prod., 1 Mw valid. corpus

Page 49: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

TechnoLangue

Programme d’infrastructure en soutien à la R&D, la R&D restant dans les RRIT et le programme spécifique« Veille »

TECHNOLANGUE

RNRT RNTL RIAM VSE

Page 50: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Page 51: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Programme d’évaluation TECHNOLANGE:

EVALDA

ARCADE II alignement de documentsCESART acquisition de terminologieCESTA traduction automatiqueEASy analyse syntaxiqueEquer Question-RéponsesESTER transcription émission radioEvasy Synthétiseur de parole françaisMEDIA compréhension du dialogue

Page 52: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Le traitement de l’écrit

1. Annoter (kappa et segmentation)2. Aligner (Programmation Dynamique)3. Évaluer (Précision/Rappel)4. Morphosyntaxe (GRACE)5. Syntaxe (EASY)

Page 53: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Le (coefficient) Kappa est une mesure permettant de quantifier la plus ou moins grande similarité entre deux systèmes d’annotation (accord inter-annotateur).

Le kappa est fréquemment utilisée en TALN.

Il a été défini par [Cohen 1960].

Le principe est de relativiser la valeur effectivement observée pour le taux d’accord en la rapportant à celle qui aurait été obtenue en comparant deux systèmes affectant les étiquettes de façon aléatoire dans les mêmes proportions que les systèmes effectivement comparés.

Page 54: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Barbara Di Eugenio and Michael Glass (2004). The kappa statistic: A second look. Computational Linguistics, 30(1):95-101.

Véronis, J. (1998a). A study of polysemy judgements and inter-annotator agreement. Senseval workshop, 2-4 Sept. 1998. Herstmonceux Castle, England.

Bruce, R., Wiebe, J. (1998). Word sense distinguishability and inter-coder agreement. Proceedings of the 3rd Conference on Empirical Methods in Natural Language Processing (EMNLP-98). ACL SIGDAT, Granada, Spain, June 1998.

Carletta, J. (1996). Assessing agreement on classification tasks: the kappa statistics. Computational Linguistics, 22(2), 249-254.

Page 55: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Jones, A. P., Johnson, L. A., Butler, M. C., & Main,D. S. 1983. Apples and oranges: An empirical comparison of commonlyused indices of interrater agreement. Academy of Management Journal,26(3): 507-519.

Davies, M., Fleis, J. L. (1982). measuring agreement for multinomial data. Biometrics, 38, 1047-1051.

Brenann, R. L. & Prediger, D.J. (1981). Coefficient Kappa : Some uses,misuses and alternatives. Educational and Psychological Measurement,4, 687-699.

Hubert, L. 1977. Kappa revisited. Psychological Bulletin, 84(2):289-297.

Page 56: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Landis J.R.; Koch G.G. (1977) The measurement of observer agreement for categorial data. Biometrics 45:255-268

Fleiss, J. L.; Cohen, J.; and Everitt, B. S. Largesample standard errors of kappa and weighted kappa. Psychological Bulletin 72 (1969): 323-327.

Cohen, J. (1960) A coefficient of agreement for nominal scales.Educational and Psychological Measurements 20(1): 37-46.

Page 57: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

1. qualifier « l’indépendance » de 2 annotations (o/n)2. quantifier l’accord de 2 annotations

Pour (1) pas de pb, mais pour (2) hypothèse d’indépendance des annotateurs suscite des questions

Valeurs de kappa, accord [Landis & Koch, 77]: 0.21 - 0.40 faible 0.41 - 0.60 modéré 0.61 - 0.80 substantiel (poser des hypothèses) 0.81 - 1.00 presque parfait (les vérifier)

Page 58: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

K = (P(A) - P(E) ) / (1 - P(E))

P(A) = probabilité d’accord mesurée

P(E) = probabilité estimée d’un accord du au hasard

- V

- 45 4

V 15 301

A1 A2 365 occurrences de la forme « est » annotées par 2 systèmes en V (verbe) ou autre (-)

Page 59: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Kappa = 0.7, en estimant les probabilités par la fréquenceavec la loi des grands nombres (risque 5%) et en supposantles annotations indépendantes.

…001061 V 001061 V001111 V 001111 V001122 - 001122 –001206 - 001206 –001214 V 001214 V001284 V 001284 V001398 V 001398 V001451 V 001451 –…

Page 60: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

En TALN, analyser c’est de manière générale :

1. Segmenter (par ex. frontières de mots)2. Identifier ( par ex. lister les étiquettes morpho-

syntaxiques possibles)3. Désambiguïser, éventuellement (par ex. choisir la

bonne étiquette morpho-syntaxique)

Le problème est circulaire!

A la base: Qu’est-ce qu’un mot ?Importance en TALN du choix des unités élémentaires,

les (tokens).

Page 61: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

0 I Nkms

1 où Pr-mp--

2 l Pp3msn-/1.3

3 ' Pp3msn-/2.3

4 on Pp3msn-/3.3

5 commence Vmip3s-

6 à Sp

7 ne Rpn

8 pas Rgn

9 comprendre Vmn----

10 ce Pd-ms--

11 n Rpn/1.2

12 ' Rpn/2.2

13 est Vmip3s-

14 pas Rgn

15 sans Sp

16 une Da-fs-i

17 certaine Ai-fs

18 émotion Ncfs

19 que Pr-fs--

20 je Pp1msn-

Page 62: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Nombre de mots en fonction du participant (GRACE)

Page 63: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Nombre de phrases en fonction du participant (GRACE)

Page 64: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Outil d’alignement acquis de l’évaluation de l’oral pour lequel beaucoup de travail a été fait sur la mesure fondamentale en transcription de parole, le taux d’erreur de transcription (Word Error Rate). La meilleur mesure (fidélité) : mesure du nombre d’insertions, de suppressions et de substitutions.

[J. Makhoul and F. Kubala and R. Schwartz and R. Weischedel, Performance measures for information extraction, Proceedings of DARPA Broadcast News Workshop, 1999, Herndon, VA, February,

http ://citeseer.ist.psu.edu/makhoul99performance.html]

Page 65: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Cette mesure repose sur le réalignement des données produites par un système avec la transcription de référence au moyen de l’algorithme de Programmation Dynamique (réalignement optimal, minimum de distortions introduites)

DP utilise une métrique de Levenshtein (ou distance d'édition de Seller) [allison90]

L. Allison and C. S. Wallace and C. N. Yee,When is a String Like a String?, Proceedings of International Symposium on Artificial Intelligence in Mathematics (AIM)},1990,Ft. Lauderdale, Florida, January,

http ://www.csse.monash.edu.au/~lloyd/tildeStrings/Alignment/90.AIM.html

Page 66: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Fonction de coût :c( x, x )=0 // annotation correctec( vide, x )=3 // insertionc( x, vide )=3 // omissionc( x, y )=4 // substitution

Soit la matrice M(i,j), 0<i<L, 0<j<N, représentant le coût de l'alignement des sous-sequences hypothèse h(j) sur la sous-séquence de référence r(i)

M(0,0) = 0 // condition limiteM(0,j) = M(0, j-1) + c( vide, h(j) ) // condition limite, insertionM(i,0) = M(i-1, 0) + c( r(i), vide) ) // condition limite, omissionM{i,j) = min( (M(i-1, j-1d) + c( r(i), h(j))), // correcte ou substitution (M(i-1, j) + c( r(i), vide )), // omission (M(i, j-1) + c( vide, h(j) ))), // insertion

Page 67: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

La somme des coûts d'une insertion (3) et d'une délétion (3) est supérieur au coût d'une substitution (4), on utilisera donc de préférence des substitution à la place de paires insertion-omission, qui seront présentes uniquement pour réaligner les deux flux de données .

L'alignement est obtenu en identifiant dans la matrice M(i,j) le chemin de coût minimal, allant de M(L,N) à M(0,0).

Pour l'oral, le résultat de l'évaluation pour un tour de parole est donné par le décompte des nombres d'insertion, d'omission et de substitution, pondéré par le nombre de mots présents dans la référence . [Makhoul et al. 99]

Page 68: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

000000 Au DTC:sg000001 cours SBC:sg000002 de PREP

000000 Au Sp+Da-ms-d000001 cours Ncfs|Ncms000002 de Da----i|Da-fp-i|Da-mp-i|Sp

Alignement (15 systèmes différents pour les tests)

Projection des étiquettesdans le jeu GRACE

000000 Au Sp/1.3 6/14[0.428571]000001 cours Ncms|Sp/2.3 6/15[0.4]000002 de Sp 7/13[0.538462]

CombinaisonVote &mesure deconfiance

P.Paroubek / Limsi-CNRSTALANA 24/01/2001

Page 69: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Des mesures d’évaluation des annotations issues de l’IR : Précision et Rappel

nbr de paires correctes ( mot-annotation ) hypothèseRappel = nbr total de paires (mot-annotation) référence

Si la référence n’est pas ambigue (souvent), alors :rappel = proportion d’annotations contenant au moins une annotation correcte

nbr de paires correctes ( mot-annotation ) hypothèsePrécision = nbr total de paires (mot-annotation) hypothèse

Si ni la référence, ni l’hypothèse ne sont ambigues alors : Précision = Rappel

Page 70: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

P.Paroubek / Limsi-CNRSTALANA 24/01/2001

GRACE, évaluation d'étiquettage morphosyntaxique pour le français, 21 participants, 5 pays:

3 phases: entrainements (10 millions de mots),essais (450.000), test (836.500)

17 participants aux essais, 13 participants aux tests finaux

mesure précision/décision, sur 20.000 mots, puis 40.000 mots.étiquettes EAGLES et MULTEXT

Page 71: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

•Meilleur (P, Dmax): score( P, D ): (0.948489 , 1.000000) intervalle[Pmin, Pmoy, Pmax]: [0.948489 , 0.948489 , 0.948489 ]

• Meilleur P: score( P, D ): (0.978802 , 0.256331) intervalle[Pmin, Pmoy, Pmax]: [0.251084 , 0.404534 , 0.952951 ]

•Vote 15 systèmes: score( P, D ): (0.936202 , 0.961558) intervalle[Pmin, Pmoy, Pmax]: [0.903685 , 0.917102 , 0.933155 ]

•Vote 5 meilleurs P: score( P, D ): (0.966567 , 0.928952) [Pmin, Pmoy, Pmax]: [0.902195 , 0.925850 , 0.961424 ]

P.Paroubek / Limsi-CNRSTALANA 24/01/2001

Page 72: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

P.Paroubek / Limsi-CNRSTALANA 24/01/2001

Page 73: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

P. Paroubek / Limsi-CNRS

Annotation Morpho-syntaxique

27 / 03 / 01

Page 74: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

000000 Au Sd{1}|Sd/1.3{2}|Sp{1}|Sp+D[ad]-ms-d{1}|Sp+Da-ms-d{5}|Sp/1.2{1}|Sp/1.3{6}|Sp/1.4+Sp/2.4{1}

000001 cours Ncfp{3}|Ncfs{1}|Ncmp{2}|Ncms{6}|Sd/2.3{2}|Sp/2.2{1}|Sp/2.3{6}|Sp/3.4{1}|Vmip1s-{2}|Vmip2s-{2}|Vmmp2s-{2}

000002 de Da----i{3}|Da-fp-i{2}|Da-mp-i{3}|Di-fp--{1}|Di-fs--{1}|Di-mp--{1}|Di-ms--{1}|Sd/3.3{2}|Sp{7}|Sp/3.3{6}|Sp/4.4{1}

Apprentissage Automatique / Combiner plusieurs méthodes pour améliorer les résultats Ada Boost (Schwenk, 1999), cascade de sytèmes similaires pour la reconnaissance de parole.

Plus loin dans le temps, stratégie du Winner Take All compétition en unités similaires de traitement (Simpson 1990)

P.Paroubek / Limsi-CNRSTALANA 24/01/2001

Page 75: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Combiner pour améliorer NIST, reconnaissance de la parole

ROVER - Recognizer Output Voting Error Reduction (Fiscus 1997)

Sytème composite, meilleur performance que le meilleur des systèmes.

Graphe de mot (alignement), vote à majorité (pondéré par la fréquence maximale d'occurence et un score de confiance).

Réduction d'erreur mesurée par Fiscus: 5,6 % en absolu (et 12,5% en relatif).

Principe de combinaison de systèmes utilisé par Marquez & Prado 1998 (combinaison de 2 étiquetteurs pour marquer un corpus)

Tufis 1999 (plusieurs versions du même système entraîné sur des données différentes)

P.Paroubek / Limsi-CNRSTALANA 24/01/2001

Page 76: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Phase 1: 38643 formes (4 % des 836500 formes) relues pour la catégorie et la sous-catégorie

Phase 2: 64061 formes (8 % des 836500 formes) relues pour les indications de genre, nombre et personne

Validation: selection aléatoire de 511 formes, 53 formes identifiées commes douteuses (pas de décision de vote); 27 d'entres elles n'étaient pas correctement étiquettées (erreur de relecture, ou erreur ou ambiguité résiduelle; traits autres que G, N, P), c.a.d. env. 50 % (+-13% avec risque 95%)

Inversement sur 458 formes qui n'étaient pas à relire, seules 10 étaient mal étiquettées, ce qui représente un taux d'erreur résiduelle de 2,18% (+-1.34% avec risque 95%)

P.Paroubek / Limsi-CNRSTALANA 24/01/2001

Page 77: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

CONCLUSION

La campagne GRACE et l'expérience MULTITAG ont prouvé que le paradigme d'évaluation peut servir à produire de manière économique des ressources linguistiques validées de qualité.

La généralisation à d'autre tâches de contrôle permet d'augmenter rapidement la quantité de données annotées et validées tout en permettant de déployer le paradigme d'évaluation plus avant.

P.Paroubek / Limsi-CNRSTALANA 24/01/2001

Page 78: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

1. La campagne EASY

2. Annotations pour l’analyse syntaxique

3. Les données

4. Les résultats préliminiaires

Page 79: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

•France Telcom R&D

• GREYC

•INRIA (ATOLL 1,2)

•LATL

•LIC2M

•LIRMM

•LORIA

• XEROX

•LPL (1,2 & 3)

•PERTIMM

•SYNAPSE

•ERSS

•TAGMATICA

Objectif: évaluation d’analyse syntaxique

5 fournis. corpus, 13 participants, 16 systèmes évalués

Page 80: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

• ATILF (littéraire)

•DELIC (oral transcrit, emails)

•ELDA (oral ESTER, MLCC, sénat, questions TREC traduites, questions Amaryllis, web)

•LLF (Le Monde)

•STIM (médical)

Les fournisseurs de corpus :

Il arrive en retard, avec, dans sa poche, un discours qu’il est obligé de garder.

Page 81: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

1. GN groupe nominal

2. GP groupe prépositionnel

3. NV noyau verbal

4. GA groupe adjectival

5. GR groupe adverbial

Guide d’annotation (A. Vilnat) : http://www.limsi.fr/Recherche/CORVAL/easy/PEAS_reference_annotations_v1.6.html

5 types de constituants

Page 82: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

1. Sujet - Verbe

2. Auxiliaire - Verbe

3. Objet direct - Verbe

4. Complément - Verbe

5. Modifieur – Verbe

6. Complémenteur

7. Attribut -Sujet/Objet

8. Modifieur - Nom

9. Modifieur - Adjectif

14 types de relations

10.Modifieur – Adverbe

11.Modifieur – Préposition

12.Coordination

13.Apposition

14.Juxtaposition

Page 83: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Outil d’annotation : éditeur HTML + conversion XML (I. Robba)

Annotation manuelle en constituants Énoncé 1En quelle année Desmond Mpilo Tutu a-t-il reçu le prix Nobel …

Énoncé 1GP1 GN 2 NV3 NV4 GN5 En quelle année Desmond Mpilo Tutu a-t-il reçu le prix Nobel …

Et en relations etc…

1 2 3 4 5 6 7 8 8 9 10 11

sujet verbe GN2   F7 

 F8  F7

Page 84: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

•Énoncé 12NV1 GN2 NV3 GR4 GA5Je pense que monsieur est très inquiet .

1 2 3 4 5 6 7 8

COD Verbe

NV 3 NV1

Complémenteur NV prop. sub.

NV 3 NV1

Représentation interne des données au format XML / UTF8 (DTD EASY).

Page 85: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Outils de validation : •éditeur graphique (E. Giguet)

Page 86: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Les données ont été fournies aux participants :

•Brut•Segmentées en énoncés•Segmentées en mots et en énoncés•Segmentées en mots et en énoncés et annotées morphosyntaxiquement (WinBrill + étiquettes GRACE)

Corpus de test annoté par les participants : 769 154 formes 40 260 énoncésCorpus de mesure : 83 925 formes 4 269 énoncés

Page 87: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Web 16 786 836 2 104 77

Journal 86 273 2 950 10 081 380

Parlement 81 310 2 818 8 875 298

Littéraire 229 894 8 062 24 236 881

email 149 328 7 976 9 243 852

médical 48 858 2 270 11 799 554

Oral man. 8 106 522 8 106 522

Oral auto 97 053 11 298 5 365 502

Questions 51 546 3 528 4 116 203

Formes Enoncés Formes Enoncés

Corpus de test Corpus de mesure

Genre

Page 88: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Les énoncés sont définis à partir de la typographie au moyen d’expressions régulières.

Les formes sont définies avec ces mêmes expressions et avec une liste pour les formes composées (non nominales).

Les données DELIC ont été segmentées en énoncé manuellement (manque de ponctuation).

Toutes les autres données ont été segmentées automatiquement avec les outils EASY

Page 89: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

a_contrario Rgp A_contrario Rgp à_contre-pied Rgp À_contre-pied Rgp à_côté_d' Sp À_côté_d' Sp à_côté_de Sp À_côté_de Sp à_côté_des Sp À_côté_des Sp à_côté_du Sp À_côté_du Sp à_coup_sûr Rgp À_coup_sûr Rgp à_court_terme Rgp

Liste des formes composéespour la segmentation de référence.

1730 formes

38 Adjectifs 218 Conjonctions 8 Interjections 184 Déterminants 128 Pronoms 626 Adverbes 528 Prépositions 2 Prepositions ou Adverbes

Page 90: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

<DOCUMENT fichier="oral_delic_1.xml"><E ID="E1"><F ID="E1F1">fref-f-c3</F></E><E ID="E2"><F ID="E2F1">voilà</F></E><E ID="E3"><F ID="E3F1">ben</F><F ID="E3F2">je</F><F ID="E3F3">travaille</F><F ID="E3F4">dans</F><F ID="E3F5">un</F><F ID="E3F6">pressing</F></E>

Page 91: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

<DOCUMENT fichier="oral_elda_1.xml"><E ID="E1"><F ID="E1F1">14</F><F ID="E1F2">heures</F><F ID="E1F3">À </F><F ID="E1F4">Paris</F><F ID="E1F5">,</F><F ID="E1F6">midi</F><F ID="E1F7">en</F><F ID="E1F8">temps</F><F ID="E1F9">universel</F><F ID="E1F10">,</F><F ID="E1F11">l'</F><F ID="E1F12">information</F><F ID="E1F13">continue</F><F ID="E1F14">sur</F><F ID="E1F15">RFI</F><F ID="E1F16">.</F></E>

Page 92: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

<?xml version="1.0" encoding="UTF-8"?><DOCUMENT fichier="\Oral Elda\oral_elda_1EASY.UTF8.xml" xmlns:xlink="http://www.w3.org/1999/xlink"><E id="E1"><constituants><Groupe type="GN" id="E1G1"> <F id="E1F1">14</F> <F id="E1F2">heures</F></Groupe><Groupe type="GP" id="E1G2"> <F id="E1F3">à</F> <F id="E1F4">Paris</F></Groupe> <F id="E1F5">,</F><Groupe type="GN" id="E1G3"> <F id="E1F6">midi</F></Groupe><Groupe type="GP" id="E1G4"> <F id="E1F7">en</F> <F id="E1F8">temps</F></Groupe><Groupe type="GA" id="E1G5"> <F id="E1F9">universel</F></Groupe> <F id="E1F10">,</F><Groupe type="GN" id="E1G6"> <F id="E1F11">l'</F> <F id="E1F12">information</F></Groupe><Groupe type="NV" id="E1G7"> <F id="E1F13">continue</F></Groupe>

ANNOTATIONS EN CONSTITUANTS

Page 93: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

<Groupe type="GP" id="E1G8"> <F id="E1F14">sur</F><F id="E1F15">RFI</F></Groupe> <F id="E1F16">.</F><F id="E1F17">§</F></constituants><relations><relation xlink:type="extended" type="MOD-N" id="E1R2"><modifieur xlink:type="locator" xlink:href="E1G4"/><nom xlink:type="locator" xlink:href="E1F6"/><a-propager booleen="faux"/></relation><relation xlink:type="extended" type="SUJ-V" id="E1R3"><sujet xlink:type="locator" xlink:href="E1G6"/><verbe xlink:type="locator" xlink:href="E1G7"/></relation><relation xlink:type="extended" type="CPL-V" id="E1R4"><verbe xlink:type="locator" xlink:href="E1G7"/><complement xlink:type="locator" xlink:href="E1G8"/></relation><relation xlink:type="extended" type="MOD-N" id="E1R5"><modifieur xlink:type="locator" xlink:href="E1G5"/><nom xlink:type="locator" xlink:href="E1F8"/><a-propager booleen="faux"/></relation><relation xlink:type="extended" type="MOD-N" id="E1R6"><modifieur xlink:type="locator" xlink:href="E1F1"/><nom xlink:type="locator" xlink:href="E1F2"/> <a-propager booleen="faux"/> </relation> </relations> </E>

ANNOTATIONSEN RELATIONS

Page 94: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Mesures de précision et rappel :

• par participant,• type de constituant,• par type de corpus.

Mesures strictes (égalité stricte des adresses) et relachement de contrainte sur les adresses de début et de fin de groupes (+/-1).

Pour les relations, sugérnération pour certaines relation de la référence (modifieur nom-adjectif intra groupe).

Page 95: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Evaluation en constituants pour 12 systèmes(prec., rap., f-mes., et les mêmes en mode relaché)

Page 96: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Evaluation préliminaire en relations pour 11 systèmes sur sénat, mlcc et littéraire1.

Page 97: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

5. Les systèmes de dialogue

Page 98: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Pour les systèmes de dialogue oral (SLDS), 2 points essentiels:-évaluation de possible sous de nombreux aspects ( variété des fonctionalités/module, cf figure suivante)- problème : comment décorréler les facteurs humains (ergonomie) et les aspects propres à l’application réalisée(ex. réservation) de ceux liés au traitementdu dialogue proprement dit

Page 99: Patrick Paroubek / Limsi-CNRS Évaluation et Traitement Automatique des Languesmardi 21 février 2006 Patrick Paroubek / Limsi-CNRS Évaluation et Traitement

Patrick Paroubek / Limsi-CNRS

Évaluation et Traitement Automatique des Langues mardi 21 février 2006

Patrick Paroubek / Limsi-CNRS

Architecture générique d’une application de dialogue oral