1 veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe,...

43
1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées, en arabe et en français Motasem Alrahabi Université de Paris-Sorbonne LaLIC (Langages, Logiques, Informatique et Cognition) Lyon, 26 et 27 mars 2010

Upload: toussaint-bruyere

Post on 03-Apr-2015

108 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

1

Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais)

Annotation automatique des citations catégorisées,

en arabe et en français

Motasem Alrahabi

Université de Paris-SorbonneLaLIC (Langages, Logiques, Informatique et Cognition)

Lyon, 26 et 27 mars 2010

Page 2: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

2

Importance des citations

Page 3: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

3

Importance des citations

● Intérêt grandissant :● En linguistique: Modalités, médiatif, prise en charge, dialogisme,

polyphonie, autonymie, classification des verbe, typographie...

● En TAL : [Mourad 2001), [Krestel et al., 2008], InQuotes de Google, [Pouliquen et al., 2008], [Audebert et al., 2009], [De la Clergerie et al. 2009]...

● En veille : savoir ce qui a été dit, éventuellement de manière « précise ».

Page 4: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

4

La presse

Page 5: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

5

La presse

Page 6: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

6

La presse

Page 7: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

7

La presse

Page 8: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

8

La presse

Page 9: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

9

La presse

Page 10: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

10

La presse

Page 11: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

11

La presse

Page 12: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

12

Notre approche : Les citations catégorisées

Page 13: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

13

Notre approche : Les citations catégorisées

● Différents types de discours rapporté :● DR direct ou indirect, DR indirect libre, DR nominalisé,

conditionnel journalistique, DR hybrides (ilôts textuels, style direct introduit par que...) [Rosier, 1999]

● Principes [Alrahabi et Desclés, 2009]● Définir les citations

● Catégoriser les citations identifiés selon les modalités de prise en charge énonciatives

● Cadre d'analyse : linguistique de l'énonciation

● Traitement en différentes langues (français et arabe)

Page 14: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

14

Les citations catégorisées

● L'énonciateur peut rapporter un discours de trois manière (au moins):

● En rapportant à un locuteur un acte explicite :

– Locution (X dit...), Interlocution (X informe Y...)...

● En rapportant à un locuteur un propos, par un acte de « réception »

– J'ai entendu...

● En rapportant à un locuteur un acte de locution implicite

– Selon X...

Page 15: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

15

Les citations catégorisées

Page 16: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

16

Les citations catégorisées

● Analyser les marqueurs dans la formule introductrice d'une citation :

● ≈ 600 marqueurs pour le français et 700 marqueurs pour l’arabe

● Deux types de marqueurs :● Les « Introducteurs » : acte de locution (déclarer, selon,

affirmation, en ajoutant...)

● Les « Modalisateurs » : marqueurs de modalités énonciatives (franchement, mensonge, ennuyeux, aborder, encourager...)

● Différentes catégories lexicales :● verbes, noms, gérondifs, adverbes, locutions adverbiales...

Page 17: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

17

Les citations catégorisées

● Carte sémantique du DR-D :● Modalités de prise en charge

– Engagement (assertion), simple énonciation, désengagement (médiatif), rumeur, opinion, distance...

● Deux niveaux : énonciateur et locuteur

● Deux types de marqueurs : introducteurs et modalisateurs

● Multilinguisme

– Arabe, français [Alrahabi et Desclés, 2008]

– Coréen [Alrahabi, Suh et Desclés, 2010]

Page 18: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

18

Carte sémantique

Page 19: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

19

Exemple de catégorie (I)

● Simple énonciation :● Il s’agit d’une énonciation négociable entre l’énonciateur et le co-

énonciateur

● Schème énonciatif :

● JE-DIS (X-DIT(ce qui est dit))

● Exemples (dire, ajouter, conversation, en discutant...)

● Elle a dit : « plus tard, j’ai retiré plus de cinquante pièces de ces cartons. »

Page 20: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

20

Exemple de catégorie (II)

● Assertion● Prise en charge de la « vérité », engagement

● L’assertion engage complètement la responsabilité du locuteur vis-à-vis de la vérité de ce qu’il énonce.

● Schème énonciatif :

● JE-DIS (X-DIT(EST-VRAI(ce qui est dit)))

● Exemples (confirmer, asserter, affirmer / nier, réfuter...)

● Ce que Materazzi a démenti catégoriquement, affirmant qu'il ne savait "même pas ce que ce mot veut dire".

Page 21: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

21

Exemple de catégorie (III)

● Jugement sur la valeur de vérité du propos du locuteur● (vrai / non vrai) X prétend, X présume, X ment, X exagère...

● Ms Jin [...] a prononcé ces mots sincères : “Divine Performing Arts est l’espoir de l’humanité...”

● (correct / non corrext) X a raison quand il dit... / X croit à tort...

● … le poète se trompait en disant : “Il y a plus de choses entre le ciel et la terre que notre philosophie n'en peut concevoir.”

Page 22: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

22

Annotation automatique : EXCOM-2

Page 23: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

23

Format XML DTD (DocBook)

Corpus annoté selon un ou plusieurs points de vue

Corpus brut Format : texte Codage : UTF-8

1

2

-----------

Segmentation automatique

Annotation automatique

Annotation automatique : EXCOM-2

Applications : RI, veille, résumé...

Page 24: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

24

Les règles d'annotation

● Une règle peut être décrite sous forme déclarative :● Si les indices Ip sont identifiés dans le contexte Cp de l’indicateur

Ki alors prendre la décision Dj

● Exemple

Page 25: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

25

أسرتنا الكاتبة وهي تطرح علينا هذه العبارة كل الشموس تشرق من طاقة الحاجة : "الساخرة

48أديبة, شمس الضفة الغربية وشمس الـ " !وشمس بوش

The writer fascinated us by giving to us this mocking sentence: "all suns rise from the dormer window of Hajja Adiba, the sun of the West Bank, the sun of 48th and the sun of Bush"!

Les règles d'annotation: Type 1 (exemple)

Page 26: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

26

أسرتنا الكاتبة وهي تطرح علينا هذه العبارة كل الشموس تشرق من طاقة الحاجة ":الساخرة

48أديبة, شمس الضفة الغربية وشمس الـ !" وشمس بوش

The writer fascinated us by giving to us this mocking sentence: "all suns rise from the dormer window of Hajja Adiba, the sun of the West Bank, the sun of 48th and the sun of Bush"!

Indicateur de la citation

Les règles d'annotation: Type 1 (exemple)

Page 27: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

27

العبارة هذه تطرح عليناأسرتنا الكاتبة وهي كل الشموس تشرق من طاقة الحاجة : "الساخرة

48أديبة, شمس الضفة الغربية وشمس الـ !"وشمس بوش

The writer fascinated us by giving to us this mocking sentence: "all suns rise from the dormer window of Hajja Adiba, the sun of the West Bank, the sun of 48th and the sun of Bush"!

Indices de la citation (introducteur)Première catégorisation : « Relation interlocutive »

Les règles d'annotation: Type 1 (exemple)

Page 28: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

28

العبارة هذه تطرح علينا الكاتبة وهي أسرتناكل الشموس تشرق من طاقة الحاجة : "الساخرة

48أديبة, شمس الضفة الغربية وشمس الـ ! "وشمس بوش

The writer fascinated us by giving to us this mocking sentence: "all suns rise from the dormer window of Hajja Adiba, the sun of the West Bank, the sun of 48th and the sun of Bush"!

Indices de modalités énonciatives : « Attitude de l'énonciateur »

Les règles d'annotation: Type 2 (exemple I)

Page 29: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

29

العبارة هذه تطرح علينا الكاتبة وهي أسرتناكل الشموس تشرق من طاقة الحاجة : " الساخرة

48أديبة, شمس الضفة الغربية وشمس الـ ! "وشمس بوش

The writer fascinated us by giving to us this mocking sentence: "all suns rise from the dormer window of Hajja Adiba, the sun of the West Bank, the sun of 48th and the sun of Bush"!

Indice de modalité énonciative : « Qualité du propos »

Les règles d'annotation: Type 2 (exemple I)

Annotations attribuées au segment :●« Citation »●« Relation interlocutive »●« Attitude de l'énonciateur »●« Qualité du propos »

Page 30: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

30

1

Choix du pdv (carte sémantique)

Scénario de traitement

Page 31: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

31

Scénario de traitement

2

Choix du corpus

Page 32: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

32

Scénario de traitement

3

Annoter

Page 33: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

33

Évaluation

Page 34: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

34

Évaluation (catégories I & II)

● Corpus : 250 textes par langue (arabe et français) [Alrahabi et Desclés, 2008]

● Évaluateurs : 15 personnes pour le français et 9 pour l'arabe

● L'annotation correcte : l'annotation la plus fréquente attribuée par les sujets.

● Résultat sur corpus arabe :● Catégorie I : 0,71 de précision et 0,75 de rappel

● Catégorie II : 0,73 de précision et 0,79 de rappel

● Résultat sur corpus français● Catégorie I : 0,65 de précision et 0,92 de rappel

● Catégorie II : 0,87 de précision et 1 de rappel

Page 35: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

35

● Corpus [Alrahabi, Suh et Desclés, 2010] :● 34 citations par langue (arabe, français et coréen)

– 30 citations pour catégorie III

– 4 segments non citationnels

● Évaluateurs : 11 pour l'arabe, 23 por le français et 18 pour le coréen

● Résultats :

Évaluation (catégorie III)

Page 36: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

36

Quelques cas pour la discussion

Page 37: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

37

● Les citations sans introducteurs● L'avocat, ravi de son effet : « Et c'est signé Nicolas Sarkozy, sous

l'en-tête »

● Introducteurs non attribués à un locuteur● Voici la déclaration : « Nous déclarons, chefs d’Etat et chefs de

Gouvernement, que chacun d’entre nous prendra [...] »

● Aux cris de "Mort au Danemark ! Mort aux Pays-Bas!", 5.000 Afghans ont défilé vendredi dans la capitale pour dénoncer...

Quelques cas pour la discussion

Page 38: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

38

● Les citations « déracinées »● " C'est Big Brother, ici. "

● Les non citations● Lire « L'Aurore » et le dossier « Comment l'OMC fut vaincue », Le

Monde diplomatique, janvier 2000.

● Et on conclut que le prix de la viande "consommée" n'a pas augmenté…

Quelques cas pour la discussion

Page 39: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

39

● Les auto-citations :● J'étais au Danemark, en octobre, avant que la polémique ne

commence, et j'avais alors dit : "Il faut prendre une distance intellectuelle critique et réagir calmement [...]"

● Les citations fictives :● Elle aurait aimé qu’il lui dise « alors ma petite dame, qu’est-ce que

je vous donne ce matin ? »

● Tu vas me répondre : « Mais ce n’est pas ma souffrance qui me fait peur [...] »

Quelques cas pour la discussion

Page 40: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

40

● Les citations non fidèles :● Tapie dit en substance : « Je suis victime d’un règlement de

comptes, d’une machination politique. Je veux parler, me défendre. »

● « Il est temps que vous veniez », lui dit une passante en alsacien.

● Les citations issues d'inférences (médiatif, abduction)● Materazzi aurait donc dit : "Je préfère ta putain de soeur" après

que « Zizou » lui ai demandé s’il voulait son maillot.

Quelques cas pour la discussion

Page 41: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

41

● Les marqueurs de titres, de réputation...● Rodière était fier de son aptitude mais ne tolérait pas la moindre

critique, aussi modeste soit-elle, et était réputé pour son caractère «très difficile».

● La négation combinée avec d'autres marqueurs :● Le professeur Rémy Leveau ne disait pas autre chose : " Une

gestion mesurée des risques électoraux …"

● N’a-t-il pas affirmé : « Ce n’est pas en me disant : Seigneur ! Seigneur ! qu’on entrera au Royaume des Cieux mais en faisant la volonté de mon Père. » ?

Quelques cas pour la discussion

Page 42: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

42

● Les guillemets imbriqués● Et Hitchcock de constater : " Je vous parie que neuf personnes

sur dix, si elles voient de l'autre côté de la cour une femme qui se déshabille avant d'aller se coucher, ou simplement un homme qui fait du rangement dans sa chambre, ne pourront pas s'empêcher de regarder. Elles pourraient détourner le regard en disant : "Cela ne me concerne pas ", elles pourraient fermer leurs volets, eh bien ! elles ne le feront pas, elles s'attarderont pour regarder (12). "

Quelques cas pour la discussion

1

2

Page 43: 1 Veille stratégique, évaluation et innovation avec des approches sémantiques (français, arabe, anglais) Annotation automatique des citations catégorisées,

43

Merci

www.excom.fr