f image, in t egration de donn ees dans unvero.moriceau.free.fr/docs/these_moriceau.pdf · gardent,...

Universit�e Toulouse III �E ole Do torale Informatique et T�el�e ommuni ationsFormation Do torale Image, Information, Hyperm�ediaInt�egration de donn�ees dans unsyst�eme question-r�eponse sur le Web

TH�ESEpr�esent�ee et soutenue publiquement le 15 f�evrier 2007pour l'obtention duDo torat de l'Universit�e Paul Sabatier { Toulouse III(sp�e ialit�e Informatique)parV�eronique MORICEAUComposition du juryRapporteurs : Guy LAPALME Professeur �a l'Universit�e de Montr�eal, RALIPierre ZWEIGENBAUM Dire teur de re her he CNRS, LIMSIExaminateurs : R�egine ANDR�E-OBRECHT Professeur �a l'Universit�e Paul Sabatier, IRITChristian RETOR�E Professeur �a l'Universit�e Bordeaux I, LaBRIInvit�e : Patri k S�EGU�ELA Synapse D�eveloppement

Directeur de thèse : Patri k SAINT-DIZIER Dire teur de re her he CNRS, IRITInstitut de Re her he en Informatique de Toulouse | UMR 5505

Remerciements

J’aimerais profiter de cette page pour remercier tous ceux qui, directement ou indirectement, ont

contribué à ce que ce travail arrive jusque là.

Mes premiers remerciements s’adressent bien sûr aux membres du jury. Merci donc à Guy Lapalme

et Pierre Zweigenbaum, rapporteurs, pour avoir accepté d’évaluer ce travail et pour leurs remarques qui

m’ont permis d’améliorer ce manuscrit.

Merci à Régine André-Obrecht d’avoir accepté de présider cejury, à Christian Retoré qui a guidé mes

premiers pas dans la recherche à Nantes (merci de m’avoir encouragé à poursuivre dans cette voie !), à

Patrick Saint-Dizier et à Patrick Séguéla.

Je voudrais remercier ici les personnes rencontrées aux cours de conférences et autres réunions de

projet, qui par nos nombreuses discussions m’ont permis d’avancer. Je pense ici en particulier à Claire

Gardent, Françoise Gayral, Yannick Mathieu, Bali Ranaivo-Malançon, Sudeshna Sarkar, ...

Je tiens également à remercier les membres de l’IRIT qui, de près ou de loin, m’ont écoutée, conseillée

et aidée au cours des derniers mois : Luis Fariñas, Chantal Morand, Agathe et Jean-Pierre Baritaud...

Un grand merci à l’école doctorale : Louis Féraud et Martine Labruyère pour leur soutien et leur effica-

cité.

Merci également à toute l’équipe SAMOVA.

Ces années de thèse, je les associe bien sûr aux amis rencontrés à l’IRIT. Un énorme merci aux

"filles" qui ont transité par l’équipe et qui ont été si solidaires : Eli, Farah, Farida, Ilhème, Mouna et Olfa.

Merci aussi à Rafika que je n’oublie pas et à Sara pour être venue de si loin pour assister à ma soutenance.

Je n’ose même pas imaginer à quoi ces années auraient ressemblé si vous n’aviez pas été là ! Je garde en

mémoire tous nos fous rires, les expéditions laborieuses etles alibis très... crédibles, les avions (presque)

ratés et tant d’autres moments. Merci encore pour votre soutien et tous vos encouragements : "dans

quelques années, on en rira !".

Merci aussi à ceux qui m’ont accueillie dès mon arrivée à Toulouse et qui sont devenus au fil du temps

de véritables amis sur lesquels je peux compter, qui m’ont supportée (dans tous les sens du terme !),

écoutée, soutenue dans les moments difficiles et qui ont toujours été là pour me faire passer des moments

inoubliables. Un énorme merci donc à Jérôme (pour toutes tesqualités, pas seulement culinaires) et

Julien (pour ton côté "bleu" !), Jean-Luc, José, Gaël et Mathieu : merci pour toutes ces sorties, soirées et

repas passés ensemble. J’espère que l’avenir ne nous séparera pas trop...

i

Un grand merci à Sandra qui a fait circuler mes questionnaires d’évaluation à l’université de Nantes.

Je remercie par la même occasion tous ceux qui ont répondu à ces questionnaires.

Merci à Loïc et Cédric (même si tu n’as pas toujours été très attentif !) d’avoir assisté à ma soute-

nance.

Et puis même à l’autre bout de la France, je n’oublie pas les amis de plus de 20 ans. Merci à Safia

et sa famille qui m’accueillent toujours aussi chaleureusement lors de mes (trop rares) retours au pays.

Merci pour tous ces moments qui me permettent de ne pas oublier d’où je viens...

Je remercie également tous les valenciennois et saint-saulviens qui m’ont transmis leurs encouragements.

Merci aussi à Julien qui, par le récit de ses péripéties, m’a si souvent fait pleurer de rire devant mon

écran ! !

Enfin, je tiens à remercier mes parents pour la confiance qu’ils m’ont faite pendant ces longues années

d’étude. Merci à mon frère, ma grand-mère et toute la famillepour leurs encouragements.

Mes derniers remerciements s’adressent bien sûr à toi, Xavier : tu a su m’aider, écouter patiemment le

long récit de mes journées, me remonter le moral et m’encourager quotidiennement pendant ces années.

Merci pour tout...

En route maintenant pour de nouvelles aventures ! !

ii

Table des matières

Table des figures ix

Liste des tableaux xi

Introduction 1

Partie I Présentation du problème et du système

Chapitre 1 Des réponses d’un moteur de recherche à une réponse synthétique 9

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 9

1.2 État de l’art sur la gestion des inconsistances . . . . . . . .. . . . . . . . . . . . . 11

1.2.1 Dans les moteurs de recherche . . . . . . . . . . . . . . . . . . . . .. . . 12

1.2.2 Dans les systèmes question-réponse . . . . . . . . . . . . . . .. . . . . . . 12

1.2.3 Dans les systèmes de résumé automatique . . . . . . . . . . . .. . . . . . 14

1.2.4 En intelligence artificielle . . . . . . . . . . . . . . . . . . . . .. . . . . . 15

1.2.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.3 Corpus d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 18

1.3.1 Constitution du corpus . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 19

1.3.2 Méthodologie d’analyse du corpus . . . . . . . . . . . . . . . . .. . . . . 23

1.4 Typologie des réponses et mécanismes d’intégration associés . . . . . . . . . . . . 23

1.4.1 La relation d’alternative . . . . . . . . . . . . . . . . . . . . . . .. . . . . 24

1.4.2 La relation d’agrégation . . . . . . . . . . . . . . . . . . . . . . . .. . . . 27

iii

Table des matières

1.4.3 La relation d’inclusion . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 28

1.4.4 La relation d’équivalence . . . . . . . . . . . . . . . . . . . . . . .. . . . 29

1.4.5 La relation de complémentarité . . . . . . . . . . . . . . . . . . .. . . . . 33

1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35

Chapitre 2 Présentation du système et hypothèses de travail 37

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 37

2.2 Architecture du système . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 39

2.2.1 L’analyseur de questions . . . . . . . . . . . . . . . . . . . . . . . .. . . . 40

2.2.2 Le moteur de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . .. 42

2.2.3 Le moteur d’extraction . . . . . . . . . . . . . . . . . . . . . . . . . .. . 43

2.2.4 Le module d’intégration . . . . . . . . . . . . . . . . . . . . . . . . .. . . 44

2.2.5 Le générateur de langue naturelle . . . . . . . . . . . . . . . . .. . . . . . 44

2.3 Les connaissances requises . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 45

2.3.1 La base de connaissances . . . . . . . . . . . . . . . . . . . . . . . . .. . 46

2.3.2 Les ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .46

2.3.3 Le lexique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.3.4 Les connaissances sur les pages Web . . . . . . . . . . . . . . . .. . . . . 51

2.4 Quelques exemples d’entrées-sorties . . . . . . . . . . . . . . .. . . . . . . . . . 52

2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53

Partie II Intégration et génération de réponses de typedate

Introduction 57

Chapitre 3 Intégration de données de typedate 61

3.1 Extraction des réponses candidates . . . . . . . . . . . . . . . . .. . . . . . . . . 61

3.1.1 Grammaire d’extraction . . . . . . . . . . . . . . . . . . . . . . . . .. . . 62

3.1.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.2 Détermination de contenu . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 65

3.2.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

iv

3.2.2 Représentation des données . . . . . . . . . . . . . . . . . . . . . .. . . . 67

3.2.3 Élaboration de la réponse . . . . . . . . . . . . . . . . . . . . . . . .. . . 70

3.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .81

Chapitre 4 Génération des réponses de typedateen langue naturelle 83

4.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 83

4.2 Conception des schémas de génération . . . . . . . . . . . . . . . .. . . . . . . . 84

4.2.1 Degré de certitude des réponses . . . . . . . . . . . . . . . . . . .. . . . . 84

4.2.2 Formalisation des schémas de génération . . . . . . . . . . .. . . . . . . . 87

4.2.3 Base de schémas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.3 Exemples de réponses générées . . . . . . . . . . . . . . . . . . . . . .. . . . . . 92

4.4 Synthèse et discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 94

Chapitre 5 Évaluation pour les réponses de typedate 97

5.1 Évaluation de l’extraction . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 98

5.2 Évaluation de la détermination de contenu . . . . . . . . . . . .. . . . . . . . . . 99

5.2.1 Critères d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 99

5.2.2 Méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.2.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

5.3 Évaluation des réponses en langue naturelle . . . . . . . . . .. . . . . . . . . . . . 109

5.3.1 Protocole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.3.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

Conclusion 111

Partie III Intégration et génération de réponses de typenumérique

Introduction 115

v

Table des matières

Chapitre 6 Présentation du problème 119

6.1 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 119

6.1.1 En théorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

6.1.2 En pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

6.1.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

6.2 Une typologie des réponses numériques . . . . . . . . . . . . . . .. . . . . . . . . 124

6.3 Processus général de traitement des réponses numériques . . . . . . . . . . . . . . 128

Chapitre 7 Extraction des réponses candidates 131

7.1 Grammaire d’extraction . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 132

7.2 Extraction des indices linguistiques . . . . . . . . . . . . . . .. . . . . . . . . . . 134

7.3 Extraction des restrictions . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 136

7.3.1 Impact de l’absence de connaissances . . . . . . . . . . . . . .. . . . . . . 136

7.3.2 Propriétés du "mesureur" . . . . . . . . . . . . . . . . . . . . . . . .. . . 138

7.3.3 Propriétés du "mesuré" . . . . . . . . . . . . . . . . . . . . . . . . . .. . 138

7.4 Problèmes lors de l’extraction . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 143

Chapitre 8 Génération des explications 145


8.1.1 Identification des critères de variation . . . . . . . . . . .. . . . . . . . . . 145

8.1.2 Identification du mode de variation . . . . . . . . . . . . . . . .. . . . . . 148

8.2 Explications en langue naturelle . . . . . . . . . . . . . . . . . . .. . . . . . . . . 152

8.2.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

8.2.2 Conception des schémas de génération . . . . . . . . . . . . . .. . . . . . 152

8.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .159

Chapitre 9 Génération de la réponse directe 163


9.1.1 Attentes de l’utilisateur : contraintes imposées parla question . . . . . . . . 163

9.1.2 Réponses candidates satisfaisant les contraintes . .. . . . . . . . . . . . . 165

9.1.3 Choix des restrictions à générer dans la réponse directe . . . . . . . . . . . 167

9.1.4 Choix de la valeur numérique à générer dans la réponse directe . . . . . . . 170

9.2 Réponse directe en langue naturelle . . . . . . . . . . . . . . . . .. . . . . . . . . 175

9.3 Justification de la réponse . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 178

9.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .179

vi

Chapitre 10 Évaluation pour les réponses de typenumérique 185

10.1 Quelques problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 185

10.2 Évaluation de l’extraction . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 186

10.3 Évaluation de la détermination de contenu . . . . . . . . . . .. . . . . . . . . . . 187

10.3.1 Évaluation des réponses directes . . . . . . . . . . . . . . . .. . . . . . . 187

10.3.2 Évaluation des explications . . . . . . . . . . . . . . . . . . . .. . . . . . 189

10.4 Évaluation des réponses en langue naturelle . . . . . . . . .. . . . . . . . . . . . . 190

Conclusion 193

Conclusion générale et perspectives 195

Bibliographie 203

Annexe A Corpus de questions 217

Annexe B Corpus d’évaluation : questions temporelles 223

Annexe C Corpus d’évaluation : questions numériques 227

Annexe D Implémentation du système 229

D.1 Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 229

D.1.1 Interaction avec QRISTAL . . . . . . . . . . . . . . . . . . . . . . . .. . 229

D.1.2 Détails sur l’implémentation . . . . . . . . . . . . . . . . . . . .. . . . . 229

D.2 Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 230

Résumé 234

vii

Table des matières

viii

Table des figures

1 Nombre de pages de résultats consultées (année 2005) . . . . .. . . . . . . . . . . . . . 2

1.1 Exemple de Google : indépendance de l’Algérie . . . . . . . . .. . . . . . . . . . . . . 10

1.2 Série proportionnelle pour les couleurs . . . . . . . . . . . . .. . . . . . . . . . . . . . 31

1.3 Représentativité des relations par type de question . . .. . . . . . . . . . . . . . . . . . 35

1.4 Récapitulatif des mécanismes d’intégration . . . . . . . . .. . . . . . . . . . . . . . . 36

2.1 Architecture du système . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 39

2.2 Le système QRISTAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 43

2.3 Extrait de la DTD de l’ontologie des vins . . . . . . . . . . . . . .. . . . . . . . . . . 48

2.4 Exemple d’entrées-sorties : les dates . . . . . . . . . . . . . . .. . . . . . . . . . . . . 54

2.5 Exemple d’entrées-sorties : les réponses numériques . .. . . . . . . . . . . . . . . . . 54

1 Réponses de Google : date de l’ouragan Hugo . . . . . . . . . . . . . .. . . . . . . . . 58

2 Schéma général du traitement des réponses de typedate . . . . . . . . . . . . . . . . . . 59

3.1 Sous-intervalles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 70

3.2 Les 11 réponses candidates et les sous-intervalles . . . .. . . . . . . . . . . . . . . . . 72

3.3 Relations temporelles d’Allen pour l’inclusion . . . . . .. . . . . . . . . . . . . . . . . 72

3.4 Événement unique ou itératif ? . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 78

3.5 Événement itératif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 79

3.6 Événement périodique . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 79

4.1 Échelle de probabilité d’un événement . . . . . . . . . . . . . . .. . . . . . . . . . . . 86

4.2 Intensité des adverbes lexicalisant le degré de certitude . . . . . . . . . . . . . . . . . . 88

5.1 Évaluation : événements uniques ponctuels . . . . . . . . . . .. . . . . . . . . . . . . 102

5.2 Distribution des rangs des réponses correctes de Google: événements uniques ponctuels 102

5.3 Évaluation : événements uniques duratifs . . . . . . . . . . . .. . . . . . . . . . . . . 103

5.4 Distribution des rangs des réponses correctes de Google: événements uniques duratifs . 104

5.5 Évaluation : événements itératifs ponctuels . . . . . . . . .. . . . . . . . . . . . . . . . 104

ix

Table des figures

5.6 Distribution des rangs des réponses correctes de Google: événements itératifs ponctuels 105

5.7 Évaluation : événements itératifs duratifs . . . . . . . . . .. . . . . . . . . . . . . . . . 106

5.8 Distribution des rangs des réponses correctes de Google: événements itératifs duratifs . 106

5.9 Évaluation sur 72 questions : synthèse . . . . . . . . . . . . . . .. . . . . . . . . . . . 107

1 Réponses de QRISTAL àCombien y a-t-il d’habitants en France ?. . . . . . . . . . . . 115

2 Réponses de Google àâge moyen du mariage en France. . . . . . . . . . . . . . . . . 116

6.1 Génération de graphiques et de légendes [Mittal et al, 1998] . . . . . . . . . . . . . . . 122

6.2 Génération de graphiques et de légendes par PostGraphe .. . . . . . . . . . . . . . . . 123

6.3 Typologie des valeurs numériques . . . . . . . . . . . . . . . . . . .. . . . . . . . . . 124

6.4 Exemples de paires question-réponses par critère de variation . . . . . . . . . . . . . . . 128

6.5 Schéma général du traitement des réponses numériques . .. . . . . . . . . . . . . . . . 129

7.1 Extrait de l’ontologie des lieux géographiques . . . . . . .. . . . . . . . . . . . . . . . 135

7.2 Exemple d’extraction :Quel est l’âge moyen du mariage en France ?. . . . . . . . . . . 136

7.3 Extrait de l’ontologie des vins . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . 142

8.1 Exemple de variation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 148

8.2 Mode de variation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 149

8.3 Mode de variation :Combien y a-t-il d’habitants en France ?. . . . . . . . . . . . . . . 150

8.4 Mode de variation :Quel est l’âge moyen du mariage en France ?. . . . . . . . . . . . 150

8.5 Ontologie des vins : concepts généralisants . . . . . . . . . .. . . . . . . . . . . . . . 155

8.6 Série proportionnelle pour les verbes décrivant une variation . . . . . . . . . . . . . . . 156

9.1 Exemple d’extraction :Quel est l’âge moyen du mariage en France ?. . . . . . . . . . . 166

9.2 Pertinence des restrictions :Combien y a-t-il d’habitants en France ?. . . . . . . . . . . 169

9.3 Pertinence des restrictions :Quelle est la température de service des vins ?. . . . . . . . 169

9.4 Pertinence des restrictions :Combien y a-t-il d’habitants en France ?. . . . . . . . . . . 170

9.5 Les arrondis vus par les utilisateurs . . . . . . . . . . . . . . . .. . . . . . . . . . . . . 172

9.6 Valuation des arcs d’un graphe . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 174

9.7 Graphe des valeurs : hauteur du Mont-Blanc . . . . . . . . . . . .. . . . . . . . . . . . 175

9.8 Extrait de page Web : hauteur du Mont-Blanc . . . . . . . . . . . .. . . . . . . . . . . 179

9.9 Traitement complet d’un exemple :Quel est l’âge moyen du mariage en France ?. . . . 180

9.10 Traitement complet d’un exemple :Quel est l’âge moyen du mariage en France ?. . . . 181

10.1 Évaluation des réponses directes numériques . . . . . . . .. . . . . . . . . . . . . . . . 188

10.2 Distribution des rangs des réponses correctes de Google : réponses numériques . . . . . 188

10.3 Évaluation du point de vue utilisateur : choix des contraintes utilisateurs . . . . . . . . . 190

10.4 Évaluation du point de vue utilisateur : ordre des réponses . . . . . . . . . . . . . . . . 191

x

10.5 Évaluation du point de vue utilisateur : qualité de la réponse . . . . . . . . . . . . . . . 192

1 Exemple de page sélectionnée par Google News :Combien y a-t-il d’adhérents en PS ?. 198

xi

Table des figures

xii

Liste des tableaux

1.1 Types de réponses attendues définis par TREC . . . . . . . . . . .. . . . . . . . . . . . 19

3.1 Exemple : Quand a eu lieu la guerre de Sécession ? . . . . . . . .. . . . . . . . . . . . 62

3.2 Algorithme de détermination de contenu : réponses de type date . . . . . . . . . . . . . 82

4.1 Schémas de génération pour les réponses intégrées de type date: événements non pério-

diques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.2 Schémas de génération pour les réponses intégrées de type date: événements périodiques 91

5.1 Origine des questions pour chaque type d’événements évalués . . . . . . . . . . . . . . 97

5.2 Nombre de questions pour chaque type d’événements évalués . . . . . . . . . . . . . . . 98

5.3 Évaluation des réponses en langue de typedate: tâche 1 . . . . . . . . . . . . . . . . . 110

5.4 Évaluation des réponses en langue de typedate: tâche 2 . . . . . . . . . . . . . . . . . 110

6.1 Distribution des questions par type ontologique dans lecorpus . . . . . . . . . . . . . . 125

8.1 Schémas de génération pour les explications des réponses numériques (1/3) . . . . . . . 160



9.1 Schémas de génération pour les réponses directes de typenumérique(1/2) . . . . . . . . 182

9.2 Schémas de génération pour les réponses directes de typenumérique(2/2) . . . . . . . . 183

D.1 Temps d’exécution pour le traitement des réponses de type date. . . . . . . . . . . . . . 231

D.2 Temps d’exécution pour le traitement des réponses numériques . . . . . . . . . . . . . . 231

xiii

Liste des tableaux

xiv

Introduction

Aujourd’hui, le Web met à la disposition du grand public un très grand nombre de données et les

systèmes de recherche d’informations développés ces dernières années sont des outils pratiques pour qui

souhaite trouver une réponse à une requête sur tout type de domaine. L’accès aux moteurs de recherche

représente d’ailleurs plus de 40% du trafic sur le Web (contre32% pour l’accès par liens externes et 27%

pour l’accès direct)1. L’interrogation de ces moteurs se fait sur la base de mots-clés et ils proposent à

l’utilisateur un ensemble de liens vers des pages Web et/ou des extraits de ces pages traitant du thème de

la requête. Parmi ces moteurs, citons par exemple Google utilisé par plus de 80% des internautes.

En revanche, là où les dictionnaires, encyclopédies et bases de données fournissent très souvent une

réponse unique, synthétique et cohérente, une analyse rapide des réponses proposées par les moteurs

montrent que celles-ci sont, dans le meilleur des cas, redondantes mais qu’elles sont aussi très souvent

non pertinentes (car elles ne répondent pas à la question quese pose l’utilisateur), incohérentes, etc.

C’est donc à l’utilisateur qu’il revient de trier et de rechercher au sein de ces pages la réponse à sa

question. Cette démarche, souvent laborieuse, nécessite un effort supplémentaire de la part de l’utilisateur

et entraîne une perte de temps considérable, sans pour autant avoir l’assurance de trouver une réponse

correcte. C’est sans doute pour ces raisons que les internautes ont pour habitude de ne consulter que la

première page (i.e. les 10 premiers liens) proposée par les moteurs (cf. figure 1). Il en résulte que c’est à

l’utilisateur de s’adapter aux systèmes, d’ajuster ses requêtes en fonction du comportement des moteurs

déduit à partir de ce qu’il a pu observer lors de requêtes précédentes. Une synthèse de ces problèmes est

présentée dans [Jenhani, 2006].

Les systèmes question-réponse proposent une alternative àces problèmes. Ces derniers permettent

de poser une question (sous forme de mots-clés ou en langue naturelle) qui est analysée, puis recherchent

par l’intermédiaire d’un moteur de recherche un ensemble depages Web traitant de la question posée et

proposent à l’utilisateur des extraits de pages répondant exactement à sa question.

Par exemple, supposons qu’un utilisateur recherche la datede mort de Beethoven. En utilisant un moteur

de recherche sur le Web, l’utilisateur doit utiliser des mots-clés pour poser sa question, par exemplemort

1http ://www.revue-referencement.com/

1

Introduction

FIG. 1 – Nombre de pages de résultats consultées (année 2005)

Beethovenou simplementBeethoven. Ici, comme il n’y a pas d’analyse de la question, le moteur de

recherche ne sait pas qu’il doit renvoyer une date mais il y a de très fortes chances pour qu’il propose

en réponse des pages de biographie qui contiendront la date de mort de Beethoven (notons que si

l’utilisateur demandedate mort Beethoven, le moteur va rechercher dans les pages le mot-clédateet

non pas une information temporelle). En revanche, si un utilisateur recherche la date d’un événement

autre que biographique, il est fort probable que le moteur nerenvoie pas de réponse acceptable, par

exemple des pages traitant de l’événement en question mais ne mentionnant pas la date recherchée (à la

requêtedate voyage Chirac Russie, Google propose comme réponsesDécembre 1974 - Voyage officiel de

Jacques Chirac en Iranou Votre voyage en Russie avec Russomania.com!). Une solution proposée par

les systèmes question-réponse est de permettre à l’utilisateur de poser sa question en langue naturelle (par

exemple,quand est mort Beethoven ?) : après analyse de la question, le système sait qu’il doit rechercher

une réponse de typedate.

Ces systèmes nécessitent l’interaction de plusieurs domaines comme le traitement automatique de la

langue (par exemple, pour l’analyse de la question, la génération de la réponse, etc.) ou la recherche d’in-

formations (pour l’extraction des informations ou passages pertinents dans les pages Web). Aujourd’hui,

les systèmes question-réponse sont évalués lors de grandescampagnes internationales telles que TREC

QA (Text REtrieval Conference, Question Answering track) mais ne traitent pour la plupart d’entre eux

que les questions atomiques (ou factuelles : questions enqui, quand, ...) ou de typedéfinitionet évitent

pour la plupart les problèmes causés par une analyse profonde des textes nécessaire pour répondre à des

questions narratives (questions encomment, pourquoi, ...).

Pourtant, certains problèmes demeurent : absence de réponse, trop de réponses, besoin d’explica-

tions... Pour tenter de les résoudre, des feuilles de route ou roadmaps (par exemple [Burger et al., 2000])

2

proposent d’intégrer du raisonnement et un traitement approfondi de la langue afin d’améliorer la qualité

et la pertinence des réponses.

Motivations et objectifs

Notre projet se situe dans le cadre des systèmes question-réponse et vise à répondre à des questions

atomiques en domaine ouvert. Plusieurs constatations ont motivé notre travail :

– le temps perdu par les utilisateurs sur le Web pour trouver une réponse quand les réponses propo-

sées par les moteurs de recherche sont multiples, incohérentes, etc.

Par exemple, à la questionquand a lieu la fête de la musique ?, plutôt que de donner les dates

de toutes les éditions de la fête, il est plus raisonnable de proposer une réponse synthétique, plus

coopérative, telle quela fête de la musique a lieu tous les 21 juin: cette réponse répond non

seulement à la question mais synthétise aussi toutes les informations trouvées tout en y apportant

une explication sur l’événement (ici, la réponse explique que c’est un événement périodique),

– les systèmes question-réponse actuels ne s’intéressent qu’à la syntaxe et la sémantique de la langue

pour l’analyse des questions et l’extraction des réponses et se contentent pour la plupart d’extraire

des fragments de pages Web répondant à la question sans générer réellement de réponses en langue

naturelle, encore moins d’explications ou de justifications. De plus, ces systèmes ne vont pas au

delà de la fusion de réponses sémantiquement équivalentes [Dalmas et al, 2005],

– les travaux en fusion d’informations [Dubois et al, 1992] ont leurs limites dans le cadre de ce

problème. En effet, seules des probabilités concernant lessources d’informations sont fusionnées,

et non les informations elles-mêmes,

– dans le cadre des bases de données, et plus particulièrement celui des entrepôts de données,

des méthodes d’intégration permettent de combiner des informations provenant de sources et/ou

de structures hétérogènes. L’intégration consiste à mettre à disposition de l’utilisateur unevue

unifiée des informations [Hacid et al., 2004], par exemple entransformant, au niveau structurel,

l’ensemble des données répondant à la requête : il n’y a donc pas forcément de gestion des

incohérences sémantiques des données.

L’intérêt de se placer dans le cadre des systèmes question-réponse, en particulier sur le Web, par

rapport à celui des bases de données, est multiple :

– pouvoir étudier des méthodes qui permettent de combiner, autrement que sur des critères structu-

rels, des informations hétérogènes venant de sources différentes et souvent contradictoires,

– prendre en compte des paramètres issus d’une question en langue naturelle, plus flexible ou im-

précise qu’une requête à une base de données,

– générer une réponse en langue naturelle.

3

Introduction

Nos objectifs se situent donc à plusieurs niveaux. Il s’agitde modéliser, concevoir et évaluer un

système capable, à partir d’une question en langue naturelle, d’extraire les informations pertinentes sur

le Web et de générer en langue naturelle une réponse synthétique, même quand le moteur de recherche

sélectionne plusieurs réponses potentielles, tout en y ajoutant des explications appropriées et compréhen-

sibles par l’utilisateur : c’est à ce niveau que se situe la coopérativité de notre système, définie au sens

de [Grice, 1975]. En effet, il faut produire une réponse qui soit pertinente, qui n’induise pas l’utilisateur

en erreur et qui soit ni trop ni trop peu informative, tout cela afin de faciliter le travail de recherche de

l’utilisateur. Ainsi, un des problèmes majeurs est l’étudede la pertinence et de la cohérence des réponses.

Ceci nécessite d’intégrer entre autres des paradigmes comme la pragmatique, des techniques d’analyse

de données, la génération de langue naturelle et les méthodes d’évaluation. Nos principaux objectifs sont

donc :

– d’analyser comment un moteur de recherche standard répondà une requête (quelles sont les

différentes configurations ainsi obtenues ?) et de dégager un modèle qui permette de répondre à

des questions atomiques en domaine ouvert de façon synthétique même quand plusieurs réponses

potentielles ont été extraites,

– de définir comment un tel modèle peut être implémenté en s’intéressant en particulier aux be-

soins en termes de connaissances qui sont nécessaires au système pour entre autres, extraire les

réponses, raisonner et générer des explications. Quels types de connaissances sont nécessaires ?

Connaissances de sens commun et/ou spécifiques au domaine considéré ? Comment ces connais-

sances sont-elles représentées, sous quel formalisme ?,

– d’étudier les différentes techniques de génération de langue naturelle : quelles sont celles qui

permettent de refléter au mieux le mode coopératif des réponses et des explications : techniques

de génération pure, à base de shémas de génération ?, Quellessont les ressources nécessaires ?,

– de proposer des méthodes d’évaluation adéquates du système en général et des réponses produites

en particulier. Peut-on utiliser les techniques classiques à la TREC pour évaluer un tel système ?

Méthode de travail

Contrairement aux systèmes classiques, nous adoptons une méthode diteen profondeur d’abordafin

d’étudier dans un premier temps la faisabilité de notre approche ainsi que les besoins en ressources

(linguistiques, connaissances, ...). Cette analyse étanttrès vaste si l’on travaille en domaine ouvert, nous

avons choisi de nous focaliser sur certains types de questions : les questions temporelles attendant des

réponses de typedateet les questions numériques.

4

Notre démarche a été tout d’abord empirique. Nous avons en effet commencé par construire un

corpus de paires question-réponses issues du Web qui nous a permis, dans un premier temps, d’identifier

les relations pouvant exister entre plusieurs réponses potentielles obtenues pour une même question, puis

de dégager un modèle d’élaboration de réponses synthétiques. Le travail a ensuite consisté à définir des

méthodes d’intégration pour chaque type de données conduisant à l’élaboration d’une réponse synthé-

tique. Puis nous avons identifié, pour chaque type de réponseet mode de coopérativité associé trouvé

grâce au corpus, les besoins linguistiques nécessaires à lagénération en langue des réponses, compte-

tenu de nos objectifs. Enfin, nous nous sommes intéressés à l’évaluation du système et des réponses ainsi

produites sur deux plans :

– la réponse produite est-elle correcte ?

– la réponse produite est-elle compréhensible, satisfaisante pour les utilisateurs ?

Nous proposons aussi quelques pistes d’amélioration au niveau des ressources et des connaissances, des

mécanismes utilisés ainsi que des explications (forme et contenu).

Organisation du mémoire

Notre projet se place dans le cadre des systèmes question-réponse en domaine ouvert et le but est de

générer en langue naturelle une réponse synthétique et coopérative (par l’intermédiaire d’explications),

là où un système classique propose plusieurs réponses potentielles très souvent incohérentes. Le plan de

ce mémoire reflète les différentes étapes de notre travail.

La première partie présente le problème et les principaux objectifs.

Le premier chapitre présente notre étude empirique, la constitution du corpus d’étude ainsi que son

analyse et décrit comment un humain peut élaborer une réponse en langue naturelle à partir de plusieurs

réponses potentielles à une même question.

Le deuxième chapitre présente notre système, son architecture ainsi que les différentes hypothèses de

travail. Les différentes connaissances et ressources linguistiques utilisées sont également présentées.

La deuxième partie est consacrée à l’étude des questions attendant des réponses de typedate.

Cette partie présente une expérimentation qui a permis notamment de mettre en lumière les différents

problèmes tant au niveau de la pertinence des réponses que des connaissances et ressources linguistiques

requises.

En particulier, le chapitre 3 présente le mécanisme d’intégration de données pour les dates. Le chapitre 4

est consacrée à la génération en langue naturelle de la réponse ainsi élaborée. Enfin, le chapitre 5 présente

des éléments d’évaluation.

5

Introduction

La troisième partie s’intéresse aux questions attendant des réponsesnumériqueset propose une

approche qui s’appuie davantage sur la pragmatique du discours coopératif et qui permet de générer des

explications inférées directement du contenu des pages Webafin de minimiser le nombre de connais-

sances a priori.

Nous présentons les principaux enjeux dans le chapitre 6. Lechapitre 7 est consacré à l’extraction des

informations dans les pages Web candidates. Les chapitres 8et 9 présentent respectivement les méca-

nismes mis en œuvre pour la génération des explications et des réponses numériques. Enfin, l’évaluation

est présentée au chapitre 10.

En conclusion, nous rappelons les différentes contributions de notre travail et proposons plusieurs

pistes de réflexion futures.

6

Première partie

Présentation du problème et du système

Table des matières

Chapitre 1 Des réponses d’un moteur de recherche à une réponse synthétique 9

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 9

1.2 État de l’art sur la gestion des inconsistances . . . . . . . .. . . . . . . . . . . . . 11

1.3 Corpus d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 18

1.4 Typologie des réponses et mécanismes d’intégration associés . . . . . . . . . . . . 23

1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35

Chapitre 2 Présentation du système et hypothèses de travail 37

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 37

2.2 Architecture du système . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 39

2.3 Les connaissances requises . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 45

2.4 Quelques exemples d’entrées-sorties . . . . . . . . . . . . . . .. . . . . . . . . . 52

2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53

TABLE DES MATIÈRES

8

Chapitre 1

Des réponses d’un moteur de recherche à

une réponse synthétique

1.1 Introduction

Les moteurs de recherche sur le Web et les systèmes question-réponse actuels proposent à l’utilisateur

un ensemble de liens vers des pages Web et/ou des extraits de ces pages contenant la ou les informations

répondant à une requête. Ces réponses sont extraites des pages par un moteur d’extraction qui recherche

les informations pertinentes. Dans le cas des systèmes question-réponse, ces réponses sont recherchées

en fonction des paramètres obtenus lors de l’analyse de la question (focus, type de réponse attendue, etc.).

Le problème qui se pose alors est leproblème de la pertinence et de la cohérence des réponses

proposées à l’utilisateur. En effet, quand un utilisateur pose une question à un moteur de recherche ou

à un système question-réponse classique, il peut obtenir unensemble de réponses, considérées comme

réponses potentielles par le moteur d’extraction (par exemple, parce qu’elles ont le type sémantique

attendu, etc.), mais ces réponses peuvent être incohérentes jusqu’à un certain degré : par incohérentes,

nous désignons des réponses qui sont a priori contradictoires mais qui peuvent être en fait redondantes,

incomplètes, complémentaires, etc. Dans ce cas, l’utilisateur peut ne pas être satisfait des réponses qui

lui sont proposées car il ne sait pas laquelle est correcte.

Considérons l’exemple de la figure 1.1 où la requêteindépendance de l’Algérieest soumise à Google.

On obtient une liste de réponses potentielles contenant quatre dates différentes. Dans ce cas, l’utilisateur

ne sait pas quelle est la réponse correcte.

9

Chapitre 1. Des réponses d’un moteur de recherche à une réponse synthétique

FIG. 1.1 – Exemple de Google : indépendance de l’Algérie

Intéressons-nous à un second exemple :

Question Où est Brest ?

Réponses en France

en Bretagne

dans le Finistère

Dans ce cas, toutes les réponses sont correctes mais elles sont plus ou moins précises :Franceest

plus générique queBretagnequi est aussi plus générique queFinistère. Ici, les réponses seront plus ou

moins pertinentes selon les connaissances de l’utilisateur.

10

1.2. État de l’art sur la gestion des inconsistances

Dans un objectif de coopérativité, nous nous plaçons dans lecadre de systèmes question-réponse qui

proposent non pas un ensemble de réponses possibles à une question mais une seule réponse qui n’est

plus un extrait de pages mais générée en langue naturelle. Enparticulier, la génération en langue naturelle

des réponses que nous proposons se fait à l’issue d’un certain nombre de mécanismes de raisonnement

permettant de fournir à l’utilisateur desréponses coopérativesen accord avec les principes définis par

Grice [Grice, 1975]. Ces principes oumaximes de coopérationdécrivent le comportement coopératif

des humains au cours de dialogues :

– maxime de qualité: une conversation doit être constructive (ne jamais dire cequ’on pense être

faux ou évident),

– maxime de quantité: une conversation doit être ni trop ni trop peu informative,

– maxime de style: éviter les expressions peu claires ou ambiguës,

– maxime de relation: une réponse doit être pertinente par rapport aux attentes du questionneur.

Ainsi, dans un système informatique, les réponses coopératives doivent fournir à l’utilisateur des

explications et/ou des justifications sur les mécanismes mis en œuvre pour l’obtention des réponses mais

elles doivent être aussi les plus adéquates possibles, tantsur la forme que sur le contenu, en fonction des

attentes ou des connaissances des utilisateurs.

Le problème que nous devons donc résoudre est de générer uneréponse synthétiqueà une requête

même lorsque plusieurs réponses possibles sont trouvées par le moteur d’extraction. Pour cela, l’idée

que nous proposons est d’intégrer les différentes réponsespossibles afin de générer une seule réponse

cohérente mais qui prenne en compte les informations provenant des différentes réponses possibles.

L’ intégration se définit comme l’action qui permet "d’assembler des éléments divers afin d’en constituer

un tout organique" (définition du Trésor de la Langue Française).

Le but est donc de définir les différents mécanismes pouvant permettre d’intégrer plusieurs réponses

possibles à une requête afin de ne proposer qu’une seule réponse qui soit coopérative.

Dans ce chapitre, nous commençons par présenter un bref étatde l’art où nous montrons comment

les différents systèmes actuels traitent le problème. Dansune seconde partie, nous décrivons le corpus

que nous avons constitué afin d’étudier en détail les relations existant entre différentes réponses possibles

à une même question puis nous établissons une typologie de ces relations et des mécanismes à mettre en

œuvre pour l’intégration.

1.2 État de l’art sur la gestion des inconsistances

Les systèmes question-réponse actuels se contentent pour la plupart de proposer les réponses à l’uti-

lisateur sous forme d’un ensemble de liens vers des pages Webou des extraits de ces pages contenant la

ou les réponses aux questions (la génération de langue naturelle dans ces systèmes n’a donc été que très

11


peu étudiée). Le problème de la consistance des réponses trouvées par le moteur d’extraction ne se pose

alors qu’en termes de réponses correctes ou incorrectes : letravail consiste à filtrer les réponses jugées

non pertinentes. D’autres systèmes, tels que les systèmes de résumé automatique, s’intéressent aussi aux

relations existant entre plusieurs textes ou extraits de pages Web.

Dans les sections suivantes, nous présentons les relations(sémantiques ou autres) pouvant exister

entre plusieurs textes, comment elles sont établies et traitées dans des domaines comme la recherche

d’informations, les systèmes question-réponse, de résuméautomatique ou les bases de données (dans le

cadre de l’intelligence artificielle).

1.2.1 Dans les moteurs de recherche

La plupart des systèmes actuels sur le Web produisent un ensemble de réponses à une requête sous

la forme d’hyperliens ou d’extraits de pages Web contenant les réponses potentielles. Dans ce cas, le

problème de la consistance des informations fournies par les systèmes ne se pose pas. En effet, les

systèmes actuels sélectionnent des pages et/ou des extraits de pages Web (1) en recherchant les pages qui

contiennent les mots-clés de la requête et (2) en classant les pages candidates selon certains critères.

Les moteurs de recherche classiques par exemple classent les pages résultats selon des critères de

contenu ou de popularité. Ainsi, des moteurs comme Voilà, Lycos ou AltaVista classent simplement

les pages selon le nombre d’occurrences des termes de la requête dans les pages, de leur proximité, de

leur place dans le texte : c’est le tri par contenu [Salton, 1989], [Yuwono et al., 1995]. Cette méthode a

pourtant ses inconvénients : en effet, certains auteurs n’hésitent pas à introduire volontairement des mots

souvent utilisés dans les requêtes pour que leurs pages figurent dans les tout premiers liens (spamming).

Le moteur Google s’appuie lui sur la méthode de tri PageRank [Page et al., 1998] qui classe les pages

selon une estimation de leur popularité (probabilité de présence sur la page d’un internaute qui se déplace

aléatoirement sur le Web).

1.2.2 Dans les systèmes question-réponse

Les techniques sont différentes pour les systèmes question-réponse. Par exemple, le système COGEX

[Moldovan et al., 2003] utilise un moteur d’inférence (un démonstrateur logique) pour extraire des rela-

tions lexicales entre la question et ses réponses candidates. Les sorties de COGEX sont les réponses clas-

sées selon leur score lors de la démonstration. Quant au système Inference Web [McGuinness et al., 2004],

il a pour but de donner des informations aux utilisateurs surles origines des réponses et comment elles

ont été trouvées. La notion deprovenance des connaissancesest utilisée pour augmenter la confiance

qu’un utilisateur peut avoir en une réponse.

12


Enfin, d’autres systèmes classent les réponses candidates selon des critères syntaxiques, sémantiques,

etc. Ainsi, le système présenté dans [Harabagiu et al., 1999] répond à des questions de typelisteet définit

un seuil en dessous duquel les réponses extraites sont éliminées. L’idée est d’utiliser des calculs de

similarité entre les concepts des réponses candidates afin d’établir une valeur seuil pour ne sélectionner

que certaines réponses d’une liste de réponses.

Le générateur de réponses du système JAVELIN [Nyberg et al.,2003] produit quant à lui une liste

classée de réponses à partir d’un ensemble de réponses candidates. Il effectue aussi plusieurs opérations

telles que combiner les réponses candidates équivalentes ou filtrer les réponses incorrectes après véri-

fication du type de la réponse. Pour déterminer les relationsexistant entre les réponses candidates et la

réponse cible, le générateur utilise WordNet afin d’obtenirdes informations sur les relations d’hyperony-

mie ou de méronymie. Le Web est aussi utilisé pour vérifier lesrelations trouvées : le générateur crée

des patrons de validation à partir du type de réponse attendue et des réponses candidates puis envoie une

requête sur le Web et génère un score à partir du nombre de documents retrouvés.

Enfin, le système présenté dans [Narayanan et al., 2004] procède à une analyse des questions et des

documents (analyse syntaxique, reconnaissance des entités nommées, identification des structures prédi-

catives et du type de la question). Les réponses candidates sont ensuite classées selon leur adéquation à

la structure sémantiquerecherchée (classes des entités nommées, ontologie des types de réponses). Des

critères tels que l’auteur, le type ou la fiabilité des documents sont aussi pris en compte. Le système de

[Radev et al., 2000] quant à lui, annote les documents par lescatégories sémantiques des concepts pour

retrouver les réponses candidates plus facilement puis un score est affecté à chaque passage candidat en

fonction du type d’annotation rencontrée, du nombre de motsde la question apparaissant dans la réponse,

de la distance entre les mots...

Récemment, les systèmes question-réponse avancés, utilisant du raisonnement, se sont intéressés aux

relations entre différentes réponses candidates afin de ne proposer qu’une réponse unique et cohérente.

Ainsi, dans [Webber et al, 2002], les relations entre plusieurs réponses potentielles sont étudiées en dé-

tails afin de proposer une réponse correcte. Une réponse correcte à une question factoïde peut être trouvée

dans une phrase ou dans un ensemble de réponses. De plus, celle-ci peut être explicite dans un texte ou

peut requérir des inférences ou d’autres méthodes de fusiond’informations. Pour cela, quatre relations

entre réponses sont définies :

– l’équivalence: les réponses équivalentes (qui s’impliquent mutuellement) peuvent être remplacées

par un membre de l’équivalence,

– l’inclusion : une réponse en implique une autre et les réponses peuvent être remplacées par la plus

spécifique,

– l’agrégation : les réponses sont mutuellement consistantes mais ne s’impliquent pas et peuvent

être remplacées par leur conjonction,

13


– l’alternative : les réponses sont inconsistantes entre elles. Dans le cas de question ayant une

réponse unique, seulement une de ces réponses est correcte.Dans le cas contraire, toutes les

alternatives peuvent être des réponses correctes.

Enfin, le système présenté dans [Harabagiu et al., 2004] est un système question-réponse qui fu-

sionne une collection de réponses pour générer une seule réponse à l’aide de patrons. Dans un premier

temps, les réponses extraites sont converties en une série de patrons utilisant une structure prédicat-

argument. Ensuite, un modèle probabiliste détecte les relations entre les patrons, par exemple via une

approximation sémantique (utilisant WordNet). L’algorithme calcule une distribution de probabilités des

relations possibles entre patrons et ne conserve que les relations dont la probabilité dépasse un certain

seuil. Un ensemble de 7 opérateurs de fusion des patrons est appliqué aux relations détectées afin de

générer l’ensemble final de patrons :

– contradiction (deux patrons contiennent des informations contradictoires),

– addition (un patron apporte plus d’informations qu’un autre sur un même fait),

– raffinement (un patron apporte des informations plus précises qu’un autre sur un même fait - par

exemple, un patron donne le pays et l’autre donne la ville),

– accord (les patrons sont redondants),

– généralisation (plusieurs patrons sont complémentaires et contiennent des informations incom-

plètes qu’il faut combiner),

– tendance(les patrons ont les mêmes caractéristiques à des moments différents),

– non-information (les patrons ne contiennent pas d’information utile ou confirmée).

Dans le cadre des systèmes question-réponse, ces relationsentre les réponses potentielles peuvent

servir à filtrer les réponses redondantes ou équivalentes afin de réduire le nombre de réponses potentielles.

1.2.3 Dans les systèmes de résumé automatique

Utilisant le même principe, les systèmes de résumé automatique s’intéressent aussi aux relations entre

différents textes ou phrases. Ainsi, le système présenté dans [Barzilay et al., 1999] utilise une méthode

permettant de générer automatiquement un résumé concis en identifiant et en synthétisant les éléments

similaires d’un ensemble de documents. Le système compare les phrases extraites similaires et choisit

les groupes de mots à inclure dans le résumé. La détermination du contenu se fait par l’intersection des

groupes de mots en comparant leurs structures prédicat-argument. Par ce procédé, le système sélectionne

les groupes de mots qui contiennent des informations communes au thème du résumé.

Le système SUMMONS [Radev et al., 1998] récupère le plus d’informations possibles de sources

multiples, les combine et les présente de manière concise à l’utilisateur. Plusieurs relations sont définies

entre les différents éléments à inclure dans le résumé :

14


– le changement de perspectivepour une source identique,

– la contradiction : quand deux sources rapportent des informations contradictoires à propos d’un

même événement,

– l’addition : de nouvelles informations sont ajoutées par de nouvelles sources,

– la précision : une nouvelle source peut apporter des précisions sur une information,

– l’accord : quand deux sources rapportent les mêmes informations,

– la généralisation: pour agréger plusieurs événements rapportés par plusieurs sources,

– la tendance: quand plusieurs sources rapportent des événements similaires au cours du temps.

Radev a ensuite défini la Cross-document Structure Theory (CST) pour l’analyse de plusieurs docu-

ments [Radev, 2000]. Il établit une taxonomie des relationsinter-documents servant au résumé multi-

documents pour la longueur du résumé, la provenance des informations, l’accord entre les sources

ou l’ordre chronologique des faits. La taxonomie comporte 24 relations entre des mots, des expres-

sions, des phrases, des paragraphes ou des documents entiers. Elle reprend les relations définies dans

[Radev et al., 1998] auxquelles sont ajoutées, entre autres, les relations de jugement, de description, de

comparaison, etc.

1.2.4 En intelligence artificielle

En intelligence artificielle, le problème de l’inconsistance est aussi souvent traité pour l’interrogation

et la maintenance de bases de données ou de connaissances. Lafusion d’informations est alors utilisée

dans le cadre de la logique pour construire une base de données cohérente à partir de plusieurs bases.

De nombreuses définitions de la fusion d’informations existent. Par exemple, [Wald, 2003] définit la

fusion d’informations commeun cadre formel dans lequel s’expriment les moyens et techniques permet-

tant l’alliance des données provenant de sources diverses.Elle vise à l’obtention d’information de plus

grande qualité. Selon le groupe de travail européen FUSION (de 1996 à 1999),la fusion d’informations

consiste à regrouper des informations issues de plusieurs sources et à exploiter l’information regroupée.

Enfin, selon [Bloch, 2003],la fusion d’informations consiste à combiner des informations issues de

plusieurs sources afin d’améliorer la prise de décision.

La fusion d’informations est en particulier utilisée pour traiter les informations imparfaites. En pré-

sence d’informations imparfaites, plusieurs possibilités sont offertes :

– soit supprimer ces informations,

– soit les tolérer (les algorithmes utilisés doivent être robustes),

– soit les modéliser.

C’est cette dernière approche qui est retenue pour la fusion.

15


Il existe plusieurs types d’imperfections des informations :

– l’ incertitude : une information incertaine décrit une connaissance partielle de la réalité. Pour

mesurer l’incertitude, il faut donc connaître la réalité.

– l’ imprécision : elle mesure un défaut quantitatif de connaissances (alorsque l’incertitude mesure

un défaut qualitatif).

– l’ incomplétude : elle mesure le manque d’informations données par la source.

– la redondance.

– la complémentarité : des informations sont complémentaires si elles sont de nature différente et

permettent de préciser la réponse du système.

– leconflit : des informations sont en conflit si elles sont contradictoires. Dans le cadre de la théorie

des croyances, l’inconsistancemesure le conflit entre des informations venant de plusieurssources.

– l’ambiguïté : elle entraîne plusieurs interprétations à partir d’une seule information.

La qualité des sources, que l’on peut juger par exemple grâceà des critères d’indépendance et de fiabilité,

est aussi à prendre en considération.

[Cholvy et al, 1997] présente un aperçu des différentes approches logiques pour raisonner en pré-

sence d’inconsistances : la révision de croyances, la mise àjour de données, les contraintes d’intégrité,

etc. Par exemple, [Lin et al, 1999] utilise le principe de majorité pour fusionner plusieurs bases de

connaissances : pour résoudre un conflit, on laisse la majorité décider.

[Delgrande et al, 2004] présente deux approches pour la fusion de bases de connaissances :

– les sources sont combinées de telle sorte que le résultat est le sous-ensemble maximal de formules

contenant les données communes à toutes les bases de connaissances [Ullman et al., 1986],

– les bases sont "projetées" sur une autre : pour cela, les sources à fusionner sont utilisées pour

augmenter les connaissances d’une autre source.

De nombreuses approches logiques en fusion d’informationsprennent aussi en compte la fiabilité

des sources, la fiabilité d’une même source pouvant même varier selon lethèmeabordé [Cholvy, 1994].

Dans cette optique, [Motro et al, 2004] définit desinconsistances intensionnelles(ou inconsistances sé-

mantiques, quand les données de la base sont, par exemple, dans des langues ou des unités différentes) et

desinconsistances extensionnelles(ou inconsistances de données, quand des données décrivant un même

objet sont différentes).

Beaucoup de systèmes, comme HERMES [Subrahmanian et al., 1994], SIMS [Arens et al., 1996] ou

TSIMMIS [Garcia-Molina et al., 1997] sont capables de détecter et de résoudre les inconsistances in-

tensionnelles. Au contraire, peu de systèmes se sont intéressés à la détection et à la résolution d’in-

consistances extensionnelles. Des approches probabilistes se contentent de les détecter et de donner à

l’utilisateur un ensemble de réponses associées à une probabilité [Tseng et al., 1992], [Lim et al., 1994].

En d’autres termes, ces approches fusionnent des probabilités et non des données et peuvent être vues

16


comme des méthodes de gestion de l’incertitude plutôt que degestion de l’inconsistance.

En revanche, le système Fusionplex [Motro et al, 2004] permet de détecter et de résoudre les deux

types d’inconsistances ci-dessus. Pour cela, le système suppose que toutes les données ne peuvent pas être

considérées de la même façon. Cinq traits sont donc définis pour caractériser précisément les données :

– la date : la date à laquelle l’information de la source a été validée,

– le coût : le temps nécessaire pour transmettre l’information, le prix de l’information, etc.,

– l’exactitude : la probabilité indiquant l’exactitude de l’information,

– la disponibilité : la probabilité de disposer de l’information à un certain moment,

– la confidentialité : le niveau de confidentialité de l’information.

L’utilisateur peut ensuite choisir le critère auquel il veut accorder le plus d’importance ainsi que la

méthode de fusion (moyenne, sélection aléatoire, ...).

Enfin, [Hunter et al, 2004] présente un système de fusion de rapports météo. Quand plusieurs rap-

ports présentent des informations contradictoires, le système utilise plusieurs méthodes pour les fusion-

ner : la disjonction, la conjonction, la généralisation, lapréférence vis-à-vis des sources, le vote pondéré

ou encore le calcul du centre de gravité (calcul de la distance sémantique entre plusieurs concepts).

Une autre approche, appeléeentity resolution[Newcombe et al., 1959], consiste à identifier et à

fusionner les enregistrements d’une base de données considérés comme représentant la même entité.

La première étape consiste d’abord à comparer les données : cette tâche repose essentiellement sur

des techniques de comparaison de chaînes de caractères [Chaudhuri et al., 2003]. Les résultats de ces

comparaisons permettent ensuite d’identifier les enregistrements à regrouper en utilisant des techniques

de "clustering" [Chaudhuri et al., 2005] ou de classification (réseaux bayésiens, SVM, etc.).

1.2.5 Synthèse

Les différents systèmes que nous avons présentés ci-dessusse sont intéressés aux relations pouvant

exister entre un ensemble de réponses à une même question, entre un ensemble de textes ou de don-

nées. Ainsi, si l’on se place dans le cadre d’un système question-réponse, établir des relations entre

un ensemble de réponses sert essentiellement à filtrer les réponses pertinentes parmi un ensemble de

réponses candidates. Par exemple, quand plusieurs réponses sont considérées comme redondantes (ou

équivalentes), le système ne va en proposer qu’une seule.

Les relations utilisées par ces systèmes, bien que portant des noms différents, sont sensiblement les

mêmes. En effet, de nombreux systèmes utilisent WordNet pour établir des relations sémantiques entre

les réponses :

17


– relations d’équivalence pour [Webber et al, 2002] et [Harabagiu et al., 2004] ou d’accord pour

[Radev et al., 1998],

– relations d’inclusion pour [Webber et al, 2002] et [Nyberget al., 2003] ou de généralisation pour

[Radev et al., 1998],

– relations d’agrégation pour [Webber et al, 2002] ou d’addition pour [Radev et al., 1998], et

– relations d’alternative pour [Webber et al, 2002] ou de contradiction pour [Radev et al., 1998].

Ainsi les systèmes question-réponse actuels proposent-ils à l’utilisateur soit un ensemble de réponses

candidates (classées ou non), soit la "meilleure" réponse selon certains critères de pertinence. Ils ne

traitent pas le problème de la production d’une réponse qui prendrait en compte lesinformations four-

nies par toutes les réponses candidatesni le problème des réponses candidates inconsistantes.

Quant aux approches logiques utilisées pour l’interrogation de bases de données, elles s’appuient pour

la plupart soit sur des approches statistiques soit sur la fiabilité des sources. Contrairement à l’hypothèse

faite dans [Motro et al, 2004] dans le cadre des bases de données, nous avons constaté que les informa-

tions concernant la provenance des réponses sur le Web (par exemple, la source, la date, l’auteur, etc.)

sont plutôt difficiles, voire impossibles à obtenir, du moins en l’état actuel des choses (à moins de faire

des hypothèses peu satisfaisantes telles queune page officielle est plus fiable qu’une page personnelle).

Nous supposons donc pour la suite quetoutes les pages Web sont plausibles.

Le problème qu’un système question-réponse sur le Web doit donc résoudre est de générer une ré-

ponse à une question même si plusieurs réponses possibles sont sélectionnées par le moteur d’extraction.

Dans ce but, nous proposons d’intégrer, selon certains critères que nous détaillons ensuite, les différentes

réponses possibles afin de générer une seule réponse cohérente qui prenne en compte la diversité des

réponses potentielles en s’appuyant sur le principe suivant : la réponse proposée doit être la réponse la

plus cohérente avec l’ensemble des réponses candidates et apporter des explications.

Pour cela, nous établissons un ensemble de relations entre les réponses candidates, en nous inspirant

des quatre principales relations définies ci-dessus (équivalence / accord, inclusion / généralisation, agré-

gation / addition, alternative / contradiction) mais aussien définissant de nouvelles relations apparues

au cours de notre étude de corpus. Ces relations nous permettent d’établir un ensemble de mécanismes

d’intégration des réponses candidates afin de générer des réponses coopératives qui prennent bien en

compte toutes les caractéristiques et particularités des réponses candidates.

1.3 Corpus d’étude

Afin d’identifier les mécanismes d’intégration à mettre en œuvre pour la génération de réponses, il est

important d’étudier les relations qui peuvent exister entre les différentes réponses à une même question.

Pour cela, nous avons constitué un corpus de 180 paires question-réponses en français qui reflètent les

18

1.3. Corpus d’étude

différents problèmes (les paires question-réponse sont obtenues via Google - le moteur de recherche le

plus utilisé par les internautes - ou le système question-réponse QRISTAL qui s’est classé premier lors

de la campagne française d’évaluation EQuER [QRISTAL]).

Dans les sections suivantes, nous détaillons la méthodologie de constitution et d’analyse du corpus.

Nous faisons l’hypothèse que toutes les réponses candidates obtenues via le moteur d’extraction sont du

même type sémantique que celui attendu par la question.

1.3.1 Constitution du corpus

Afin d’identifier les différentes relations existant entre plusieurs réponses possibles à une même

question que l’on obtient en situation réelle, nous avons constitué un corpus de paires question-réponses.

Pour cela, des requêtes ont été posées à Google et QRISTAL et nous avons recueilli l’ensemble des

réponses proposées.

Le but étant de constituer un corpus le plus représentatif possible afin de permettre une étude qua-

litative des différents phénomènes, nous avons établi un ensemble de 180 questions couvrant le plus

grand nombre de types de réponses attendues. Ainsi, nous nous sommes appuyés sur la typologie de

réponses attendues utilisée pour les campagnes TREC : les réponses peuvent être de typelocalisation

(ville, région, pays, etc.),numérique(distance, poids, etc.),temporel, etc. (cf. tableau 1.1). Nous ne nous

intéressons pas ici aux réponses de typedescriptionpuisque nous ne traitons que les questions factuelles

(i.e. des questions à propos de faits).

HUMAIN LOCALI- NUME- TEMPS OBJET DESCRIP-SATION RIQUE TION

personne planète comptage année monnaie significationorganisation ville prix mois musique manière

continent pourcentage jour animal causepays distance planterégion poids nourritureétat degré couleurprovince âge religionrivière rang guerrelac vitesse languemontagne fréquence travailocéan taille professionîle moyenne loisir

jeu

TAB . 1.1 – Types de réponses attendues définis par TREC

19


À tous ces types de réponses attendues, il convient bien entendu d’en ajouter certains afin d’avoir un

ensemble plus complet : par exemple, le rôle ou la fonction pour le typehumain, l’heure ou la durée pour

le typetemps, la direction pour le typelocalisation, mais aussi le type booléen qui va permettre de traiter

des questions de type évaluatif (par exemple,L’hôtel X est-il plus cher que l’hôtel Y ?).

Nous avons sélectionné des questions qui n’acceptent qu’une seule réponse possible et des questions

qui en acceptent plusieurs. 44% des questions de notre corpus proviennent du corpus de questions de

la campagne d’évaluation TREC. Pour le choix des autres questions, nous avons adopté une méthode

centrée sur les besoins des utilisateurs : le choix des questions a en effet été guidé par des sites d’in-

ventaires des requêtes les plus fréquemment posées sur le Web. Nous avons ainsi utilisé les générateurs

de mots-clés de Google2 et d’Overture3. Par exemple, le mot-cléhauteursoumis à Overture donne,

parmi les requêtes les plus fréquentes,hauteur mont-blanc, hauteur panier basket, etc. Les questions

ainsi obtenues représentent 38% du corpus. Afin d’avoir un corpus le plus diversifié possible, le corpus

de questions a ensuite été enrichi manuellement car certains domaines étaient sous-représentés (18% du

corpus). Le corpus de questions est donné en annexe A.

Les questions sont ensuite soumises à Google sous forme de mots-clés ou à QRISTAL sous forme de

question en langue naturelle. Ces deux systèmes fournissent un ensemble de pages comme réponses

potentielles. Un premier travail manuel a consisté à ne garder parmi ces pages que celles qui sont

jugées pertinentes, c’est-à-dire qui proposent effectivement une réponse, même fausse, à la question.

Par exemple, la page qui propose comme réponseLudwig von Beethoven est bien mort des suites d’un

empoisonnement au plombà la questionQuand est mort Beethoven ?n’est pas conservée car elle ne

donne pas d’information temporelle sur la mort de Beethoven.

Nous décrivons ci-dessous les principales configurations de relations entre réponses.

1.3.1.1 La question n’a qu’une seule réponse possible

Le moteur d’extraction peut proposer :

(i) une ou plusieurs réponse(s) qui coïncide(nt) avec la réponse attendue

Exemple :

Q : À qui Bernard Tapie a-t-il vendu le Phocéa ?

R :

- Bernard Tapie a vendu le Phocéa à Mouna Ayoub.

- Mouna Ayoub a acheté le Phocéa.

2https ://adwords.google.fr/select/KeywordSandbox3http ://inventory.overture.com/d/searchinventory/suggestion/ ?mkt=fr

20

1.3. Corpus d’étude

- Mouna Ayoub rachète le bateau de Bernard Tapie.

(ii) une ou plusieurs réponse(s) qui inclut (incluent) la réponse attendue

Exemple:

Q : Où se trouve Toulouse ?

R :

- Entre Méditerranée et Atlantique, à 730 km de Paris, Toulouse est la capitale de la grande région Midi-

Pyrénées.

- L’agglomération toulousaine compte parmi les toutes premières métropoles de l’Europe du Sud.

(iii) une ou plusieurs réponse(s) correcte(s) et une ou plusieurs réponse(s) incorrecte(s)

Exemple:

Q : Quand a été proclamée l’indépendance de l’Algérie ?

R :

- 5 juillet 1962 : proclamation de l’indépendance de l’Algérie.

- 3 juillet 1962 : le général de Gaulle proclame l’indépendance de l’Algérie.

(iv) aucune réponse correcte

Exemple:

Q : Quel est le taux de mariage en France en 2004 ?

R :

- de 7,5 à 5,5 entre 1974 et 1981

- 5,4% d’étudiants mariés en 2004

- 40% mariages mixtes chez les juifs moins de 30 ans

1.3.1.2 La question a plusieurs réponses possibles

Le moteur d’extraction peut proposer :

(i) une seule réponse qui coïncide avec toutes les réponses attendues

Exemple:

Q : Quelles langues sont parlées sur l’île de Jersey ?

R : L’anglais est la langue officielle, la langue française reste officielle pour la documentation légale,

21


mais la langue couramment utilisée est un dialecte normand :le jersiais.

(ii) plusieurs réponses, chacune coïncidant avec une des réponses attendues

Exemple :

Q : Où se trouve Disneyland ?

R :

- à Paris

- à Tokyo

- à Hong-Kong

- à Los Angeles

(iii) toutes les réponses attendues et une ou plusieurs réponse(s) incorrecte(s)

Exemple :

Q : Quelle est la monnaie de la France ?

R :

- le franc

- l’euro

(iv) seulement quelques réponses attendues avec ou sans réponse(s) incorrecte(s)

Exemple :

Q : Où se trouvent les Alpes ?

R :

- La Suisse fait partie de l’Arc alpin.

- Les Alpes sont la frontière naturelle entre la France et l’Italie.

Ici, il manque les réponses suivantes : Allemagne, Autricheet ex-Yougoslavie.

(v) aucune réponse correcte

Exemple :

Q : Quels sont les 3 pays les plus grands exportateurs de blé aumonde en 2004 ?

R :

- L’Argentine est le 4ème pays exportateur de blé au monde (2002).

- La France est le quatrième producteur agricole du monde et le deuxième pays exportateur de produits

agricoles.

22

1.4. Typologie des réponses et mécanismes d’intégration associés

1.3.2 Méthodologie d’analyse du corpus

Une fois le corpus constitué, l’étude de ce dernier doit nouspermettre d’établir les différentes rela-

tions pouvant exister entre plusieurs réponses à une même question.

Les critères retenus pour l’analyse du corpus sont les suivants :

– le nombre de réponse(s) attendue(s) par la question (une ouplusieurs),

– le type de réponse attendue,

– les relations entre les différentes réponses.

Le but est de définir les types de relations entre les réponsesen fonction du type de question. Ainsi,

les relations entre les réponses seront différentes selon que la question attend une ou plusieurs réponses.

Par exemple, si une question n’attend qu’une seule réponse et que le moteur d’extraction en propose

plusieurs, ces réponses sont alors soit équivalentes, soitce que nous appelons "inconsistantes" (réponses

qui sont a priori différentes ou effectivement différentes).

Dans la section suivante, nous décrivons notre typologie des relations entre les réponses ainsi que les

mécanismes d’intégration associés à chaque cas.

1.4 Typologie des réponses et mécanismes d’intégration associés

L’étude de corpus nous a permis d’identifier les principalesrelations pouvant exister entre un en-

semble de réponses candidates. Nous nous sommes inspirés des quatre principales relations définies

dans [Webber et al, 2002], à savoir : l’équivalence, l’ inclusion, l’agrégation et l’alternative. L’étude

de corpus nous a permis de les préciser et d’identifier les mécanismes d’intégration mis en œuvre par des

opérateurs humains pour produire une réponse synthétique.

Nous supposons tout d’abord que le moteur d’extraction, quiextrait un ensemble de réponses candi-

dates, ne propose que des réponses correspondant au type de réponse attendue par la question c’est-à-dire

des réponses potentiellement correctes. Lors de l’étude decorpus, nous ne nous sommes donc intéressés

qu’aux réponses remplissant ces conditions.

En reprenant la méthodologie présentée précédemment, l’étude de corpus nous a permis de confirmer

l’existence des quatre relations (équivalence, inclusion, agrégation, alternative) mais surtout de les préci-

ser et d’identifier les ressources nécessaires à leur détection. Dans les sections suivantes, nous présentons

une typologie des relations entre réponses candidates ainsi que les mécanismes d’intégration de données à

utiliser pour prendre en compte ces réponses et générer en langue une réponse qui soit la plus coopérative

possible.

23


1.4.1 La relation d’alternative

L’alternative définit un ensemble de réponsesinconsistantesentre elles. Dans le cas de question

ayant une réponse unique, seulement une de ces réponses est correcte. Dans le cas contraire, toutes les

alternatives peuvent être des réponses correctes.

(i) Indécidabilité

Par exemple, la question suivante n’admet qu’une seule réponse (pour une année donnée) :

Q : Quand commence l’automne ?

R :

- 20 septembre 2004

- 21 septembre

- SAISONS 2004 : Automne équinoxe : 22 septembre

Les trois réponses proposées sont inconsistantes et une seule de ces réponses est correcte. Le but est

donc de trouver laquelle de ces réponses est correcte. Il existe pour cela plusieurs solutions :

– favoriser les pages les plus récentes et, bien sûr, celles qui donnent l’information pour l’année en

cours,

– calculer le taux de pertinence des différentes pages et favoriser la réponse proposée par la page la

plus pertinente,

– ne privilégier aucune réponse par rapport à une autre mais générer une réponse qui expliquera

l’inconsistance.

(ii) Disjonction

La question suivante accepte plusieurs réponses possibles:

Q : Avec quoi puis-je payer mon billet d’avion Air France ?

R :

- Vous pouvez régler votre billet en envoyant unchèqueà l’adresse suivante : ...

- Utiliser votrecarte de crédit pour effectuer un paiement via Internet est aussi sûr que de réserver par

téléphone.

Dans ce premier cas, les deux réponses sont inconsistantes (elles donnent des informations diffé-

rentes) mais sont toutes deux des réponses correctes en relation d’alternative puisqu’on ne peut payer

que soit par chèque soit par carte (mais pas avec les deux moyens en même temps !).

La réponse à générer peut donc être une disjonction des deux réponses candidates (ex :vous pouvez

24


payer par chèque ou par carte bancaire).

(iii) Filtrage

Ce que nous appelons "filtrage" des réponses incorrectes estpossible grâce à la prise en compte de

certains paramètres comme la date des informations.

Q : Combien y a-t-il d’habitants en France ?

R :

- 63 millions au 1er janvier2006

- 60 754 193 en 2003

Ici, si la date n’est pas précisée dans la question, on peut supposer que l’utilisateur demande une

information (le nombre d’habitants) pour l’année en cours (2006). Les réponses correspondant à des

informations pour des années antérieures (ici 2003) peuvent donc être supprimées de l’ensemble des

réponses candidates.

(iv) Généralisation

Des généralisations sont possibles parmi un ensemble de réponses candidates inconsistantes. Dans

l’exemple suivant, l’utilisateur demande la date de la fêtede la musique et le moteur d’extraction propose

les pages donnant les dates de toutes les éditions de cette fête. Si les réponses ont certaines caractéris-

tiques communes, on peut les fusionner selon ces caractéristiques.

Q : Quand a lieu la fête de la musique ?

R :

- samedi21 juin 2003

- 21 juin 2002

- la Fête de la Musique est lancée, le21 juin 1982, jour du solstice d’été

- 21 juin 1992

- ......

Ainsi, les réponses candidates pour cette question sont desdates et on remarque qu’elles ont toutes

en commun le jour et le mois (21 juin). On peut générer une réponse qui va généraliser la date selon ces

critères. On pourra donc par exemple générer une réponse telle quela fête de la musique a lieu tous les

21 juin.

(v) Intervalle

Certaines informations, numériques ou non, peuvent être regroupées sous forme d’intervalle.

25


Q : Quand a lieu le prochain festival de Cannes ?

R :

- du 15 au 26 mai 2002

- du 12 au 23 mai 2004

- l’édition 2005du Festival de Cannes débutera le 11 mai

- la clôture du festival de Cannes aura lieu le 22 mai2005

Dans l’exemple ci-dessus, une première étape de filtrage peut être effectuée afin d’éliminer des

réponses non pertinentes (ici les réponses donnant les dates des festivals antérieurs à la date actuelle). Il

reste ainsi deux réponses candidates, l’une donnant la datede début du festival et l’autre la date de fin.

Ces deux réponses peuvent être fusionnées sous forme d’un intervalle et permettre ainsi de générer une

réponse telle quele prochain festival de Cannes aura lieu du 11 au 22 mai 2005.

(vi) Moyenne

Les réponses de type numérique peuvent être intégrées en utilisant un mécanisme de fusion tel que

le calcul de moyenne. Il est bien entendu qu’un calcul de moyenne n’est possible et cohérent que si les

valeurs à fusionner sont du même ordre de grandeur (sinon la réponse risque de proposer une moyenne

qui ne sera pas représentative de la réponse attendue).

Q : Quelle distance y a-t-il entre Toulouse et Castanet ?

R :

- 11 km

- 10 km

- une quinzaine de kilomètres

L’ensemble des réponses candidates propose des distances appartenant au même ordre de grandeur :

on peut donc en faire la moyenne (on peut aussi bien sûr les présenter sous forme d’intervalle comme

précédemment). On pourra alors générer une réponse du typela distance Toulouse-Castanet est d’environ

12 km. Si l’on veut produire une réponse qui justifie l’obtention de réponses inconsistantes, on peut aussi

générer une réponse plus coopérative qui expliquera pourquoi les réponses obtenues sont différentes (par

exemple,la distance Toulouse-Castanet est comprise entre 10 et 15 kmselon les itinéraires).

(vii) Comparaison temporelle

Enfin, certaines réponses inconsistantes peuvent être intégrées en générant une réponse qui présente

l’évolution des réponses au cours du temps (par des comparaisons temporelles par exemple mais aussi

par des énumérations chronologiques). Ainsi, les réponsessuivantes peuvent être intégrées en présentant

les faits dans un ordre chronologique et en générant une réponse qui explique ce type d’intégration :

26


Q : Qui était le Président de la République française en 1995 ?

R :

- 7 mai 1995 : Jacques Chiracest élu Président de la République Française

- Le 8 mai 1988, François Mitterrand est réélu président de laRépublique en emportant l’élection

présidentielle contre Jacques Chirac avec 54,0 % des voix.En mai 1995, François Mitterrand achève

son second septennat.

Ici, une réponse possible estFrançois Mitterrand a été Président de la République française jusqu’au

7 mai 1995 puis c’est Jacques Chirac qui a été élu Président.

1.4.2 La relation d’agrégation

L’agrégation définit un ensemble deréponses consistantes. On rencontre cette relation dans le cas où

la question accepte plusieurs réponses différentes. En effet, si la question n’accepte qu’une seule réponse

et qu’on a plusieurs réponses candidates, alors elles sont soit équivalentes soit inconsistantes (relation

d’alternative).

Dans le cas d’une relation d’agrégation, les réponses candidates sont alors toutes potentiellement cor-

rectes (après filtrage des réponses incorrectes ou non pertinentes) et peuvent être intégrées sous forme

d’une conjonction de toutes ces réponses. D’autres mécanismes sont bien entendu possibles. Nous les

présentons ci-dessous.

De plus, plusieurs cas peuvent se présenter : si la question n’est pas suffisamment précise, on peut obtenir

un ensemble de réponses candidates qui seront correctes selon certains critères. Nous détaillons ici ces

cas particuliers.

(i) Conjonction/énumération

Considérons la question suivante :

Q : Où se trouve le parc Disneyland ?

R :

- à Paris

- à Tokyo

- à Hong-Kong

- à Los Angeles

La question accepte bien plusieurs réponses si l’on considère qu’il existe plusieurs parcs. Il n’existe

pas de critères particuliers pour présenter les réponses. On peut donc générer une simple énumération

des réponses candidates :il y a des parcs Disneyland à Paris, Tokyo, Hong-Kong et Los Angeles.

27


Considérons maintenant un exemple de réponses dépendant decritères particuliers :

Q : Quelle distance y a-t-il entre Paris et Toulouse ?

R :

- 713 km en passant par le Massif Central

- 678 km par l’autoroute Orléans-Limoges-Cahors

- 681 km par l’autoroute puis N20

La question peut être considérée comme imprécise puisqu’elle demande la distance entre deux points

sans préciser l’itinéraire. Les réponses candidates sont donc inconsistantes au premier abord puisqu’elles

donnent des informations différentes mais deviennent consistantes dès que l’on prend en compte les

différents critères qui les différencient (les itinéraires). Une réponse possible sous forme d’énumération

des réponses candidates peut donc être :la distance entre Paris et Toulouse est de 713 km en passant par

le Massif Central, 678 km en prenant l’autoroute Orléans-Limoges-Cahors et 681 km par la N20.

(ii) Intervalle

Les réponses de l’exemple précédent peuvent aussi être intégrées sous forme d’intervalle en précisant

le critère. On peut ainsi générer une réponse du type :la distance entre Paris et Toulouse est comprise

entre 678 km et 713 km selon les itinéraires.

(iii) Comparaison

Enfin, les réponses peuvent aussi être intégrées en utilisant une comparaison toujours en précisant le

critère. On peut ainsi générer une réponse du type :la distance entre Paris et Toulouse est de 35 km de

plus en passant par le Massif Central qu’en prenant l’autoroute Orléans-Limoges-Cahors.

1.4.3 La relation d’inclusion

La relation d’inclusion existe entre deux réponses quand l’une des réponses implique l’autre. Cette

relation se définit entre des concepts des réponses candidates, ces concepts étant en relation dans une

ontologie : les relations ontologiquesest-unou partie-depermettent d’établir une relation d’inclusion

entre deux concepts de réponses candidates a priori différentes. Par exemple, les réponses candidates

ci-dessous sont liées par la relation d’inclusion :

Q : Où se trouve Brest ?

R :

- en France

- dans le Finistère

28


- en Bretagne

Dans cet exemple, on a plusieurs inclusions : le Finistère est "inclus" dans la Bretagne qui est elle-

même "incluse" dans la France. Toutes les réponses candidates étant correctes, le problème réside dans

le choix de la réponse à proposer. [Webber et al, 2002] propose de donner comme réponse la réponse

la plus spécifique mais le choix de la réponse peut aussi être paramétré par un modèle utilisateur :

selon l’origine géographique de l’utilisateur ou selon sesconnaissances, on pourra proposer une réponse

plus ou moins spécifique. On peut aussi générer uneréponse intensionnelleen identifiant le concept

généralisant [Benamara, 2004b].

1.4.4 La relation d’équivalence

Les réponses candidates qui sont en relation d’équivalencesont consistantes entre elles et s’im-

pliquent mutuellement. L’étude de corpus nous a permis de mettre en évidence un certain nombre

d’équivalences que nous présentons dans la suite. Nous avons principalement identifié deux types d’équi-

valences : les équivalences lexicales et les équivalences nécessitant des inférences (notamment du calcul).

1.4.4.1 Équivalence lexicale

On définit la relation d’équivalence lexicale comme la relation qui lie plusieurs réponses candidates

ayant des concepts équivalents (les concepts à considérer sont les concepts réponses et les relations pré-

dicatives qui peuvent exister entre ces concepts). L’étudede corpus nous a permis d’identifier plusieurs

types d’équivalence lexicale présentés ci-dessous.

(i) Synonymie

L’équivalence lexicale la plus simple à repérer est la synonymie. Des réponses seront donc équiva-

lentes si elles utilisent des concepts synonymes. Par exemple :

Q : Qui a tué John Lennon ?

R :

- Depuis quelques jours, tous les médias s’agitaient autourd’une possible libération sur parole deMark

Chapman, l’assassinde John Lennon.

- Le meurtrier de John Lennon,Mark Chapman , qui purge une peine de prison à vie à Attica près de

New York (nord-est), pourrait sortir de prison cette semaine après 24 ans passés derrière les barreaux.

La réponse à la questionQui a tué John Lennon ?est Mark Chapman désigné dans la première

réponse comme l’assassin de John Lennon et dans la deuxième réponse comme son meurtrier. Les

conceptsassassinetmeurtrierétant des synonymes, les deux réponses candidates sont doncéquivalentes.

29


Un autre cas d’équivalence lexicale est l’utilisation desigles ou d’acronymes pour désigner un

concept. Par exemple :

Q : Quel diplôme donne accès à l’université ?

R :

- le DAEU

- le Diplôme d’Accès aux Études Universitaires

Ici, le DAEU est le sigle correspondant àDiplôme d’Accès aux Études Universitaires: les deux réponses

sont donc équivalentes.

Deux réponses peuvent aussi être équivalentes si elles utilisent les mêmes concepts mais dans des

langues différentescomme dans l’exemple ci-dessous (États-Unis en français etUSA en anglais).

Q : Où se trouve l’Empire State Building ?

R :

- aux États-Unis

- aux USA

Dans le cas de la désignation d’une personne, celle-ci peut être désignée par son nom ou sonsurnom

(ou un diminutif) dans des réponses qui seront alors équivalentes.

Q : Qui était le président des États-Unis en 1996 ?

R :

- Bill Clinton

- William Jefferson Clinton

Ici, Bill est un diminutif deWilliam et les deux réponses candidates désignent une seule et unique per-

sonne.

Enfin, une personne peut aussi être désignée par sonrôle, sa fonction ou le poste qu’elle occupe (par

exemple, George Bush est le 43ème président des États-Unis).

Q : Qui est président des États-Unis ?

R :

- le 43ème président des États-Unis a déclaré : "..."

- George W. Bush

(ii) Paraphrases

Si plusieurs réponses candidates sont des paraphrases, alors elles sont sémantiquement équivalentes.

L’exemple ci-dessous présente des réponses équivalentes utilisant de l’inférence lexicale(X achète Y à

Z est équivalent àZ vend Y à X).

30


Q : À qui Bernard Tapie a-t-il vendu le Phocéa ?

R :

- Bernard Tapie a vendu le Phocéa à Mouna Ayoub

- Mouna Ayoub a acheté le Phocéa

- Mouna Ayoub rachète le bateau de Bernard Tapie

L’exemple suivant présente, quant à lui, des réponses équivalentes utilisant unealternance syn-

taxique :

Q : Où puis-je acheter un billet Air France ?

R :

- Vous pouvez acheter vos billets au guichet Air France ou surinternet...

- Les billets peuvent s’acheter au guichet Air France

(iii) Série proportionnelle sans branchement

Enfin, le dernier cas d’équivalence lexicale identifié dans le corpus est le cas de réponses candidates

présentant des propriétés pouvant être représentées sur une série proportionnelle sans branchement (i.e

une hiérarchie qui permet d’ordonner des termes selon une propriété ou une dimension [Cruse, 1986]).

Considérons l’exemple suivant :

Q : Quelle est la couleur de la robe des cardinaux ?

R :

- rouge cardinal

- pourpre

- rouge soutenu

Les différentes réponses peuvent être considérées comme équivalentes si l’on représente les couleurs

sur une série proportionnelle sans branchement selon leur longueur d’onde (cf. figure 1.2).

FIG. 1.2 – Série proportionnelle pour les couleurs

Dans ce cas, on peut considérer que les réponses sont équivalentes puisque les couleurs varient dans

la même gamme de couleur (les couleurs ont des longueurs d’onde proches). On pourrait bien sûr faire

une série pour les couleurs jaune/vert/bleu mais elles ne seraient pas pour autant équivalentes !

31


1.4.4.2 Équivalence par calcul

Nous appelons équivalence par calcul la relation qui lie plusieurs réponses candidates et qui nécessite

des inférences et du calcul pour vérifier qu’elles sont bien équivalentes. Nous donnons quelques exemples

ci-dessous.

(i) Par inférence

Pour déterminer si deux réponses sont équivalentes, il est parfois nécessaire d’avoir recours à des

connaissances de sens commun et de faire des inférences. Ainsi, dans l’exemple suivant :

Q : Combien y a-t-il de pions aux échecs ?

R :

- Un jeu d’échecs comporte 16 pièces blanches et 16 pièces noires

- Les échecs se jouent à 2 joueurs. L’un des joueurs joue avec les pièces blanches, et l’autre joueur avec

les pièces noires.

On sait que le jeu se joue à deux joueurs et que chaque joueur a 16 pièces : il y a donc 32 pièces au

total.

(ii) Par date

Il est aussi parfois nécessaire de faire des inférences ou des calculs par rapport à des dates. Ceci est

illustré par les deux exemples suivants.

Q : Quel âge a l’Airbus A320 ?

R :

- créé en 1984

- 22 ans

La date de création de l’avion nous permet de calculer son âge(date actuelle - date de création : 2006

- 1984 = 22) et nous permet de confirmer l’équivalence entre les deux réponses.

De la même manière, les dates permettent de calculer des durées. Par exemple,

Q : Combien de temps François Mitterrand a-t-il été président ?

R :

- François Mitterrand fut élu Président de la République en 1981 et réélu en 1988.

- Les deux septennats de Mitterrand furent marqués par un ensemble de mesures sociales qu’attendait le

monde du travail.

32


Les dates 1981 et 1988 nous permettent de calculer la durée d’un mandat c’est-à-dire 7 ans. La

première réponse nous indique que François Mitterrand a étéélu président deux fois et a donc occupé ce

poste pendant 14 ans ce qui est équivalent aux deux septennats de la deuxième réponse.

(iii) Par changement de référentiel

Le dernier type d’équivalence nécessitant des inférences et du calcul est lié aux possibles change-

ments de référentiels, principalement les référentiels demesure physique. L’exemple suivant illustre ce

problème.

Q : Quelle est la distance Pluton-Soleil ?

R :

- 5 900 millions de km

- 39,44 Unités Astronomiques

Une unité astronomique (UA) est une unité de mesure qui vaut environ 149,6 millions de kilomètres :

39,44 UA valent donc environ 5900 millions de kilomètres. Les réponses sont donc équivalentes car elles

donnent la même distance mais dans des unités de mesure différentes. Le même problème se pose pour

toutes les unités de mesure (g/kg/tonne, m/km, centime/euro, euro/dollar, etc.).

1.4.5 La relation de complémentarité

Les différents types de réponses exposés jusqu’ici permettent de répondre correctement à une ques-

tion en utilisant les informations fournies par toutes les réponses candidates. Cependant, la forme d’un

certain nombre de questions implique des connaissances et la mise en œuvre de mécanismes d’inférence.

En effet, pour pouvoir répondre à certains types de questions, il est parfois nécessaire de faire des

calculs, des comparaisons, de combiner les informations provenant de plusieurs réponses, etc. : nous

appelonsrelation de complémentaritéla relation qui existe entre ces réponses candidates. C’estce que

nous montrons dans les exemples suivants.

1.4.5.1 Cardinalité

Les réponses à certaines questions ne sont pas forcément explicites dans un texte. Elles doivent alors

être inférées. Nous donnons ici un exemple où le calcul de la cardinalité de l’ensemble des réponses

candidates permet de répondre correctement à la question.

Q : Combien de fois Kuerten a-t-il remporté Roland Garros ?

R :

- Gaudio devient le premier joueur non tête de série à gagner Roland Garros depuis Kuerten en 1997.

- 2000 : G. Kuerten élimine M. Norman (SUE) : 6-2 / 6-3 / 2-6 / 7-6

33


- en 2001, après 3H12 de jeu, Gustavo Kuerten bat l’espagnol Corretja en finale.

Ici, les réponses sont disjointes : on peut donc calculer le cardinal de l’ensemble des réponses candi-

dates pour obtenir la réponse à la question (le cardinal vaut3).

1.4.5.2 Calcul

Certaines questions requièrent des phases de calcul mathématique car les réponses sont difficilement

explicites dans les pages Web. Par exemple :

Q : Quel est le poids de 30 litres d’huile ?

R :

- 1 litre d’eau pèse 1 kg

- Pour l’huile, la densité relative à l’eau est égale à 0,9.

Il est fort peu probable de trouver la réponse à cette question dans une page Web. En revanche, il est

plus facile de trouver le poids d’un litre d’eau (valeur de référence) et la masse volumique de l’huile. Le

poids de 30 litres peut ensuite facilement être calculé : si 1litre d’eau pèse 1 kg, alors 1 litre d’huile pèse

0,9 kg et 30 litres pèsent 27 kg.

1.4.5.3 Comparaison

Enfin, certaines questions utilisant des termes flous (meilleur, loin, cher, etc.) demandent un trai-

tement particulier. En effet, il faut souvent avoir de nombreuses réponses candidates pour pouvoir les

comparer et ainsi répondre à la question. Par exemple :

Q : Quel est le meilleur itinéraire pour aller de Paris à Toulouse ?

R :

- 678 km par autoroute Orléans-Limoges-Cahors

- 681 km par autoroute puis N20

- 5h33 en train Paris-Bordeaux-Toulouse (départ 14h40)

- 6h20 en train Paris-Bordeaux-Toulouse (départ 16h40)

- 7h13 en train Paris-Brive-Toulouse

L’ensemble de réponses candidates propose plusieurs itinéraires Paris-Toulouse. Le but est donc

de les comparer pour pouvoir proposer à l’utilisateur celuiqui est jugé le meilleur. On peut ainsi les

comparer en termes de distance, de temps, de coût, etc., cecidevant être expliqué dans la réponse générée.

34

1.5. Conclusion

1.5 Conclusion

Le tableau de la figure 1.3 montre la représentativité de chaque type de relation entre les réponses en

fonction du type de la question (ou du type de réponse attendue).

Nous avons classé les questions en cinq catégories (celles utilisées par TREC) :localisation, personne,

numérique, tempset objet. Les questions les plus fréquentes dans notre corpus (et parmi les plus fré-

quemment posées sur le Web) sont les questions attendant desréponses numériques ou temporelles.

FIG. 1.3 – Représentativité des relations par type de question

L’étude de corpus nous a ainsi permis de constater que sur les180 questions de notre corpus, les relations

d’alternativeet d’agrégationentre les réponses candidates sont les plus nombreuses, et ce quel que soit

le type de la question (il faut signaler que plusieurs réponses candidates à une même question peuvent

être liées par plusieurs relations : par exemple, si une question obtient 4 réponses candidates, 2 réponses

peuvent être liées par une relation d’équivalenceet les 2 autres par une relation d’inclusion, etc.).

Le tableau de la figure 1.4 récapitule les différents mécanismes d’intégration à mettre en œuvre dans

chaque cas. Ces mécanismes sont issus à la fois de l’état de l’art et de notre étude de corpus.

Dans les chapitres suivants, nous nous intéressons donc à l’intégration et à la génération de ré-

ponses temporelles et numériques, les plus nombreuses dansnotre corpus, liées par les relations d’al-

ternative ou d’agrégation (les relations d’inclusion et d’équivalence étant déjà étudiées, notamment par

[Dalmas et al, 2005], par exemple pour les questions de localisation). Le but est de produire des réponses

synthétiques à partir de plusieurs réponses potentielles en mettant en œuvre des mécanismes d’intégration

de données tels que ceux utilisés par des humains.

35


FIG. 1.4 – Récapitulatif des mécanismes d’intégration

36

Chapitre 2

Présentation du système et hypothèses de

travail

2.1 Introduction

Pour ce travail, nous nous plaçons dans le cadre des systèmesquestion-réponse avancés sur le Web.

Ces systèmes permettent à un utilisateur de poser une question en langue naturelle ou sous forme de

mots-clés. Cette question est ensuite analysée puis un moteur d’extraction va rechercher sur le Web

les différentes pages pertinentes, c’est-à-dire celles qui sont supposées répondre à la question posée. La

réponse qui est finalement proposée à l’utilisateur peut prendre plusieurs formes selon la stratégie utilisée

par le système : par exemple, le système peut présenter les liens des "meilleures" pages ou les extraits

de ces pages contenant la réponse. Le nombre de réponses proposées dépend aussi du système : certains

proposent plusieurs réponses ou une seule réponse, celle considérée comme la "meilleure" (selon des

critères d’analyse propres à ces systèmes).

Rappelons brièvement que nous avons choisi d’étendre la définition habituelle de l’inconsistance de

données (en intelligence artificielle, elle est définie comme un ensemble defaits contradictoires) aux

cas trouvés lors de notre étude de corpus (cf. chapitre 1). Nous considérons ainsi comme inconsistance

le fait que plusieurs réponses différentes soient proposées pour une question.

Comme nous l’a montré l’étude de corpus, les réponses candidates à une même question peuvent être,

dans le cas le plus simple, redondantes mais aussi, et le plussouvent, contradictoires, complémentaires,

approximatives, liées par une relation d’inclusion, etc. Ces cas d’inconsistance sont solvables plus ou

moins facilement et impliquent l’utilisation d’un certainnombre de connaissances décrites par la suite.

Pourquoi un système question-réponse avancé ?Le cadre plus particulier dans lequel nous nous pla-

çons est celui des systèmes question-réponse dits coopératifs au sens de Grice [Grice, 1975]. WEBCOOP

[Benamara, 2004a] par exemple, permet entre autres de proposer une réponse même quand la question

37

Chapitre 2. Présentation du système et hypothèses de travail

posée par l’utilisateur comporte des fausses présuppositions ou des malentendus.

Alors que WEBCOOP permet de produire une réponse quand il n’ya pas de réponse directe à la question

posée, notre système se place quant à lui dans l’optique de produire une réponse quand plusieurs réponses

différentes à une question sont extraites par le moteur d’extraction. Il faut donc pour cela définir des

mécanismes capables d’élaborer une réponse pertinente quisoit ni trop ni trop peu informative et qui

n’induise pas l’utilisateur en erreur.

Des procédures de raisonnement et/ou d’apprentissage à partir des données extraites du Web sont ainsi

indispensables, comme suggéré par différents roadmaps [Burger et al., 2000].

De plus, dans une perspective coopérative, l’idée est de proposer à l’utilisateur des informations

additionnelles (explications, justifications, etc.) qui rendent compte des différents phénomènes observés

à partir des données extraites du Web. Cette dernière phase implique l’utilisation d’un composant de

génération de langue naturelle puisque le contenu des explications est déterminé par le système qui doit

ensuite les proposer à l’utilisateur de manière intelligible.

Dans ce cadre, nos principaux objectifs sont les suivants :

1. Identification desconnaissances(extraites des pages Web et base de connaissances prédéfinies)

nécessaires à l’analyse des données et à l’élaboration de réponses pertinentes,

2. Définition de méthodes d’analyse des donnéesextraites de Web etidentification de phénomènes

caractéristiques des données pour produire des explications pertinentes,

3. Définition d’un ensemble demécanismes d’intégrationpour l’élaboration d’une réponse la plus

cohérente possible au regard des autres réponses potentielles, afin de satisfaire au mieux lesmaximes

de qualitéet dequantitéde Grice. Des mécanismes adéquats devront être définis pour les différents

types de données à intégrer,

4. Génération des réponses en langue naturellequi expliquent à l’utilisateur les phénomènes appris

et jusqu’à quel point les réponses proposées sont certaineset identification des techniques de

génération nécessaires,

5. Réflexion sur lestechniques d’évaluationd’un tel système. Deux points essentiels sont à évaluer :

– les performances des différents composants du système et comment elles peuvent être amélio-

rées,

– la qualité des réponses produites, leur intelligibilté etleur utilité pour les utilisateurs finaux.

Dans ce chapitre, nous présentons en détail l’architecturede notre système, ses composants et les

connaissances nécessaires à son fonctionnement.

38

2.2. Architecture du système

2.2 Architecture du système

La figure 2.1 présente l’architecture générale de notre système pour la production d’une réponse

intégrée.

FIG. 2.1 – Architecture du système

Pour concevoir notre système, nous avons adopté l’architecture communément utilisée pour les sys-

tèmes question-réponse, à savoir : un analyseur de questiondont les résultats permettent à un moteur

de recherche de sélectionner les documents pertinents parmi une collection de documents et un moteur

d’extraction qui extrait les passages réponses dans ces documents, ceci éventuellement couplé à une base

de connaissances (une synthèse est présentée dans [Harabagiu et al., 2003]).

Étant donné les objectifs que nous nous sommes fixés, à savoirla résolution des inconsistances de

données et la production d’explications coopératives, il est indispensable d’ajouter à cette architecture

39


classique des modules de raisonnement et de génération de langue. Ainsi, notre système se situe en aval

des modules d’analyse de questions en langue naturelle et derecherche des réponses potentielles. Il se

décompose en quatre principaux modules :

– une base de connaissances regroupant des connaissances desens commun, un lexique et des onto-

logies,

– un moteur d’extraction qui, à partir des pages Web candidates, va extraire les informations néces-

saires à la production d’une réponse,

– un module d’intégration qui, à partir des informations extraites, élabore la réponse la plus cohé-

rente possible,

– un générateur de langue naturelle qui génére la réponse et les explications.

L’analyse des questions et la sélection des documents pertinents ayant déjà fait l’objet de nom-

breux travaux en systèmes question-réponse (entre autres [Harabagiu et al., 1999]) ou en indexation

[Woods, 1997], [Green, 1998], nous avons choisi de nous concentrer sur les modules d’intégration et

de génération des réponses. Nous supposons donc que nous disposons d’un analyseur de question et

d’un moteur de recherche.

Dans les sections suivantes, nous décrivons les différentsmodules.

2.2.1 L’analyseur de questions

Pour que le moteur d’extraction puisse rechercher les réponses potentielles à une question, l’analy-

seur de questions doit fournir, grâce à une analyse syntaxico-sémantique, les informations nécessaires. Il

doit essentiellement :

– définir la catégorie sémantique de la question,

– définir le type de la réponse attendue,

– définir le focus (ce sur quoi porte la question),

– trouver le corps de la question et les éventuels modifieurs,

– garder des traces des termes de la question pour éventuellement les réutiliser dans la réponse.

Pour identifier le type de réponse attendue, plusieurs typologies ont été établies, par exemple celles

de [Lehnert, 1978], [Graesser et al, 1991] ou de [Monceaux etal., 2002]. Le type de réponse peut être

identifié par exemple grâce au pronom interrogatif utilisé dans la question ou grâce au type sémantique

du nom utilisé dans des questions du typeQuel est lenom... ou Combien dekilomètres....

Il existe deux principaux types de questions : les questionsde type atomique (ou factoïdes ou élémen-

taires) et les questions de type narratif (questions qui attendent des réponses de type textuel). Ainsi, les

questions introduites par :

– qui sont de typeatomique/entité/animé: Qui a assassiné Kennedy ?,

40


– quandsont de typeatomique/quantité/temporelle: Quand est mort Beethoven ?,

– combiensont de typeatomique/quantité/numérique: Combien coûte un ticket de bus ?,

– oùsont de typeatomique/entité/localisation: Où se trouve le guichet Air France ?,

– puis-je, existe-il, ...sont de typeatomique/booléen: Puis-je payer mon billet d’avion par chèque ?,

– commentsont de typenarration/procédure : Comment changer une roue ?,

– pourquoisont de typenarration/cause : Pourquoi faire une thèse ?,

– etc.

Dans notre cadre, nous ne nous intéressons qu’aux questionsattendant une réponse de type atomique.

Un analyseur de questions est nécessaire pour notre systèmecar nous n’avons pas accès aux résultats

de l’analyse des questions effectuée par le système QRISTALque nous utilisons comme moteur de

recherche (cf. section 2.2.2). Notre analyseur de questions est simulé et nous supposons qu’il produit

un quadruplet représentant les informations nécessaires aux autres modules et en particulier au moteur

d’extraction :(Cat_Con ept; Fo us; Contrainte; Lex_q) où :

– Cat_Con ept est la catégorie sémantique de la question ou le type de réponse attendue (par

exemple,entité/animé, quantité/temporelle, ...),

– Fo us est le focus de la question. Plusieurs définitions existent.La plus ancienne en question-

réponse [Lehnert, 1978] définit le focus comme le composant de la question sur lequel est dirigée

l’attention. D’autres comme [Plamondon et al, 2004] choisissent le focus en fonction des besoins

du mécanisme de recherche de la réponse. Enfin, dans [Ferret et al, 2002], le focus est le nom

ou le groupe nominal de la question qui idéalement devrait être présent dans la phrase réponse.

C’est cette dernière définition que nous utilisons sans pourautant étendre le focus aux éventuels

modifieurs qui sont, quant à eux, identifiés comme des contraintes,

– Contrainte est un ensemble de contraintes éventuellement imposées parla question et qui sont

essentiellement exprimées par l’intermédiaire de modifieurs, par exemple des contraintes de lieu

(Combien y a-t-il d’habitantsen France?), de temps (Combien coûtait une baguette de painen

1980?), etc.,

– Lex_q est la liste des termes de la question qui peuvent être éventuellement réutilisés lors de la

phase de génération de la réponse. Cette liste peut être composée de termes correspondant aux

choix lexicaux ou syntaxiques, par exemple :[[t1; at_syntax1℄; :::; [tn; at_syntaxn℄℄ où at_syntax1 est la catégorie syntaxique det1.41


Par exemple, la questionCombien y avait-il d’habitants en France en 2000 ?est représentée par le

quadruplet suivant :

(Cat_Concept = quantité/numérique/personne, Focus = habitants,

Contraintes =[CTemps = 2000; CLieu = Fran e℄, Lex_q =[ [avoir, verbe℄; :::℄ ).

En pratique, c’est à l’utilisateur de fournir ces informations lors de la saisie de la question.

2.2.2 Le moteur de recherche

En théorie, il existe plusieurs techniques d’extraction des réponses sur le Web : recherche de la

présence des mots-clés de la question dans les pages, unification de la représentation du corps de la

question avec les représentations du contenu des pages Web,etc.

En pratique, notre système d’intégration de données doit pouvoir avoir accès au contenu des pages

Web susceptibles de répondre à la question posée (contenu accessible par l’intermédiaire de leurs URLs

et les "snippets") afin d’extraire les informations pertinentes et d’élaborer une réponse. N’importe quel

système (moteur de recherche ou système question-réponse)fournissant des résultats sous cette forme

peut donc être utilisé en aval de notre module d’intégration. Cependant, la qualité des réponses produites

par notre système est dépendante de la qualité des pages Web sélectionnées, cette qualité étant souvent

faible pour les moteurs de recherche classiques (cf. chapitre 1).

Pour toutes ces raisons, nous avons choisi d’utiliser le système QRISTAL4 pour réaliser la tâche de

recherche des pages pertinentes. QRISTAL est un système question-réponse sur le Web commercialisé

qui a obtenu des résultats relativement satisfaisants et s’est classé premier lors de la campagne française

d’évaluation EQuER [Laurent et al, 2005]. QRISTAL prend en entrée une question en langue naturelle,

l’analyse puis recherche les réponses candidates sur le Web. L’analyse de la question se fait au niveau :

– syntaxique (identification de la catégorie et fonctions grammaticales de chacun des mots de la

question),

– sémantique (identification du type de la question, positionnement des mots dans une ontologie).

QRISTAL interprète la question posée et la traduit dans un langage propre aux moteurs de recherche

classiques (Google, MSN, etc.) puis rapatrie les pages trouvées par ces moteurs. Ces pages sont ensuite

indexées et analysées (comparaison lexicale et ontologique avec la question, comparaison du type de la

question et de la réponse, ...) pour ne conserver que celles contenant les réponses candidates. Les pages

ainsi obtenues sont ensuite classées selon le score qu’elles obtiennent pendant la phase d’analyse (score

calculé à partir des comparaisons question/réponses). QRISTAL propose ensuite comme réponse celle

provenant de la page la mieux classée mais fournit aussi la liste des liens vers les pages Web sélectionnées

4www.qristal.fr, Synapse Développement

42


ainsi que les extraits ("snippets") associés.

QRISTAL peut être paramétré pour prendre en compte la languede la question, la langue des ré-

ponses, les moteurs de recherche à utiliser (Google, Yahoo ou MSN) ainsi que le nombre maximal de

pages candidates extraites (cf. figure 2.2).

FIG. 2.2 – Le système QRISTAL

Nous avons donc choisi le français comme langue pour les questions et les réponses. Nous avons

aussi paramétré QRISTAL afin qu’il sélectionne au maximum 50réponses candidates par question, ces

réponses étant recherchées sur Google. Ces choix se justifient notamment par le fait qu’ajouter d’autres

moteurs de recherche ne permet pas d’obtenir des réponses candidates différentes (redondance des pages

obtenues).

La question en langue naturelle soumise à notre système doitdonc aussi être soumise à QRISTAL

et QRISTAL permet d’enregistrer les résultats (liste des pages candidates sélectionnées et leur extrait

respectif) dans un fichier utilisable par notre système.

2.2.3 Le moteur d’extraction

C’est donc le système QRISTAL qui réalise la tâche de recherche des réponses candidates et c’est à

partir des réponses candidates proposées par QRISTAL que notre système va réaliser l’intégration et la

43


génération des réponses.

Le travail du moteur d’extraction consiste à rechercher dans les pages sélectionnées les réponses

candidates. Comme nous le verrons plus tard, les informations nécessaires à la génération de la réponse

sont extraites dans les "snippets" (extraits de pages) proposés par QRISTAL pour les questions tem-

porelles (cf. chapitre 3). On voit bien ici l’intérêt d’utiliser un système capable d’analyser la question

posée pour être sûr que le "snippet" proposé contiendra bienune information temporelle. En revanche,

les informations sont extraites dans les pages entières pour les questions numériques (cf. chapitre 7).

Plutôt que de rechercher les réponses à l’aide de patrons construits à partir de la question, et par

conséquent trop figés, comme cela est fait notamment par [de Chalendar et al., 2002] [Anaya et al, 2003],

nous devons rechercher, reconnaître et extraire non seulement des éléments issus de l’analyse de la

question (en particulier, le type de réponse attendue et le focus) mais aussi les informations nécessaires

à l’intégration comme les éventuels modifieurs. Nous utilisons pour cela un formalisme de grammaire,

nos grammaires d’extraction étant équivalentes à des patrons par réécriture (cf. chapitres 3 et 7).

Enfin, à l’inverse de QRISTAL, plutôt que de proposer de façoncatégorique une réponse qui est

peut-être incorrecte (la réponse la mieux classée n’est pasforcément correcte), nous préférons proposer

une réponse qui tienne compte de la diversité des réponses candidates sélectionnées : ceci est effectué

par le module d’intégration.

2.2.4 Le module d’intégration

Le module d’intégration dont nous détaillons les mécanismes dans les chapitres suivants prend en

entrée les informations représentant les réponses candidates provenant du moteur d’extraction. Ces in-

formations sont ensuite analysées afin d’identifier le type de données à manipuler et les relations existant

entre les différentes réponses. Ceci déclenche le mécanisme approprié d’intégration des réponses à mettre

en œuvre. Les différents mécanismes d’intégration sont capables :

– de produire une information intégrée qui sera la réponse directe à la question,

– d’inférer un certain nombre de phénomènes caractéristiques des données analysées qui vont être

fournis à l’utilisateur sous forme d’explications.

Le module d’intégration produit ainsi une représentation de la réponse intégrée : c’est cette représen-

tation qui est fournie en entrée du générateur.

2.2.5 Le générateur de langue naturelle

La génération de langage naturel a pour but de produire des énoncés en langue naturelle à partir de

représentations informatiques abstraites de l’information (formules logiques, frames, etc.). Un système

44

2.3. Les connaissances requises

de génération est le plus souvent construit selon une architecture enpipeline [Reiter et al, 1997] qui se

décompose en trois principaux modules :

– lamacroplanification (ouquoi dire ?) : cette phase consiste à construire la représentation séman-

tique de l’information à générer (aussi appeléedétermination de contenu),

– lamicroplanification (ou comment le dire ?) : cette phase consiste à produire un énoncé cohérent

et structuré,

– la réalisation linguistique qui gère la syntaxe et la morphologie.

La phase demacroplanificationest réalisée par le module d’intégration qui, à partir des représenta-

tions de toutes les réponses candidates, construit la représentation de la réponse intégrée.

Les phases demicroplanificationet deréalisation linguistiquesont réalisées par le module de gé-

nération qui, à partir de la représentation de la réponse intégrée, génère la réponse en langue naturelle.

Pour cela, il faut bien sûr avoir recours aux techniques classiques delexicalisation(comment un concept

est réalisé en langue par un mot, une expression, etc. [Stede, 1993], [Cahill, 1999], [Reiter et al, 2002])

et d’agrégation(pour rendre le texte généré plus concis en éliminant par exemple les redondances, etc.

[Wilkinson, 1995]).

Le module de génération de notre système reçoit donc en entrée la représentation de la réponse qu’il

doit générer en langue naturelle et doit fournir des explications afin de justifier les réponses proposées à

l’utilisateur.

À chaque type d’inférence effectué lors de l’intégration des données sont associés desexplicationssous

forme deschémas de générationqui expliquent à l’utilisateur certains phénomènes caractéristiques

et pertinents des données analysées. Les éléments sous-spécifiés dépendent de la question ainsi que

du type d’intégration utilisé. Un travail sur la pertinencedes éléments explicatifs à générer est aussi

indispensable.

2.3 Les connaissances requises

Un de nos objectifs est de pouvoir répondre à des questions endomaine ouvert avec un minimum de

connaissances. Cependant, comme dans la plupart des systèmes question-réponse avancés qui intègrent

du raisonnement, un certain nombre de connaissances et de ressources, outre les connaissances inférées

directement des pages Web, sont nécessaires afin de mettre enœuvre les différents mécanismes d’inté-

gration qui vont proposer à l’utilisateur une réponse coopérative.

Les besoins en connaissances pour la génération des réponses sont assez limités, grâce notamment à

l’utilisation de schémas de génération.

45


En revanche, l’étude de corpus (cf. chapitre 1) nous a permisd’identifier un certain nombre de connais-

sances assez génériques mais suffisantes pour l’extractiondes informations pertinentes nécessaires à

l’élaboration de réponses les plus précises possibles en domaine ouvert. Ces connaissances sont es-

sentiellement utilisées pour le traitement des réponses numériques et nous discutons l’apport de ces

connaissances au chapitre 7.

Un de nos objectifs est de limiter les besoins en termes de connaissances pour que le système :

1. analyse les données principalement à l’aide des informations fournies par les pages Web et non

grâce à des connaissances définies préalablement, et

2. génère des réponses courtes par l’intermédiaire de schémas de génération : cette technique permet

entre autres de réutiliser, dans la réponse, les termes de laquestion et ainsi de limiter les besoins

qui seraient plus considérables avec des techniques de génération pure.

C’est pourquoi nous avons pu définir manuellement une base deconnaissances et un lexique de taille

limitée répondant aux besoins du système.

2.3.1 La base de connaissances

Comme nous l’avons vu au chapitre 1, un certain de nombre de connaissances de sens commun sont

nécessaires pour que les mécanismes d’intégration puissent être mis en œuvre. Ces connaissances sont

décrites a priori et manuellement, et se présentent sous forme de règles de déduction, de faits de sens

commun, etc.

Comme nous avons choisi de travailler sur les relations d’agrégation et d’alternative, le système n’utilise

pas de connaissances pour réaliser des inférences ou du calcul. Dans notre base de connaissances, on

trouve par exemple principalement les règles de conversiond’unité de mesure pour le traitement des

questions numériques.

Cette base peut bien sûr être augmentée pour prendre en compte d’autres phénomènes numériques (calcul

de fraction, de pourcentage, etc.).

2.3.2 Les ontologies

Pour mettre en évidence certaines relations entre plusieurs réponses candidates, une ontologie est

indispensable. Ainsi, la relation d’inclusion que nous avons présentée au chapitre 1 ne peut être établie

entre des concepts que si l’on dispose d’une ontologie permettant d’identifier les liens existant entre ces

concepts. L’inclusion d’un concept dans un autre peut ainsiêtre établie si ces concepts sont liés, par

exemple, par les relationsest-unou partie-dedans l’ontologie.

Dans le cas des relations d’alternative et d’agrégation quenous avons choisi d’étudier, et tout particu-

lièrement pour les questions numériques, des connaissances relatives à certains domaines spécialisés sont

46


aussi indispensables pour la génération d’une réponse pertinente et qui soit la plus précise possible. En

effet, pour expliquer certaines variations numériques, ilfaut parfois connaître les propriétés des concepts

en question.

Dans le cadre de cette thèse, nous avons voulu étudier la faisabilité de notre approche dont un des

objectifs est de pouvoir fonctionner en domaine ouvert avecun minimum de connaissances. Cependant,

nous montrons dans la troisième partie de ce manuscrit concernant les réponses numériques, que des

connaissances sont parfois nécessaires pour produire des réponses plus précises dans certains domaines.

Nous avons donc voulu étudier la possibilité pour le systèmed’utiliser des ontologies de domaine en

s’intéressant plus particulièrement aux points suivants :

– quelles informations doivent être représentées dans les ontologies pour permettre de produire une

réponse la plus précise possible ?

– comment ces informations doivent-elles être hiérarchisées ?

– quel est l’apport des ontologies en termes de performance pour le système ?

Nous avons ainsi mené cette étude de faisabilité en utilisant deux ontologies : une ontologie des vins et

une ontologie des lieux géographiques.

Des ontologies étant disponibles sur le Web5, nous nous sommes principalement intéressés au pro-

blème de leur portabilité (ou de leur adéquation par rapportà la tâche visée) et de leur formalisme pour

que le système puisse les utiliser et fonctionner efficacement. On trouve, par exemple, sur le Web des

ontologies décrites dans des langages comme RDF, DAML, etc.: le problème consiste alors à uniformiser

les formats de représentation. Ce travail va au delà des objectifs que nous nous sommes fixés, c’est

pourquoi nous avons choisi de décrire les ontologies grâce au langage XML, un langage standard et

suffisant pour nos besoins.

Notre système est conçu de telle sorte que les ontologies utilisées hiérarchisent les principaux concepts

pour un domaine donné grâce aux relationsest-unou partie-de. De plus, chaque concept d’une ontolo-

gie peut être associé à un ensemble de propriétés sur lesquelles les mécanismes d’intégration pourront

s’appliquer.

Par exemple, la figure 2.3 présente un extrait de la DTD de l’ontologie des vins : à chaque concept

est attribué des propriétés de couleur, de goût, etc. Il a fallu, pour cet exemple, traduire l’ontologie en

français.

Nous présentons le formalisme des ontologies et leur utilisation au chapitre 7. Dans ce même cha-

pitre, nous discutons de l’apport des ontologies.

5http ://www.daml.org/ontologies/

47


FIG. 2.3 – Extrait de la DTD de l’ontologie des vins

2.3.3 Le lexique

Un ensemble de connaissances linguistiques représentées grâce à un lexique est aussi indispensable.

Ces connaissances vont servir non seulement à l’extractiondes données dans les pages Web mais aussi

à la génération des réponses. En effet, même si la plupart desconcepts recherchés dans les pages Web

et utilisés pour la génération de la réponse proviennent de la question, l’étude de corpus nous a permis

d’identifier un certain nombre de besoins lexicaux. Par exemple, pour l’extraction des réponses candi-

dates, le système doit pouvoir extraire les synonymes des concepts de la question, des modifieurs (de

temps, de lieu) ou des propriétés des concepts. Ces termes sont principalement des noms, des adjectifs,

des verbes et des prépositions. Pour la génération de la réponse, le système a aussi besoin de connaître,

par exemple, leurs caractéristiques morphologiques et syntaxiques. Nous définissons donc ces éléments

dans un lexique. Pour le moment, nous ne nous définissons pas de représentation sémantique des concepts

dans le lexique car le système n’en utilise pas.

Le moteur d’extraction et le générateur ont ainsi besoin, outre les informations fournies par l’analy-

seur de questions, d’un lexique définissant :

– desnomspour l’extraction et la génération de syntagmes nominaux detemps ou de lieu, des unités

de mesure et leurs abbréviations, des propriétés des concepts,

– desadjectifspour l’extraction et la génération de propriétés (forme, couleur, etc.),

– desprépositionspour l’extraction et la génération des expressions de lieu,de temps, de quantité,

etc.,

48


– desadverbesde certitude qui vont indiquer le degré de certitude des réponses proposées (cf.

chapitre 3),

– desverbesqui vont être utilisés essentiellement pour la génération des explications concernant les

réponses numériques (cf. chapitre 4).

Les représentations données ici sont relativement simpleset les entrées du lexique, hormis celles

obtenues par l’intermédiaire des ontologies, sont des termes assez génériques car le système doit fonc-

tionner en domaine ouvert.

Les noms

Le lexique pour les noms est construit à partir des concepts des différentes ontologies de domaines

(chaque nœud de l’ontologie est lié à une entrée lexicale) età partir de nos observations en corpus. Ainsi,

outre les concepts issus des ontologies (vins et lieux géographiques), nous avons défini une centaine de

noms qui sont représentés dans le lexique par le prédicat :

nom(lex, genre, comptable, nominalisation), où :

– lex est la lexicalisation du nom,

– genreest le genre du nom (masculin ou féminin),

– comptableindique si le nom est comptable ou massif,

– nominalisationreprésente le verbe dont est issu le nom (par exemple, le nomserviceest la nomi-

nalisation du verbeservir).

Ces informations permettent au système d’extraire, par exemple :

– des syntagmes nominaux de temps,

– des synonymes des concepts de la question : nous avons définiune liste de synonymes essen-

tiellement pour les concepts utilisés pour la recherche de réponses numériques (par exemple,

hauteur/altitude).

Elles permettent aussi de les générer correctement du pointde vue morphologique et syntaxique. Par

exemple, le nomannéeest représenté dans le lexique par :nom(année, féminin, comptable, _ ).

Pour l’extraction et la génération des expressions de lieu,les noms propres pour les lieux géogra-

phiques sont représentés par le prédicat :nom_propre(lex, type_sém), où type_sémest le type sémantique

du nom défini dans l’ontologie.

Par exemple, le nom propreToulouseest représenté parnom_propre(Toulouse, ville).

Pour notre système, nous avons défini environ 300 noms propres correspondant aux noms de conti-

nents, de pays, de régions et départements pour la France et quelques villes françaises. Ils sont issus d’une

49


ontologie des lieux géographiques que nous avons construite à partir de données disponibles sur le Web6.

Les adjectifs

Les adjectifs sont représentés dans le lexique par le prédicat adjectif(lex, classe_sém), où :

– lex est la lexicalisation de l’adjectif,

– classe_sémest la classe sémantique de l’adjectif.

En plus des adjectifs associés aux propriétés définies dans les ontologies, nous avons défini une liste

non exhaustive d’une quarantaine d’adjectifs, issus de notre étude de corpus, par exemple les principaux

adjectifs de couleur ou de forme, qui permettent d’identifier certaines propriétés de concepts dans les

pages Web. Ces classes sont relativement ouvertes mais, comme nous avons voulu avant tout mener une

étude de faisabilité, nous ne représentons dans le lexique ques les adjectifs les plus courants ou les plus

génériques (pour les couleurs par exemple, des adjectifs courants commebleu ou rouge sont dans le

lexique mais pasbleu foncéouvermillon).

Par exemple,rougeest représenté paradjectif(rouge, couleur).

Les prépositions et adverbes

L’étude de corpus a montré l’importance des prépositions pour introduire, par exemple, des expres-

sions de localisation (spatiale ou temporelle), de quantité (précise ou approximative), des contraintes

exprimées par des modifieurs ou des restrictions. Les prépositions sont représentées dans le lexique par

le prédicatprep(lex, dom_concept), où :

– lex est la lexicalisation de la préposition,

– dom_conceptest la liste des domaines conceptuels de la préposition.

Par exemple, la prépositiondansest représentée dans le lexique par :

prep(dans, [spatial, temporel]).

Ici, la prépositiondanspeut être interprétée dans le domaine spatial ou le domaine temporel.

Les adverbes sont représentés dans le lexique par le prédicat adv(lex, type), où :

– lex est la lexicalisation de l’adverbe,

– typeest le type ou la classe de l’adverbe [Quirk et al, 1985] (pournotre système, nous n’utilisons

que des adverbes de certitude) .

6http ://www.citypopulation.de/cities.html

50


Par exemple, l’adverbecertainementest représenté dans le lexique par :

adv(certainement, [certitude]).

Les prépositions et adverbes représentent une vingtaine d’entrées dans le lexique.

Les verbes

Comme nous avons choisi de nous intéresser aux questions temporelles et numériques, les verbes dé-

finis dans le lexique sont principalement des verbes aspectuels et des verbes qui s’appliquent aux valeurs

numériques (une centaine). Ils sont utilisés pour l’extraction et la génération de réponses temporelles et

numériques.

Les verbes sont représentés dans le lexique par le prédicat :

verbe(lex, arité, r_sélection, c_wordnet, variation), où :

– lex est la lexicalisation du verbe,

– arité est le nombre d’arguments du verbe,

– r_sélectionest la liste des restrictions de sélection du verbe,

– c_wordnetest la classe WordNet du verbe [Fellbaum, 1998]. Nous utilisons principalement les

verbes d’état, de changement et de mouvement,

– variation est le type de variation exprimée par le verbe (augmentationou diminution).

On pourrait aussi ajouter, pour chaque verbe, la liste de sesalternances afin de pouvoir générer différentes

constructions syntaxiques mais nous ne traitons pas ce problème pour le moment.

Une étude portant sur les verbes de mouvement a permis de définir les restrictions de sélection de

ces verbes [Moriceau et al, 2003]. Par exemple, le verbemonterest représenté dans le lexique par :

verbe(monter, 3, [entité mesurable, ...], mouvement, augmentation).

Ici, le verbemonterest un verbe de mouvement décrivant l’augmentation d’une entité mesurable (par

exemple,la température monte).

Le verbepeser, quant à lui, est représenté par :verbe(peser, 2, [entité, ...], état, _ ).

Nous présentons plus finement les recours à ces données dans les chapitres 3 et 7.

2.3.4 Les connaissances sur les pages Web

Les techniques de fusion classiques utilisées en intelligence artificielle (théorie possibiliste, etc.)

impliquent de connaître la fiabilité des sources d’information. Comme proposé par [Motro et al, 2004],

la fiabilité d’une source, et d’une page Web en particulier, peut être établie si l’on connaît les informations

concernant entre autres la source, la date, l’auteur, etc. Définir ces attributs dans les pages Web est par

51


exemple un des objectifs du Web sémantique7.

Cependant, ces informations sont impossibles à obtenir pour une très grande majorité des pages Web

(même dans le code source de la page). C’est pourquoi nous avons supposé pour la suite que toutes les

pages Web sont également plausibles.

Pourtant, pour un certain nombre de pages provenant d’organismes officiels (agence de presse, jour-

naux en ligne, etc.), des informations comme la date ou l’heure de l’information, le nom de l’agence de

presse, du journaliste, peuvent être disponibles.

Nous évoquons dans la conclusion de ce manuscrit comment cesinformations peuvent être prises en

compte dans les mécanismes d’intégration.

2.4 Quelques exemples d’entrées-sorties

Nous présentons ici quelques exemples d’entrées-sorties du système.

Exemple 1

La figure 2.4 montre un exemple de sortie du système pour une question attendant une réponse

de typedate. Comme nous ne disposons pas d’analyseur de question, il estdemandé à l’utilisateur de

fournir les informations concernant le focus, le type de réponse attendue et les éventuelles contraintes

(modifieurs de temps, de lieu, etc.).

Ici, neuf réponses candidates ont été extraites. Le type de réponse attendue étant une date, le module

d’intégration spécifique aux données de typedateest mis en œuvre. Une réponse intégrée est proposée,

modulée par un adverbe qui indique le degré de certitude de laréponse produite. Ceci est présenté dans

la partie 2.

Exemple 2

La figure 2.5 montre un exemple de sortie du système pour une question attendant une réponse nu-

mérique. Quinze réponses candidates ont été extraites. Uneréponse numérique étant attendue (hauteur),

le module d’intégration spécifique aux données numériques est mis en œuvre. Une réponse intégrée est

proposée, composée de deux parties :

7http ://www.w3.org/TR/rdf-primer/

52

2.5. Conclusion

1. une réponse directe à la question qui doit tenir compte descontraintes éventuelles imposées par la

question,

2. une explication qui présente les phénomènes inférés lorsde l’analyse des données : ici, il a été

inféré à partir des données que la hauteur du Mont-Blanc augmente dans le temps.

Ceci est présenté dans la partie 3.

2.5 Conclusion

Nous avons présenté dans ce chapitre les motivations et les objectifs de notre système. Notre système

se situe en aval des modules classiques d’un système question-réponse, à savoir un analyseur de questions

et un moteur de recherche. L’architecture de notre système se décompose en quatre modules :

– un module de connaissances qui regroupe une base de connaissances, un lexique et des ontologies

de domaines spécialisés,

– un module d’extraction des informations nécessaires à la génération des réponses,

– un module d’intégration, nouveauté par rapport aux systèmes question-réponse existants, qui gère

les inconsistances de données et fournit une représentation de la réponse à générer,

– et finalement un module de génération de langue naturelle. La réponse générée cherche à être

coopérative dans le sens où elle respecte les maximes de Grice, à savoir :

– la maxime de qualité: les principales incohérences entre les réponses candidates sont résolues

et les réponses générées indiquent à l’utilisateur à quel point l’information donnée est sûre,

– la maxime de quantité: le système produit une réponse unique au lieu d’une liste deréponses

potentielles accompagnée d’explications qui synthétisent l’ensemble des données trouvées sur

le Web,

– la maxime de relation: les réponses sont générées en fonction des attentes des utilisateurs (en

satisfaisant les contraintes éventuelles de la question),

– la maxime de style: les réponses générées sont des phrases courtes et réutilisent les mots de la

question posée par l’utilisateur.

Les exemples présentés précédemment montrent d’une part les principales fonctionnalités de notre

système, et d’autre part comment les mécanismes d’intégration peuvent produire une réponse synthétique

dans un système question-réponse sur le Web. Nous présentons dans les parties suivantes les mécanismes

d’intégration qui s’appliquent aux données temporelles (de typedate) et numériques.

53


FIG. 2.4 – Exemple d’entrées-sorties : les dates

FIG. 2.5 – Exemple d’entrées-sorties : les réponses numériques

54

Deuxième partie

Intégration et génération de réponses de

type date

Table des matières

Chapitre 3 Intégration de données de typedate 61

3.1 Extraction des réponses candidates . . . . . . . . . . . . . . . . .. . . . . . . . . 61


3.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .81

Chapitre 4 Génération des réponses de typedateen langue naturelle 83

4.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 83

4.2 Conception des schémas de génération . . . . . . . . . . . . . . . .. . . . . . . . 84

4.3 Exemples de réponses générées . . . . . . . . . . . . . . . . . . . . . .. . . . . . 92

4.4 Synthèse et discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 94

Chapitre 5 Évaluation pour les réponses de typedate 97

5.1 Évaluation de l’extraction . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 98

5.2 Évaluation de la détermination de contenu . . . . . . . . . . . .. . . . . . . . . . 99

5.3 Évaluation des réponses en langue naturelle . . . . . . . . . .. . . . . . . . . . . . 109

TABLE DES MATIÈRES

56

Introduction

Dans le chapitre 1, nous avons présenté comment les cas d’inconsistance des données étaient traités

dans des cadres comme les systèmes question-réponse, l’intelligence artificielle, etc. Dans cette partie,

nous nous intéressons aux cas que nous avons appelésindécidabilité et filtrage lors de notre étude

de corpus et tout particulièrement à l’élaboration d’une réponse intégrée obtenue à partir de plusieurs

réponses de typedateet liées par des relations soit d’alternative soit d’agrégation, les plus nombreuses

dans notre corpus (cf. chapitre 1). Comme le montre l’exemple de la figure 1, un moteur de recherche

trouve très souvent une grande quantité de réponses différentes à une question de typedate.

Les questions auxquelles nous nous intéressons dans notre cadre peuvent porter sur différents types

d’événements, identifiés dans un grand nombre d’études ou d’applications (par exemple, [Allen, 1983],

[Maingueneau, 1981], [Pustejovsky et al, 2003], [Pan et al,2006]). Ces événements peuvent être :

– desévénements ponctuels(sous forme de dates),

– desévénements duratifs(sous forme d’intervalles temporels).

Ces deux types d’événements pouvant être soituniquessoit itératifs et se situer dans le passé, le présent

et/ou le futur.

Le but est donc d’élaborer, à partir d’un ensemble de réponses candidates, une réponse synthétique

en éliminant les réponses incorrectes ou non pertinentes. La réponse générée doit expliquer à l’utilisateur

les phénomènes caractéristiques des données trouvées (parexemple, un événement se répète, etc.).

La figure 2 présente l’architecture générale du système pourle traitement de telles questions. Comme

le montre cette figure, l’élaboration de réponses coopératives de typedatenécessite quatre étapes princi-

pales :

– l’analyse de la question : nous supposons que, pour chaque question, l’analyseur de question

fournit le type de réponse attendue, le focus (ce sur quoi porte la question) ainsi que les éventuels

modifieurs (de temps, de lieu, etc.) (cf. chapitre 2),

– l’extraction des réponses candidates dans les pages Web,

– la détermination de contenu : élaboration de la réponse et apprentissage de phénomènes temporels,

57

Introduction

FIG. 1 – Réponses de Google : date de l’ouragan Hugo

– la génération en langue de la réponse.

Dans le chapitre 3, nous présentons la phase d’extraction des réponses candidates à partir de pages

Web et nous détaillons la phase de macroplanification ou détermination de contenu, c’est-à-dire à partir

de plusieurs réponses candidates, comment est élaborée la réponse qui sera proposée à l’utilisateur. La

phase de génération de la réponse en langue naturelle est présentée dans le chapitre 4. Finalement, le

chapitre 5 présente quelques éléments d’évaluation.

58

FIG. 2 – Schéma général du traitement des réponses de typedate

59

Introduction

60

Chapitre 3

Intégration de données de typedate

Dans ce chapitre, nous présentons dans un premier temps la phase d’extraction des réponses can-

didates à partir de pages Web. Puis nous détaillons la phase de détermination de contenu ou comment

l’intégration des différentes réponses candidates permetd’élaborer une réponse pertinente et coopérative

pour des questions attendant des réponses de typedate.

3.1 Extraction des réponses candidates

Le travail consiste à rechercher les réponses candidates (les informations de typequantité/temporel

qui correspondent effectivement au focus recherché) dans les extraits de pages sélectionnées par le mo-

teur de recherche (QRISTAL). Ici, les extraits de pages sontsuffisants car ils contiennent l’information

temporelle qui est susceptible de répondre à la question. Nous nous appuyons ainsi sur les techniques

d’annotation d’expressions temporelles pour définir une grammaire qui permet d’extraire ces informa-

tions des pages Web candidates [Radev et al., 2002], [Mani, 2004].

Le tableau 3.1 montre un exemple des extraits que le système QRISTAL propose comme réponses à

la questionQuand a eu lieu la guerre de Sécession ?. Notre grammaire doit alors être capable d’identifier

les informations de typequantité/temporelqui correspondent au focusguerre de Sécession.

On remarque dans cet exemple que pour identifier les réponsesde typequantité/temporel(en gras dans le

tableau), outre le focus de la question (noté en gras), un certain nombre d’autres "indices" sont nécessaires

(notés en italique dans l’exemple) du fait de la grande variété de structure des réponses. Ces indices

peuvent prendre plusieurs formes : des noms, des verbes (et leurs synonymes), de la ponctuation. Ce sont

essentiellement des marqueurs de début ou de fin d’événement. La grammaire doit donc être capable de

reconnaître différents indices temporels et d’interpréter ces indices [Harabagiu et al., 2005].

61

Chapitre 3. Intégration de données de type date

Quand a eu lieu la guerre de Sécession ?

Entre le 17 avril et le 21 mai 1861ce sont l’Arkansas, la Caroline du Nord, leTenessee et la ... C’est ledébut des affrontementsde laguerre de Sécession. ...

12 avril 1861-9 avril 1865- Guerre de Sécession. Capitulation d’Appamatox22 septembre 1862 - Proclamation de l’émancipation des esclaves. Liens. ...

26 mai 1865Fin de laguerre de Sécession. Le général sudiste Lee avaitcapitulé le 9 avril, et Johnston le 26 avril. Ce jour ...

John Paul Jones ; Les Américains vaincus à Québec (4 janvier 1776) ; Siège ...Guerre de Sécession- Fin de laguerre civile américaine(9 avril 1865)...

La guerre de sécessionqui acommencéle 12 avril 1861par l’attaque dessudistes du Fort Sumter fait plus de 600 000 morts. ...

Signé à Londres le 13 mai 1865 par le Conseil central, au nom del’Associationinternationale des ... En fait, laguerre de Sécessiontraînajusqu’en1865. ...

Le 12 avril 1861, le Sudouvre les hostilités. La guerre de Sécessionfut uneguerre de type moderne, notamment par l’importance des effectifs engagés (2 ...

le Sud faitsécession 21 juillet 1861: débutde laguerre, 1er-3 juillet 1863 :bataille de Gettysburg9 avril 1865 : fin de laguerre de Sécession14 avril ...

La guerre de sécessionest sans doute le conflit qui a été l’un des plus grands... reprirent le dessus et amenèrent lacapitulationdu sud le9 avril 1865 à ...

TAB . 3.1 – Exemple : Quand a eu lieu la guerre de Sécession ?

3.1.1 Grammaire d’extraction

Notre grammaireGdate qui permet de reconnaître et d’extraire les réponses candidates de typequan-

tité/temporelest définie, comme pour les grammaires formelles, par un quadruplet(Reponse; NT; T; P;F; Rg) où :

– Reponse est le symbole initial qui représente une réponse candidateet qui se réécrit en symboles

non-terminaux et terminaux par des règles de réécriture. Cesymbole a deux arguments représen-

tant les dates de début et de fin d’un intervalle temporel,

– NT est l’ensemble des symboles non-terminaux,

– T est l’ensemble des symboles terminaux,

62

3.1. Extraction des réponses candidates

– P est l’ensemble des procédures utilisées par exemple pour ducalcul (elles sont notées entre

accolades),

– F est l’ensemble des fonctions utilisées par exemple obtenirles synonymes des termes,

– Rg est l’ensemble des règles de réécriture (ou de production).

Dans certains cas, les réponses candidates peuvent contenir des informations inutiles qu’il ne faut

pas prendre en compte ni analyser. Par exemple, dans la réponse suivante, le texte en gras est inutile pour

la recherche de la date :

La guerre de sécessionest sans doute le conflit qui a été l’un des plus grands ... reprirent le dessus

et amenèrent la capitulation du sud le 9 avril 1865.

Pour cette raison, nous utilisons le formalisme des grammaires à "trous" (gapping grammars) défini

par [Dahl et al, 1984] qui permet de "sauter" les éléments inutiles (dans notre grammaire, les "trous"

sont notés "_"). Par exemple, la règleS ! a _ b _ f aveca; b; f 2 T permet de reconnaître l’expressionab def .

De plus, pour autoriser une certaine souplesse dans l’ordredes éléments, nous n’imposons pas d’ordre

entre les éléments à l’intérieur d’une règle de production.Cependant, des contraintes d’ordre peuvent

s’avérer parfois indispensables pour que l’analyse syntaxique soit correcte : ces contraintes de précédence

sont exprimées grâce à la virgule.

Nous définissons donc les ensembles de non-terminauxNT et de terminauxT (non-exhaustifs) par :

– NT = fF; V erbe; D; Marq_deb; Marq_fin; Dur�ee; Pon tg où :

– F est le focus de la question,

– V erbe est le verbe aspectuel utilisé dans la réponse à analyser,

– D est une information de typequantité/temporel(date, heure, ...),

– Marq_deb etMarq_fin sont respectivement des indicateurs de début ou de fin d’événements,

– Dur�ee est une expression de durée,

– Pon t regroupe les symboles de ponctuation.

– T est l’ensemble des éléments terminaux que l’on peut retrouver dans les réponses, entre autres :

le focus de la question ou un synonyme (obtenu par le lexique ou une ontologie), le verbe de la

question ou des verbes aspectuels, des prépositions, les noms de jour, de mois, etc. Ils sont notés

en italique dans la grammaire ci-dessous.

Pour la grammaire des informations de typequantité/temporel, nous nous sommes inspirés de la

grammaire définie dans [Maurel, 1991].

63


Nous donnons ici quelques exemples de règles de l’ensembleRg.

(N.B. : La virgule est un symbole de précédence. L’absence devirgule permet de déplacer les éléments à l’intérieur d’unerègle.

Ici, nous ne donnons que les verbes terminaux sous forme infinitive mais la recherche s’effectue sur les formes conjuguées.)

Réponse (D1, D2) !F, _, Verbe, _, D (1)j D, _, Verbe, _, F (1bis)j F, Ponct, D (2)j F _ Marq_deb D1 _ Marq_fin D2 (3)j F _ Marq_deb D1 _, Durée {D2 = datefin(D1,Durée)} (4)j F _ Marq_fin D2 _, Durée {D1 = datedébut(D2,Durée)} (5)

F ! Focus j synonyme(Focus) (6)Verbe ! Verbe_question j avoir lieu j être j se dérouler j ... (7)Marq_deb ! début j débuter j commencerj à partir de j avoir lieu j ... (8)Marq_fin ! fin j finir j terminer j jusqu’à j ... (9)Ponct ! - j : j ( j ... (10)Durée ! Verbe_durée, Nombre, Unité j Prep_durée, Nombre, Unité (11)Unité ! jours j mois j années j heures j ... (12)Verbe_durée ! durer j ... (13)Prep_durée ! pendant j depuis j ... (14)D ! Jour, Mois, Anj Jour, Mois, An, Ponct, Jour, Mois, Anj du, Jour, Mois, An, au, Jour, Mois, Anj entre le, Jour, Mois, An, et le, Jour, Mois, Anj ... (15)...

Les performances de la grammaire sont présentées dans le chapitre 5 consacré à l’évaluation.

3.1.2 Exemples

Appliquons maintenant cette grammaire à quelques réponsescandidates à la questionQuand a eu

lieu la guerre de Sécession ?.

64

3.2. Détermination de contenu

Exemple 1

L’application de la règle (2) (réponse! date, ponctuation, focus) puis de la règle (15) permet d’ex-

traire la date12 avril 1861 - 9 avril 1865de la réponse :

12 avril 1861 - 9 avril 1865 - Guerre de Sécession. Capitulation d’Appamatox 22 septembre 1862 -

Proclamation de l’émancipation des esclaves. Liens. ...

Exemple 2

L’application de la règle (3) après ordonnancement des éléments (réponse! date, Marq_deb/fin,

focus) permet d’extraire les dates21 juillet 1861et9 avril 1865comme date de début et date de fin de la

guerre dans la réponse :

le Sud faitsécession 21 juillet 1861: début de la guerre, 1er-3 juillet 1863 : bataille de Gettysburg

9 avril 1865 : fin de la guerre de Sécession14 avril ...

Exemple 3

L’application de la règle (4) après ordonnancement des éléments (réponse! focus, Marq_deb, date,

durée) permet d’extraire la date12 avril 1861comme date de début et, connaissant la durée, de calculer

la date de fin (12 avril 1861 + 4 ans = avril 1865) :

La guerre de sécessionqui acommencéle 12 avril 1861par l’attaque des sudistes du Fort Sumter et a

fait plus de 600 000 morts,a duré 4 ans...

Le moteur d’extraction fournit au module de détermination de contenu la liste des informations

extraites (soit des dates, soit des couples de dates pour lesintervalles temporels).

3.2 Détermination de contenu

Le problème auquel nous nous intéressons ici est le problèmede la détermination de contenu quand

plusieurs réponses différentes à une même question ont été sélectionnées par le moteur d’extraction.

Le but est donc d’élaborer une réponse (déterminer lequoi dire ?) à partir de l’ensemble des réponses

candidates. Les questions que nous avons choisi d’étudier attendent des réponses directes de typequan-

tité/temporelet en particulier, des réponses de typedatedont nous définissons la représentation par la

suite.

Dans les sections suivantes, nous détaillons et motivons l’algorithme de détermination de contenu et

nous illustrons chaque notion par un exemple.

65


3.2.1 Motivations

À partir d’un ensemble de réponses candidates différentes,plusieurs approches sont possibles pour

proposer une réponse à l’utilisateur mais ces réponses ne sont pas forcément coopératives :

– le système répond qu’il n’a pas trouvé de réponse précise à la question : ceci viole la maxime de

quantité car le système n’est pas assez informatif,

– le système fait l’énumération de toutes les réponses candidates qu’il a trouvées : ceci viole aussi

la maxime de quantité car le système est trop informatif (et l’utilisateur ne sait toujours pas quelle

est la réponse correcte parmi toutes celles qui lui sont proposées),

– le système propose comme réponse la réponse candidate la plus fréquente : ceci peut violer la

maxime de qualité car plusieurs pages Web peuvent donner desinformations fausses si elles ont

toutes la même source et surtout si la réponse est contextualisée (par exemple, à la questionQuand

a eu lieu l’ouragan Hugo ?, une majorité de pages donne une réponse équivalente àHugo a touché

la Guadeloupe le 16 septembre 1989, ce qui n’est qu’une partie de la réponse recherchée),

– le système élabore par exemple, soit l’intervalle qui regroupe toutes les réponses candidates (union

de toutes les réponses), soit le plus petit intervalle commun à toutes les réponses candidates (inter-

section des réponses) : ceci peut violer la maxime de qualitécar la réponse peut être trop ou pas

assez précise et ceci peut entraîner de fausses présuppositions de la part de l’utilisateur.

Notre approche est motivée principalement par les principes de coopérativité de Grice et par les

constatations issues de notre étude de corpus. En effet, celle-ci a montré que les réponses en langue

peuvent avoir des formes différentes selon que l’événementest unique (par exemple,l’automne com-

mence le 21 septembre) ou itératif (par exemple,la fête de la musique a lieu tous les 21 juincar

l’événement a lieu plusieurs fois). Afin de réduire le nombrede connaissances nécessaires au traitement

des événements (est-ce un événement unique ou itératif ?, ...), nous préférons définir un mécanisme

d’élaboration de réponses qui traite tous les types d’événements.

Notre but étant de proposer une réponse la plus coopérative possible, la réponse proposée doit être

informative et ne pas induire de fausses présuppositions dela part de l’utilisateur. Pour cela, notre hy-

pothèse est que la réponse doit être non seulement cohérenteavec un maximum de réponses candidates

mais aussi cohérente en termes de durée. Par exemple, si toutes les réponses candidates ont une durée de

15 jours, on peut supposer que l’événement recherché a effectivement duré 15 jours : on ne peut donc pas

proposer comme réponse un intervalle qui soit l’union ou l’intersection de toutes les réponses candidates

si la durée de celui-ci est aberrante.

66


Pour cela, nous avons élaboré une méthode d’intégration desdifférentes réponses candidates qui

s’appuie sur deux points :

– la définition d’une zone de forte cohérence des réponses entre elles, cette zone représentant un

intervalle temporel qui doit avoir une durée cohérente avecla durée des réponses candidates,

– l’identification des événements itératifs et périodiquesafin d’informer au mieux l’utilisateur.

Enfin, pour satisfaire la maxime de qualité, nous voulons expliquer à l’utilisateur à quel point la

réponse qui lui est proposée est sûre grâce à un degré de certitude de la réponse.

3.2.2 Représentation des données

Nous considérons que les réponses candidates sont sous la forme de date (Beethoven est mort le 26

mars 1827) ou d’intervalle temporel (Le festival de Cannes a eu lieu du 11 au 22 mai 2005).

Une date est représentée selon les règles de la norme ISO 8601qui spécifie entre autres la représenta-

tion des dates et des heures. Il existe plusieurs niveaux de granularité dans ce format et il est possible

d’omettre certains éléments qui ne sont pas pertinents pourl’information recherchée. Par exemple, si

une question recherche l’année d’un événement, alors les autres valeurs (jour, mois, heure) peuvent être

omises.

Les principaux formats sont les suivants :

– année: YYYY (ex : 1997) où YYYY représente l’année dans le calendrier grégorien,

– année et mois: YYYY-MM (ex : 1997-07) où MM représente le mois (de 01 à 12),

– date complète: YYYY-MM-DD (ex : 1997-07-16) où DD représente le jour (de 01à 31),

– date complète avec heure et minutes: YYYY-MM-DDThh:mmTZD (ex : 1997-07-16T19:20

+01:00) où hh représente l’heure (de 00 à 24), mm représente les minutes (de 00 à 59) et TZD

représente le fuseau horaire,

– date complète avec heure, minutes et secondes: YYYY-MM-DDThh:mm:ss

TZD (ex : 1997-07-16T19:20:30+01:00) où ss représente les secondes (de 00 à 59).

Nous appelons doncdateune donnée représentée sous l’un de ces formats. Dans notre système, nous

considérons les formatsannée, année et moisetdate complète.

Un intervalle temporel est ensuite défini comme un couple de dates composé d’une date de début et d’une

date de fin de l’événement.

67


Comme les réponses candidates sélectionnées par le moteur d’extraction sont souvent dans des for-

mats différents, une première étape consiste à uniformiserles données :

– d’un point de vue sémantique, toutes les réponses candidates doivent être dans le même référentiel

temporel (par exemple, en corrigeant les éventuels décalages horaires, etc.),

– certaines réponses candidates peuvent être incomplètes :par exemple, il peut manquer la date de

fin d’un intervalle (Quand a eu lieu la Seconde Guerre Mondiale ? La Seconde GuerreMondiale

a débuté en 1939). Les réponses candidates qui sont incomplètes par rapportaux autres réponses

extraites sont alors omises,

– enfin, toutes les réponses candidates sont mises sous formed’intervalle. En effet, l’étude de corpus

montre que les réponses candidates peuvent être sous forme de date et d’intervalle temporel. Pour

cette raison, nous avons choisi d’élaborer une méthode qui traite les réponses quelle que soit leur

forme : ainsi, une date ponctuelle sera représentée par un intervalle dont les dates de début et de

fin sont identiques.

68


Exemple :

(NB : Dans les sections suivantes, nous illustrons chaque nouvelle notion grâce à cet exemple)

Supposons que la questionQuand a eu lieu l’ouragan Hugo ?soit posée à un système question-réponse

(en l’occurrence QRISTAL). Le tableau suivant donne la liste des réponses candidates.

Question Quand a eu lieu l’ouragan Hugo ?

16 septembre 1989

Réponses du 10 au 22 septembre 1989

candidates 16 septembre 1989

17 septembre 1989

du 10 au 25 septembre 1989

16 septembre 1989

16 septembre 1989



16 septembre 1989

16 septembre 1989

Il y a 11 réponses candidates dans différents formats : toutes les réponses doivent être mises sous

la forme d’intervalles. Le tableau suivant présente les 11 réponses candidates (d1; d2; :::; d11) mises au

format :

Question Quand a eu lieu l’ouragan Hugo ?d1 = [db1 ; de1 ℄ = [1989-09-16, 1989-09-16]

Réponses d2 = [db2 ; de2 ℄ = [1989-09-10, 1989-09-22]

candidates d3 = [db3 ; de3 ℄ = [1989-09-16, 1989-09-16]d4 = [db4 ; de4 ℄ = [1989-09-17, 1989-09-17]d5 = [db5 ; de5 ℄ = [1989-09-10, 1989-09-25]d6 = [db6 ; de6 ℄ = [1989-09-16, 1989-09-16]d7 = [db7 ; de7 ℄ = [1989-09-16, 1989-09-16]d8 = [db8 ; de8 ℄ = [1989-09-16, 1989-09-22]d9 = [db9 ; de9 ℄ = [1989-09-10, 1989-09-25]d10 = [db10 ; de10 ℄ = [1989-09-16, 1989-09-16]d11 = [db11 ; de11 ℄ = [1989-09-16, 1989-09-16]

Une fois que toutes les réponses candidates ont été formatées, les réponses aberrantes sont éliminées

par des méthodes statistiques (points qui s’éloignent de l’écart-type [Fourastié et al, 1987]). Le processus

d’élaboration d’une réponse cohérente peut ensuite être appliqué.

69


3.2.3 Élaboration de la réponse

Le but est d’élaborer à partir de plusieurs réponses candidates, la "meilleure" réponse. Nous consi-

dérons comme la "meilleure" réponse celle qui est la plus cohérente avec les autres. Dans ce but, nous

définissons untaux de cohérencedes réponses. Nous présentons ci-dessous les différentes étapes du

processus de détermination de contenu qui prend en compte cetaux de cohérence.

Supposons qu’à une même question il existe N réponses candidates provenant de M pages Web

différentes. Comme expliqué précédemment, nous considérons que chaque réponse candidate est un

intervalle temporel de la forme[db; de℄ oùdb est la date de début etde la date de fin de l’événement.

Soientdi = [dbi ; dei ℄ avec1 � i � N les N réponses candidates.

Notre hypothèse est que letaux de cohérenced’une réponse candidate doit être élevé si celle-ci est

cohérente en termes de durée et avec l’ensemble des autres réponses candidates. Il faut pour cela définir

deszones de forte cohérence. Ainsi, nous supposons que la réponse la plus cohérente est l’intervalle qui

intersecte le plus grand nombre d’intervalles candidats etqui a une durée "pertinente". Dans ce but, une

stratégie consiste à définir tous les sous-intervalles temporels minimaux que l’on peut obtenir à partir des

réponses candidates et à affecter un taux de cohérence à chacun d’entre eux.

Par exemple, sur la figure 3.1, nous avons 3 réponses candidates d1; d2 et d3. Elles forment 4 sous-

intervalles :[db1 ; db2 ℄, [db2 ; db3 ℄, [db3 ; de3 ℄ et [de3 ; de1 ℄.

FIG. 3.1 – Sous-intervalles

La zone que nous considérons comme celle de plus forte cohérence est celle définie par l’intervalle[db3 ; de3 ℄ parce que la fréquence d’occurrence de celui-ci qui vaut 3 (i.e. le nombre de fois où il intersecte

les réponses candidates est 3) est la plus élevée. Nous ne tenons pas compte pour cet exemple du critère

de durée : nous détaillons ce point par la suite.

70


3.2.3.1 Construction des zones de cohérence

Pour définir les sous-intervalles et ainsi identifier les zones de forte cohérence, nous nous appuyons

sur les modèles de construction de zones [Balbiani et al., 2000] ou de fragments [Terenziani, 2003] uti-

lisés en raisonnement temporel sur les intervalles et en particulier pour la résolution de problèmes de

satisfaction de contraintes. Pour cela, il faut donc connaître les bornes des N intervalles candidats.

SoientB = fdxj ; tel quex 2 fb; eg et 1 � j � N g l’ensemble ordonné des bornes des N intervalles.

SoitNb le nombre de bornes de l’ensembleB (Nb = ard(B)).Un intervalle minimal est de la forme[mi; mi+1℄ (il n’y a pas d’autre point entremi etmi+1) avecmi 2 B; 8i; 1 � i � Nb � 1 (commeB est ordonné,mi est un point (i.e. une date) antérieur àmi+1).

Exemple :

Reprenons l’exemple précédent de l’ouragan Hugo. L’ensemble ordonné des bornes des intervalles est :B = f db2 ; db1 ; de1 ; db4 ; de4 ; de2 ; de5 g et Nb = 7.

Par conséquent, nous avons (cf. figure 3.2) :m1 = db2 = 1989 � 09� 10; m5 = de4 = 1989 � 09� 17,m2 = db1 = 1989 � 09� 16; m6 = de2 = 1989 � 09� 22,m3 = de1 = 1989 � 09� 16; m7 = de5 = 1989 � 09� 25,m4 = db4 = 1989 � 09� 17,

Les sous-intervalles sont donc :[m1; m2℄; [m2; m3℄; [m3; m4℄; [m4; m5℄; [m5; m6℄; [m6; m7℄.Nous définissons à présentF[mi;mi+1℄ comme lafréquence d’occurrencede l’intervalle[mi;mi+1℄,

i.e. le nombre de fois où[mi;mi+1℄ est inclus dans les N réponses candidates. Nous considéronsqu’un

intervalle X est inclus dans un intervalle Y s’il satisfait une des relationségal(=), pendant(d), commence

(s) outermine(f) définies dans [Allen, 1983] (cf. figure 3.3).

Une fréquence d’occurrence est donc affectée à chaque sous-intervalle :8i; 1 � i � Nb � 1; F[mi;mi+1℄ = ard (f [dbj ; dej ℄ : [mi;mi+1℄ � [dbj ; dej ℄ g)où [db1 ; de1 ℄; :::; [dbN ; deN ℄ sont les N intervalles candidats.

71


FIG. 3.2 – Les 11 réponses candidates et les sous-intervalles

FIG. 3.3 – Relations temporelles d’Allen pour l’inclusion

Exemple :

Dans notre exemple, on a : (avecN = 11)[m1;m2℄ � d2 et [m1;m2℄ � d5 et [m1;m2℄ � d9donc : F[m1;m2℄ = ard (f dj tel que 8j; 1 � j � N; [m1;m2℄ � dj g) = 3[m2;m3℄ � d1 et [m2;m3℄ � d2 et [m2;m3℄ � d3 et [m2;m3℄ � d5 et [m2;m3℄ � d6 et[m2;m3℄ � d7 et [m2;m3℄ � d8 et [m2;m3℄ � d9 et [m2;m3℄ � d10 et [m2;m3℄ � d11donc : F[m2;m3℄ = ard (f dj tel que 8j; 1 � j � N; [m2;m3℄ � dj g) = 1072

3.2. Détermination de contenu[m3;m4℄ � d2 et [m3;m4℄ � d5 et [m3;m4℄ � d8 et [m3;m4℄ � d9donc : F[m3;m4℄ = ard (f dj tel que 8j; 1 � j � N; [m3;m4℄ � dj g) = 4[m4;m5℄ � d2 et [m4;m5℄ � d4 et [m4;m5℄ � d5 et [m4;m5℄ � d8 et [m4;m5℄ � d9donc : F[m4;m5℄ = ard (f dj tel que 8j; 1 � j � N; [m4;m5℄ � dj g) = 5[m5;m6℄ � d2 et [m5;m6℄ � d5 et [m5;m6℄ � d8 et [m5;m6℄ � d9donc : F[m5;m6℄ = ard (f dj tel que 8j; 1 � j � N; [m5;m6℄ � dj g) = 4[m6;m7℄ � d8 et [m6;m7℄ � d9donc : F[m6;m5℄ = ard (f dj tel que 8j; 1 � j � N; [m6;m7℄ � dj g) = 2

À la manière de [Hunter, 2002] dans le cadre de la logique quasi-classique, letaux de cohérencetiqui est affecté ensuite à chaque sous-intervalle[mi;mi+1℄ est le rapport entre la fréquence d’occurrence

et le nombre de réponses candidates :8i; 1 � i � Nb � 1; ti = F[mi;mi+1℄N (0 < ti � 1)Exemple :

Dans notre exemple, lestaux de cohérencede chaque sous-intervalle sont :t1 = F[m1;m2℄N = 311 = 0:27 t2 = F[m2;m3℄N = 1011 = 0:91t3 = F[m3;m4℄N = 411 = 0:36 t4 = F[m4 ;m5℄N = 511 = 0:45t5 = F[m5;m6℄N = 411 = 0:36 t6 = F[m6 ;m7℄N = 211 = 0:18

Mais l’exemple précédent nous montre que choisir l’intervalle ayant le taux de cohérence le plus

élevé ne suffit pas (dans l’exemple, la réponse seraitle 16 septembre 1989ce qui paraît peu plausible, un

73


ouragan ne durant pas qu’une journée).

Le but est d’éviter à l’utilisateur de faire de fausses présuppositions sur la durée d’un événement en lui

proposant une réponse d’une durée non pertinente. L’hypothèse qui se présente alors est que l’intervalle

choisi comme étant le plus cohérent ou le plus plausible doitaussi avoir une durée pertinente.

Dans ce but, notre stratégie consiste à construire de nouveaux intervalles à partir des sous-intervalles

précédents : les sous-intervalles peuvent ainsi être "allongés" pour qu’ils aient une durée pertinente, i.e.

une durée qui prenne en compte les durées de toutes les réponses candidates. Pour cela, nous supposons

qu’une durée est pertinente si elle est proche de la durée moyenne des N réponses candidates.

3.2.3.2 Prise en compte de la durée moyenne

Soit dui la durée de l’intervalleI (elle peut être un nombre de jours, de mois, d’années, etc.).On

fixe à un jour la durée d’une date ponctuelle. Ladurée moyennedumoy est la moyenne des durées des

N intervalles candidats, elle est définie par :dumoy = NXi=1 duiNExemple : La durée moyenne des 11 réponses candidates de notre exempleest de 5,3 jours.

Nous construisons ensuite un ensemble de réponses cohérentes composé des intervalles satisfaisant

la contrainte de durée définie ci-dessous et auxquels nous affectons un nouveau taux de cohérence. Pour

cela, nous faisons donc l’union des sous-intervalles[mi;mi+1℄ consécutifs jusqu’à ce que leur durée

satisfasse la contrainte de durée. Le nouveau taux de cohérence qui est affecté à chaque nouvel intervalle

ainsi obtenu est la moyenne des taux de cohérence des intervalles le composant.

L’algorithme présenté ci-dessous permet de construire l’ensemble des réponses cohérentesRepCohcomposé des intervalles qui ont une durée pertinente auquelon associe un nouveau taux de cohérence.

Contrainte de durée:

La durée suffisante pour qu’un intervalle soit considéré comme pertinent doit être comprise entre la

partie entière dedumoy (notéeEnt(dumoy)) et la partie entière+1, ce qui permet de borner la durée

des intervalles par les valeurs entières immédiatement inférieure et supérieure àdumoy (par exemple, si

la durée moyenne vaut 5.7 jours, alors la durée des intervalles pertinents doit être comprise entre 5 et 6

74


jours).

Algorithme:RepCoh = ;pouri de1 àNb � 1,

(1) pourk dei àNb � 1, [mi;mk+1℄ = k[j=i [mj ;mj+1℄(2) le taux de cohérence de[mi;mk+1℄ est :ti;k+1 = kXj=i tjk + 1� i (0 < ti;k+1 � 1)(3) si [mi;mk+1℄ satisfait la contrainte de durée,

alorsRepCoh = RepCoh [ ([mi;mk+1℄; ti;k+1)L’ensemble des réponses cohérentesRepCoh est donc défini par :RepCoh = f([mi;mk+1℄; ti;k+1); 1 � i � Nb � 1; i < k � Nb � 1;ave [mi;mk+1℄ = k[j=i [mj;mj+1℄et ti;k+1 = kXj=i tjk + 1� itel que Ent(dumoy) � du[mi;mk+1℄ � Ent(dumoy) + 1 gExemple :

Pour l’exemple de l’ouragan Hugo, nous pouvons à présent construire l’ensemble des réponses cohé-

rentesRepCoh composé des intervalles ayant une durée satisfaisant la contrainte de durée (i.e. la durée

moyennedumoy valant 5,3 jours, la durée des intervalles doit donc être comprise entre 5 et 6 jours). Nous

affectons ensuite à chacun de ces intervalles un nouveau taux de cohérence. Nous détaillons à présent

l’algorithme de construction deRepCoh :

75


pour i = 1,[m1;m2℄ = 1[j=1[mj ;mj+1℄ et du[m1;m2℄ = 5 et t12 = 1Xj=1 tj1 + 1� 1 = t1 = 0:27[m1;m3℄ = 2[j=1[mj ;mj+1℄ et du[m1;m3℄ = 6 et t13 = 2Xj=1 tj2 + 1� 1 = t1 + t22 = 0:59[m1;m4℄ = 3[j=1[mj ;mj+1℄ et du[m1;m4℄ = 7:::pour i = 2,[m2;m3℄ = 2[j=2[mj ;mj+1℄ et du[m2;m3℄ = 1:::[m2;m6℄ = 5[j=2[mj ;mj+1℄ et du[m2;m6℄ = 6 et t26 = 5Xj=2 tj5 + 1� 2 = t2 + t3 + t4 + t54 = 0:52:::pour i = 3,[m3;m4℄ = 3[j=3 [mj ;mj+1℄ et du[m3;m4℄ = 1:::[m3;m6℄ = 5[j=3[mj ;mj+1℄ et du[m3;m6℄ = 6 et t36 = 5Xj=3 tj5 + 1� 3 = t3 + t4 + t53 = 0:39:::pour i = 4,[m4;m5℄ = 4[j=4[mj ;mj+1℄ et du[m4;m5℄ = 1[m4;m6℄ = 5[j=4[mj ;mj+1℄ et du[m4;m6℄ = 5 et t46 = 5Xj=4 tj5 + 1� 4 = t4 + t52 = 0:41:::76


pouri = 5,[m5;m6℄ = 5[j=5[mj;mj+1℄ et du[m5;m6℄ = 5 et t56 = 5Xj=5 tj5 + 1� 5 = t5 = 0:36:::pouri = 6, [m6;m7℄ = 6[j=6[mj;mj+1℄ et du[m6;m7℄ = 3Par conséquent, l’ensembleRepCoh, composé des intervalles qui satisfont la contrainte de durée, est :RepCoh = f ([m1;m2℄; 0:27); ([m1;m3℄; 0:59); ([m2;m6℄; 0:52); ([m3;m6℄; 0:39);([m4;m6℄; 0:41); ([m5;m6℄; 0:36) g

Une fois que l’ensemble des réponses cohérentes a été construit, il reste à vérifier si la réponse

attendue est un événement unique ou itératif. En effet, le processus de sélection de la réponse ne sera pas

le même selon que l’on se trouve dans un cas ou dans l’autre.

3.2.3.3 Sélection de la réponse la plus cohérente

Il existe deux principales approches pour formaliser les connaissances sur le temps : la logique tem-

porelle et le raisonnement à partir de contraintes. Dans ce dernier domaine, des travaux récents se sont in-

téressés au problème des événements itératifs (entre autres, [Cukierman et al, 1998], [Morris et al, 1998],

etc.). Ainsi, [Morris et al, 1998] présente un modèle de représentation des événements itératifs. Les pro-

priétés de tels événements sont le nombre et la durée de chaque occurrence de l’événement, la durée

entre deux occurrences successives et la période. Les contraintes de ce modèle imposent des valeurs

pour borner ces différentes propriétés.

Dans notre cadre, les seules propriétés que nous pouvons déduire des réponses candidates et qui nous

sont nécessaires pour déterminer si un événement est itératif ou non sont :

– le nombre d’occurrences de l’événement,

– la durée de l’événement,

– la durée entre deux occurrences successives.

La période ne nous sera utile que lors de la phase de génération. Il peut exister d’autres "indices"

dans les pages Web (par exemple des termes commetous les 4 ans, etc., que l’on identifie grâce à la

grammaire d’extraction) qui peuvent compléter la base de connaissances et ainsi confirmer la périodicité

77


d’un événement.

Nous considérons donc qu’un événement est itératif s’il se répète plusieurs fois, autrement dit s’il

existe un certain nombre d’intervalles deRepCoh (i.e. nombre d’occurrences de l’événement) qui sont

suffisamment distants dans le temps (cf. figure 3.4).

Nous rappelons que les intervalles deRepCoh ont été construits en respectant la contrainte de durée.

Par conséquent, tous ces intervalles ont une durée à peu prèséquivalente.

FIG. 3.4 – Événement unique ou itératif ?

Il est ainsi nécessaire de définir un certain nombre de paramètres qui vont déterminer si un événement

est itératif ou non :

– un paramètre qui fixe le nombre minimum d’itérations d’un intervalle et,

– un paramètre qui fixe la durée entre deux intervalles successifs.

Ces paramètres dépendent bien sûr de la granularité des données.

Soit� le nombre minimum d’itérations des intervalles deRepCoh.

Soit� la durée minimale entre deux intervalles consécutifs deRepCoh.

SoitNbRepCoh le nombre d’intervalles deRepCoh (NbRepCoh = ard(RepCoh)).Soient Ii; 8i; 1 � i � NbRepCoh les intervalles deRepCoh ordonnés chronologiquement avecIi = [DIi; F Ii℄ et Ii+1 = [DIi+1; F Ii+1℄.On a donc :Ii est antérieur àIi+1, c’est-à-direDIi est une date antérieure ou égaleDIi+1.78


Un événement est considéré commeitératif s’il existe au moins� intervalles deRepCoh qui sont

distants de leur successeur d’au moins une durée� (cf. figure 3.5).9�; � tels que ard ( f Ii 2 RepCoh; tel que8 i; 1 � i � NbRepCoh et Ii+1 2 RepCoh;jDIi+1 � FIij � � g ) � �

FIG. 3.5 – Événement itératif

De la même manière, un événement itératif est considéré comme périodique s’il existe au moins�intervalles deRepCoh qui sont distants de leur successeur d’une durée qui est toujours plus ou moins

proche de�, le paramètrek permettant de tolérer une marge d’erreur (cf. figure 3.6).9�; �; k tels que ard (f Ii 2 RepCoh; tel que 8 i; 1 � i � NbRepCoh et Ii+1 2 RepCoh;jDIi+1 � FIij = �� k g ) � �

FIG. 3.6 – Événement périodique

79


À ce stade, il y a donc deux possibilités :

– soit l’événement est unique:

Dans ce cas, l’ensemble de réponsesRep à proposer à l’utilisateur est composé des intervalles deRepCoh ayant le taux de cohérence le plus élevé (plusieurs intervalles peuvent avoir le taux de

cohérence le plus élevé). Les intervalles à proposer à l’utilisateur sont donc :Rep = f ([mi;mk℄; t) 2 RepCoh tel que t = max([mj ;ml℄;tjl)2RepCoh(tjl) g– soit l’événement est itératif(périodique ou non) :

Dans ce cas, il peut y avoir descontraintes temporelles imposées par la question: par exemple, la

question attend comme réponse un événement soit passé soit futur, un événement pour une année

en particulier, etc. Quand la question n’impose pas de contrainte, on choisit, parmi les intervalles

qui satisfont la contrainte d’itérativité, celui qui représente le prochain événement dans le futur

(s’il n’y en a pas, on choisit l’intervalle le plus récent dans le passé) : c’est la phase de génération

qui devra expliquer ces mécanismes à l’utilisateur.

Soit RepCohq le sous-ensemble des intervalles deRepCoh qui satisfont les contraintes tempo-

relles de la question. AlorsRep est l’ensemble des réponses (intervalles) deRepCohq qui ont le

taux de cohérence le plus élevé et qui peuvent être proposéesà l’utilisateur :Rep = f([mi;mk℄; t) 2 RepCohq tel que t = max([mj ;ml℄;tjl)2RepCohq(tjl) gExemple :

Reprenons l’exemple de l’ouragan Hugo. L’événement ne peutpas être considéré comme un évé-

nement itératif puisque tous les intervalles deRepCoh sont contigus. Ainsi, la réponse qui peut être

proposée à l’utilisateur est l’intervalle deRepCoh ayant le taux de cohérence le plus élevé :Rep = f ([m1;m3[; 0:59) gi.e. du 10 au 16 septembre 1989 (en fait, l’ouragan Hugo a débuté le 10 septembre dans l’océan atlantique

et est arrivé dans les Caraïbes le 16) (pour les explicationsde la réponse en langue, voir le chapitre 4).

80

3.3. Synthèse

Prenons maintenant un exemple de traitement d’événements itératifs. Supposons que l’on fixe� = 2(car le nombre d’intervalles à tester est volontairement faible pour cet exemple) et� = 6 mois. À

la questionQuand a eu lieu le festival de Cannes ?, l’ensemble des réponses cohérentesRepCoh est

constitué des intervalles suivants chronologiquement ordonnés :I1 = [2000-05-10, 2000-05-21],I2 = [2003-05-14, 2003-05-25],I3 = [2004-05-12, 2004-05-23],I4 = [2005-05-11, 2005-05-22].

On vérifie si ces intervalles vérifient la contrainte d’itérativité. On a ainsi :DI2 � FI1 = 2003-05-14� 2000-05-21' 3 ans � �DI3 � FI2 = 2004-05-12� 2003-05-25' 1 an � �DI4 � FI3 = 2005-05-11� 2004-05-23' 1 an � �Ici, on a donc un nombre suffisant d’intervalles (3 intervalles :I1; I2 et I3) qui satisfont la contrainte

d’itérativité avec� = 2 (3 � �). De plus, on a 2 intervallesI2 et I3 qui satisfont aussi la contrainte pour

les événements périodiques avec� ' 1 an (le signe' permet d’approximer�� k). L’événement peut

donc être considéré comme un événement périodique.

La question attend une réponse dans le passé mais n’impose pas de contrainte sur une année en particulier.

La réponse donnée à l’utilisateur est donc la réponse la plusrécente (du 11 au 22 mai 2005).

En pratique, nous considérons que 3 intervalles satisfaisant la contrainte d’itérativité suffisent pour

conclure à un événement itératif (� = 3). Nous avons aussi fixé le paramètre� à 1 an car nous n’avons

considéré que des événements itératifs ou périodiques respectant au moins cette contrainte. Cependant,

on peut envisager de fixer dynamiquement la valeur de� en fonction de la configuration des intervalles

candidats. Par exemple, si une majorité des intervalles candidats sont distants d’une durée de 6 mois alors� peut être fixé à 6 mois, ce qui permet d’"apprendre" la périodicité directement à partir des données.

3.3 Synthèse

Le tableau 3.2 récapitule l’algorithme de détermination decontenu.

81


Définition des sous-intervalles

Soientdi = [dbi ; dei ℄ avec1 � i � N les N réponses candidates.SoitB = fdbj ; dejg; 8 j; 1 � j � N l’ensemble ordonné des bornes des N intervalles.SoitNb = ard(B)Sous-intervalles: [mi;mi+1℄ avecmi 2 B; 8 i; 1 � i � Nb � 1Taux de cohérence de[mi;mi+1℄ : 8 i; 1 � i � Nb � 1; ti = F[mi;mi+1℄N (0 < ti � 1)avecF[mi;mi+1℄ = ard (f [dbj ; dej ℄ : [mi;mi+1℄ � [dbj ; dej ℄ g)Prise en compte de la duréeRepCoh = ;pour i de1 àNb � 1,

(1) [mi;mk+1℄ = k[j=i [mj;mj+1℄ pourk dei àNb � 1(2) ti;k+1 = kXj=i tjk + 1� i (0 < ti;k+1 � 1)(3) si Ent(dumoy) � du[mi;mk+1℄ � Ent(dumoy) + 1alors RepCoh = RepCoh [ ([mi;mk+1℄; ti;k+1)Sélection de la réponse

Contrainte d’itérativité (I):9�; � tels que ard ( f Ii = [DIi; F Ii℄ 2 RepCoh; 1 � i � NbRepCohtel queIi+1 = [DIi+1; F Ii+1℄ 2 RepCoh; jDIi+1 � FIij � � g ) � �si (I)alorsRep = f([mi;mk℄; t) 2 RepCohq tel que t = max([mj ;ml℄;tjl)2RepCohq(tjl) gsinonRep = f ([mi;mk℄; t) 2 RepCoh tel que t = max([mj ;ml℄;tjl)2RepCoh(tjl) g

TAB . 3.2 – Algorithme de détermination de contenu : réponses de typedate

82

Chapitre 4

Génération des réponses de typedateen

langue naturelle

Une fois que la réponse la plus cohérente a été élaborée, il reste à la générer en langue naturelle. En

effet, une réponse d’un système question-réponse avancé sedoit non seulement de répondre correctement

à la question posée mais aussi d’expliquer à l’usager la réponse proposée [Burger et al., 2000].

4.1 Objectifs

Dans de nombreux systèmes experts ou question-réponse, la génération se fait par l’intermédiaire de

fragments de textes prédéfinis (ou patrons) [Reiter, 1995].Ainsi, le système JAVELIN décrit le processus

de sélection de la réponse [Nyberg et al., 2003] ; le système Inference Web décrit en langue naturelle

l’origine de la réponse et les différentes étapes d’inférence [McGuinness et al., 2004].

Nous nous situons dans une approche sensiblement différente. En effet, présenter à l’utilisateur toutes

les étapes d’élaboration de la réponse ne nous paraît pas être suffisamment coopératif. En revanche, il

nous paraît plus indispensable d’expliquer à l’utilisateur à quel point la réponse qui lui est proposée est

sûre : c’est à ce niveau que se situe le caractère coopératif de notre système.

Comme les questions sont généralement de la formeQuand sujet verbe (objet) ? , une façon

relativement simple et intuitive de générer les réponses est de produire des réponses sous la forme

schématique : sujet verbe (objet) réponse . Notre stratégie est donc de définir des schémas

de réponses (ou templates) qui permettent de faciliter les tâches de génération [Busemann et al., 1998].

83

Chapitre 4. Génération des réponses de type date en langue naturelle

4.2 Conception des schémas de génération

La première partie de la réponse (sujet verbe (objet) ) est générée de façon classique en gar-

dant des traces des lexicalisations des termes de la question afin de les réutiliser autant que possible

dans la réponse. Des traitements morphologiques sont bien sûr nécessaires en particulier pour les verbes

(temps, personne, genre, etc.).

Par exemple, une réponse à la questionQuand Aldous Huxley a-t-il écrit "Le meilleur des mondes" ?

peut être mise sous la formeAldous Huxley a écrit "Le meilleur des mondes"...L’idée est d’annoter les

termes de la question (rôle syntaxique, temps, nombre, etc.) de telle sorte qu’ils puissent être réutilisés

facilement lors de la génération de la réponse.

Des questions de la formeQuand puis-je... ?nécessitent des traitements plus élaborés : changements des

pronoms (par exemple,je devientvous), des modaux selon la question (Quand puis-je... / Vous devez...),

etc.

Comme nous nous plaçons dans le cadre des systèmes coopératifs, l’idée est d’introduire des mo-

dalités ou des degrés de possibilité pour expliquer à l’utilisateur jusqu’à quel point il peut croire en la

réponse qui lui est proposée. Dans ce but, nous définissons undegré de certitudede la réponse élaborée

lors de la phase de détermination de contenu.

4.2.1 Degré de certitude des réponses

Quelques approches en système question-réponse utilisentcette notion de degré de certitude. Par

exemple, certains systèmes question-réponse affectent des scores aux réponses candidates, sans que

ce score soit présenté effectivement à l’utilisateur. Ainsi, le système QALC [de Chalendar et al., 2002]

recherche les réponses candidates à la fois sur le Web et dansun corpus de référence (AQUAINT) puis

affecte à chaque réponse candidate une mesure de similaritéavec la question qui permet de classer les

réponses selon leur pertinence. Ensuite, le système préfère les réponses qui sont trouvées dans les deux

sources (Web et corpus) plutôt que les réponses qui ont un poids élevé mais sont présentes dans une seule

source. Dans notre cadre, c’est sur la base du taux de cohérence que se fait le classement des réponses.

En revanche, nous souhaitons pouvoir expliquer en langue à quel point la réponse proposée est sûre.

Pour cela, nous définissons un degré de certitude de la réponse qui dépend de deux paramètres :

– le taux de cohérence de la réponse choisie et le nombre de réponses candidates:

La réponse élaborée lors de la détermination de contenu peutêtre considérée comme plus sûre s’il

y a un grand nombre de réponses candidates d’origines différentes. En effet, siN et le taux de

cohérence de la réponse choisie sont élevés, alors cela signifie qu’il y avait peu de contradictions

parmi les réponses candidates,

84

4.2. Conception des schémas de génération

– l’écart entre les taux de cohérence:

Si la différence entre le taux de cohérence de la réponse choisie (i.e. celle qui a le taux de cohérence

le plus élevé) et le taux de cohérence des autres réponses estélevée, alors cela signifie que la

réponse choisie a plus de chance d’être sûre (puisque la différence entre les taux de cohérence est

assez significative).

Soit� la différence entre le taux de cohérence le plus élevé (celuide la réponse choisie) et le deuxième

taux de cohérence le plus élevé. Cette différence est définiepar :

(Pour la suite, on considère queRep est la(les) réponse(s) à proposer à l’utilisateur (i.e. celle(s) qui a(ont) le meilleur taux de cohérence) etRepCoh�Rep est l’ensemble des réponses cohérentes privé de la(des) "meilleure(s)" réponse(s).)� = tik � tjlavec ([mi;mk℄; tik) 2 Rep et([mj ;ml℄; tjl) = argmax([mr;ms℄;trs)2RepCoh�Rep(trs)([mj ;ml℄; tjl) est donc la réponse ayant le deuxième taux de cohérence le plus élevé.

Nous définissons doncÆik comme ledegré de certitudede la réponse[mi;mk℄ . Ce degré prend

en compte les paramètres précédemment énoncés. Comme le nombre de réponses candidatesN est déjà

pris en compte lors du calcul des taux de cohérence,� et le taux de cohérencetik sont des paramètres

suffisants.

Comme les taux de cohérence sont des valeurs comprises entre0 et 1, on a :0 � � � 1.

On veut que le degré de certitudeÆik soit lui aussi compris entre 0 et 1, sachant qu’il doit valoir1 si la

réponse est complètement certaine. On a donc :Æik = ( 1 si tik = 1� � tik sinonCe degré est très faible dans le cas où� est très faible. Nous présentons dans la section 4.2.3 comment

ceci est expliqué en langue.

85


Ainsi, comme0 � tik � 1 et0 � � � 1, cela signifie que :

– plusÆik tend vers 1, plus la réponse[mi;mk℄ est certaine (Æik = 1 si tik = 1, c’est-à-dire s’il n’y

a aucune contradiction parmi les réponses candidates),

– Æik tend vers 1 quand� et tik sont élevés : si le taux de cohérencetik est très élevé et si l’écart�entre les taux de cohérence est très grand, alors la réponse est d’autant plus certaine.

Il est maintenant possible de définir des schémas de réponsespour chaque type de réponse en s’ap-

puyant sur ce degré de certitude. Nous distinguons trois principaux cas.

1. soitRep = ;, i.e. aucune réponse cohérente n’a pu être construite. Dansce cas, l’idée est de

sélectionner la réponse candidate qui a le taux de cohérencele plus élevé même si elle ne satisfait

pas la contrainte de durée mais il faut alors expliquer que laréponse n’est pas sûre,

2. soitÆik = 1, i.e. la réponse choisie[mi;mk℄ est certaine,

3. soitÆik 6= 1, alors la réponse générée doit prendre en compte le paramètre � .

Ainsi, si � est élevé, cela signifie que le taux de cohérence de la réponsechoisie est bien supérieur

aux autres taux de cohérence : dans ce cas, la réponse choisiepeut être considérée comme sûre.

Au contraire, si� est faible, cela signifie que le taux de cohérence de la réponse choisie est très

proche des autres taux de cohérence : dans ce cas, plusieurs réponses peuvent être générées car

elles sont considérées comme potentiellement correctes. Les formulations de la réponse en langue

vont donc différer selon la valeur de� .

L’idée est de générer des réponses avec différents degrés decertitude en s’appuyant sur le paramètreÆ : intuitivement, nous avons choisi d’exprimer ce degré en langue à l’aide d’adverbes. La figure 4.1

représente l’échelle de probabilité d’un événement.

FIG. 4.1 – Échelle de probabilité d’un événement

86


4.2.2 Formalisation des schémas de génération

Un schéma de génération est une expression sous-spécifiée composée d’éléments appartenant à :

– un ensembleP de termes prédéfinis de la langue,

– un ensembleC de concepts à générer : par exemple, la réponse sous forme de date ou les termes

de la question à réutiliser,

– un ensembleF de fonctions de lexicalisation qui sélectionnent la meilleure lexicalisation parmi

un ensemble de lexicalisations possibles d’un élément (concept, propriété, connecteur, etc.). Les

lexicalisations possibles sont décrites dans le lexique. Le choix lexical (opération complexe étu-

diée entre autres par [Cahill, 1999] et [Reiter et al, 2002])dépend du contexte de la question et

peut même dépendre des connaissances de l’utilisateur [Reiter et al., 2003] (nous ne gérons pas ce

dernier point puisque notre système ne possède pas de modèleutilisateur).

Un schémat est donc une séquence finie d’élémentsei 2 (P [ C [ F ) et il existe au moins un

concept de C à lexicaliser (i.e. un élément variable pour chaque schéma) et une fonction de lexicalisation

deF .

Ainsi, les réponses en langue naturelle sont produites à l’aide de schémas de génération et le caractère

coopératif des réponses est exprimé grâce aux textes prédéfinis (éléments deP ) et aux choix lexicaux

effectués par les fonctions deF qui vont lexicaliser les différents degrés de certitude desréponses.

4.2.3 Base de schémas

Présentons à présent les principaux schémas de génération que nous avons définis pour la génération

de réponses intégrées de typedate. Nous donnons ci-dessous les conventions de notation :

– chaque schéma est notéT_Nom-Templatei, oùNom-Template est le nom du schéma eti est

la condition d’application du schéma,

– les éléments prédéfinispi 2 P sont en italique,

– la fonctionlexEvent 2 F est la fonction qui lexicalise la date d’un événement (en particulier, celle

élaborée lors de la détermination de contenu),

– la fonctionlexCertitude 2 F est la fonction qui lexicalise le degré de certitudeÆ de la réponse,

– la fonctionlexPeriode 2 F est la fonction qui lexicalise le paramètre� de la contrainte d’itérativité

des événements,

– la fonctionlex 2 F est la fonction qui lexicalise les autres éléments (sujet, verbe de la réponse,

etc.).

Nous avons choisi intuitivement de lexicaliser le degré de certitude des réponses par des adverbes

et de représenter leur intensité par la série proportionnelle de la figure 4.2. Par exemple, si le degré de

certitudeÆ de la réponse est élevé, il sera lexicalisé par un adverbe de forte intensité.

87


En observant les résultats expérimentaux, nous avons constaté qu’il arrive que le degré de certitude soit

très faible (casimpossibilitéde la figure 4.1), ce qui signifierait que la réponse élaborée est fausse. Plutôt

que ne proposer aucune réponse, nous avons choisi de regrouper les casimpossibilitéet faible probabilité

de la figure 4.1 en un seul qui correspond au cas où le degré de certitude est compris entre 0 et 0,5 (cas

probable). Nous proposons des idées d’amélioration en conclusion dece chapitre.

FIG. 4.2 – Intensité des adverbes lexicalisant le degré de certitude

Nous développons des exemples par la suite.

La fonction de lexicalisationlexEvent a trois arguments : la date de l’événement qui doit être générée,

un argumentReg qui précise si l’événement en question est un événement périodique ou non, et le

paramètre� de la contrainte d’itérativité. En effet, si un événement itératif est périodique, alors des

généralisations peuvent être faites.

Rappelons qu’un événement est périodique s’il est itératifet si le paramètre� est le même pour toutes

les réponses (i.e. l’événement a lieu à intervalle régulier). Par exemple, si� = 1 an, une généralisation

possible est :X a lieu tous les ansle ....

Les tableaux 4.1 et 4.2 présentent les différents schémas degénération que nous avons définis pour

la génération de réponses intégrées de typedate. Ci-dessous, nous présentons les différents paramètres.

– Rappelons que nous avons distingué trois principales conditions d’application des schémas de

génération qui s’excluent mutuellement (cf. section 4.2.1) :

– le cas (1) oùRep = ;, i.e. aucune réponse n’a pu être élaborée,

– le cas (2) oùÆ = 1, i.e. la réponse est certaine,

– le cas (3) oùÆ 6= 1 et il faut prendre en compte le paramètre� .

– SoientR la réponse à proposer (celle ayant le taux de cohérence le plus élevé) etR0 celle ayant le

taux de cohérence le plus proche de celui deR.

SoienttR et tR0 les taux de cohérence respectifs deR etR0. On a donc :� = tR � tR0 .Si � est faible (i.e. les taux de cohérence sont proches), alors les réponsesR et R0 peuvent être

proposées mais à des degrés de certitude sensiblement différents.

88


– On note aussiDebut-Phrase les concepts à générer qui représentent la première partie de la

réponse - par exemple, le sujet et le verbe (et qu’on peut lexicaliser de la même façon que dans la

question).

Remarque: pour les schémas 3.2, 3.3, 3.5 et 3.6, si les fragments prédéfinis ou moinset mais plussont

suivis par les lexicalisations d’adverbestrès probablementou très certainement, alors on supprimetrès

pour que ce soit grammaticalement correct (*mais plus très certainement/mais plus certainement). Cela

ne change en rien l’intensité de l’adverbe puisque l’atténuation ou le renforcement de l’intensité se fait

désormais grâce àmoinsouplus.

89

Chapitre

4.

Généra

tion

des

réponse

sde

type

date

en

langue

na

ture

lle

Événements non périodiquesConditions Schémas de génération Exemples

d’applicationcas (1) T_Date1.1 :Rep = ; Q : Quand la Première Guerre Mondiale s’est-elle terminée ?R 2 RepCoh lex(Deb-Phrase)probablementlexEvent(R, nonReg,_) La Première Guerre Mondiale s’est terminéeprobablemententre

le 15 septembre et le 11 novembre 1918.

cas (2) T_Date2.1 :R 2 Rep Q : Quand Chomsky est-il né ?ÆR = 1 lex(Deb-Phrase) lexEvent(R, nonReg,_) Chomsky est né le 7 décembre 1928.

cas (3) T_Date3.1 :R 2 Rep Q : Quand Desmond Tutu a-t-il reçu le prix Nobel de la paix ?ÆR 6= 1 lex(Deb-Phrase) lexCertitude(ÆR) lexEvent(R, nonReg,_) Desmond Tutu a reçu le prix Nobel de la paix� est élevé certainement en 1984.

cas (3) T_Date3.2 :R 2 Rep Q : Quand l’indépendance de l’Algérie a-t-elle été proclamée ?ÆR 6= 1 lex(Deb-Phrase) lexCertitude(ÆR) lexEvent(R, nonReg,_) L’indépendance de l’Algérie a été proclamée certainement le 5 juillet 1962� est faible ou moins lexCertitude(ÆR) lexEvent(R’, nonReg,_) ou moinscertainement le 4 juillet 1962.

T_Date3.3 :Q : Quand l’ouragan Hugo a-t-il eu lieu ?

lex(Deb-Phrase) lexCertitude(ÆR ) lexEvent(R’, nonReg,_) L’ouragan Hugo a eu lieu probablement du 10 au 22 septembre 1989

mais plus lexCertitude(ÆR ) lexEvent(R’, nonReg,_) mais plusprobablement du 16 au 22 septembre 1989.

TAB . 4.1 – Schémas de génération pour les réponses intégrées de typedate: événements non périodiques

90

4.2

.C

once

ptio

ndes

schém

as

de

généra

tion

Événements périodiquesConditions Schémas de génération Exemples

d’applicationcas (1) T_Date1.2 :Rep = ; Q : Quand aura lieu l’élection du président de l’UPS ?R 2 RepCoh lex(Deb-Phrase)tous leslexPeriode(�) L’élection du président de l’UPS a lieutous les4 ans

probablementlexEvent(R, reg,�) probablementen 2006.

cas (2) T_Date2.2 :R 2 Rep Q : Quand a lieu la fête de la musique ?ÆR = 1 lex(Deb-Phrase)tous leslexPeriode(�) lexEvent(R, reg,�) La fête de la musique a lieutous lesans le 21 juin.

cas (3) T_Date3.4 :R 2 Rep Q : Quand a lieu le sommet du G8 ?ÆR 6= 1 lex(Deb-Phrase)tous leslexPeriode(�) Le sommet du G8 a lieutous lesans� est élevé lexCertitude(ÆR ) lexEvent(R, reg,�) très certainement du 6 au 8 juillet 2005.

cas (3) T_Date3.5 :R 2 Rep Q : Quand a lieu la fête de la musique ?ÆR 6= 1 lex(Deb-Phrase)tous leslexPeriode(�) La fête de la musique a lieutous lesans� est faible lexCertitude(ÆR ) lexEvent(R, reg,�) certainement le 21 juin

ou moins lexCertitude(ÆR ) lexEvent(R’, reg,�) ou moinscertainement le 20 juin.

T_Date3.6 :Q : Quand aura lieu le festival de Cannes ?

lex(Deb-Phrase)tous leslexPeriode(�) Le festival de Cannes a lieutous lesans

lexCertitude(ÆR ) lexEvent(R’, reg,�) probablement du 15 au 22 mai 2005

mais plus lexCertitude(ÆR) lexEvent(R, reg,�) mais pluscertainement du 11 au 22 mai 2005.

TAB . 4.2 – Schémas de génération pour les réponses intégrées de typedate: événements périodiques

91


4.3 Exemples de réponses générées

Dans cette section, nous présentons quelques exemples de réponses intégrées de typedategénérées

par notre système. Connaissant les taux de cohérence des réponses élaborées lors de la détermination de

contenu à partir des différentes réponses candidates, nouscalculons le degré de certitude de la réponse

choisie et nous générons la réponse en langue naturelle à partir du schéma de génération approprié.

Exemple 1

À la questionQuand Chomsky est-il né ?, la seule réponse obtenue est R = [1928-12-07, 1928-12-07]

et son taux de cohérence vaut donc 1. Le degré de certitude de cette réponse est donc :ÆR = 1.

Nous somme ainsi dans le cas (2). Puisque l’événement n’est pas itératif (et donc pas périodique),

c’est le schémaT_Date2.1 qui doit être appliqué :

lex(Deb-Phrase) lex Event (R, nonReg,_).

Par conséquent, la réponse générée en langue naturelle est :

Chomsky est néle 7 décembre 1928.

Exemple 2

À la questionEn quelle année D. Tutu a-t-il reçu le prix Nobel de la paix ?, les réponses potentielles

deRepCoh et leur taux de cohérence respectif sont : ([1981, 1981], 0.08), ([1984, 1984], 0.88) et ([1986,

1986], 0.04). La réponse R = ([1984, 1984], 0.88) est choisiecar elle a le taux de cohérence le plus élevé

et son degré de certitude est :ÆR = (0:88 � 0:08) � 0:88 = 0:7Nous sommes dans le cas (3) avec� élevé (� = 0:88 � 0:08) c’est-à-dire que la réponse choisie est

beaucoup plus certaine que celle qui se classe deuxième par le taux de cohérence. L’événement n’est pas

périodique. Il faut donc appliquer le schémaT_Date3.1 :

lex(Deb-Phrase) lex Certitude ( ÆR) lex Event (R, nonReg,_).

Le degré de certitude deR est élevé : il est lexicalisé par un adverbe d’intensité élevé. La réponse générée

en langue naturelle est donc :

D. Tutu a reçu le prix Nobel de la paixcertainement en 1984.

92

4.3. Exemples de réponses générées

Exemple 3

À la questionQuand a eu lieu la guerre de Sécession ?, les réponses potentielles deRepCoh et leurs

taux de cohérence respectifs sont :

- ([1861-01-01, 1865-04-09], 0.29),

- ([1861-04-12, 1865-04-09], 0.33),

- ([1861-04-17, 1865-04-09], 0.32),

- ([1861-05-21, 1865-04-09], 0.31).

La réponse R = ([1861-04-12, 1865-04-09], 0.33) est choisiecar elle a le taux de cohérence le plus

élevé et son degré de certitude est :ÆR = (0:33 � 0:32) � 0:33 = 0:003.

Nous somme dans le cas (3) avec� faible (0:33 � 0:32) donc les schémasT_Date3.2 ou T_Date3.3

peuvent être utilisés :

lex(Deb-Phrase) lex Certitude ( ÆR) lex Event (R, nonReg,_)

ou moins lex Certitude ( ÆR) lex Event (R’, nonReg,_).

ou

lex(Deb-Phrase) lex Certitude ( ÆR) lex Event (R’, nonReg,_)

mais plus lex Certitude ( ÆR) lex Event (R’, nonReg,_).

avecR0 = [1861-04-17, 1865-04-09].

La réponse n’est pas un événement itératif et son degré de certitude est très faible donc l’adverbe qui

le lexicalise doit être de très faible intensité. Par conséquent, les réponses en langue naturelle peuvent

être :

La guerre de Sécession a eu lieuprobablement du 12 avril 1861 au 9 avril 1865

ou moins probablement du 17 avril 1861 au 9 avril 1865.

ou mieux :

La guerre de Sécession a eu lieuprobablement du 17 avril 1861 au 9 avril 1865 mais

plus probablement du 12 avril 1861 au 9 avril 1865.

Dans cet exemple, les réponses potentielles deRepCoh ont quasiment le même taux de cohérence et

ont toutes la même date de fin, ce qui renforce la certitude de cette information. On pourrait donc envi-

sager de n’appliquer le degré de certitude que sur la date de début (par exemple,la guerre de Sécession

a commencé très probablement le 12 avril 1861 et s’est terminé le 9 avril 1865) ou de regrouper ces

93


intervalles (union) ce qui donnerait une date de début plus floue (par exemple,la guerre de Sécession a

commencé très probablement en 1861 et s’est terminé le 9 avril 1865).

4.4 Synthèse et discussion

Dans cette partie, nous avons présenté la phase de génération en langue des réponses intégrées de

typedate. Le générateur de notre système combine plusieurs techniques de génération : des techniques

de génération dite pure et des schémas sous-spécifiés.

Nous n’avons pas détaillé ici les techniques de génération pure concernant le processus de lexica-

lisation des dates mais des techniques classiques de lexicalisation et d’agrégation doivent bien sûr être

utilisées.

Ainsi, la fonction de lexicalisationlexEvent permet de lexicaliser une date comme [2005-05-20, 2005-

05-20] en20 mai 2005ou un intervalle comme [2004-04-14, 2005-05-20] endu 14 avril 2004 au 20 mai

2005.

En outre, des techniques d’agrégation [Wilkinson, 1995] sont aussi utilisées afin, par exemple, d’éliminer

des redondances : ainsi, plutôt que de générerdu 10 septembre 2004 au 22 septembre 2004, on générera

du 10 au 22 septembre 2004.

Nous avons vu dans la section 4.2.3 que le degré de certitude de la réponse à générer peut être très

faible : dans ce cas, la réponse proposée est considérée comme probable. Pourtant, cette solution peut

être améliorée. Par exemple, si les deux meilleures réponses ont respectivement les taux de cohérence0; 52 et 0; 49, alors� vaut0; 03, ce qui donne un degré de certitude très faible. De la même manière, si

les deux meilleures réponses ont respectivement les taux decohérence0; 09 et 0; 06, alors� vaut aussi0; 03. Dans ce cas, les deux réponses vont être générées avec le même adverbe alors que la réponse ayant

un taux de cohérence à0; 52 semble plus sûre que celle ayant un taux à0; 09. Pour améliorer ce point,

il faudrait créer de nouveaux schémas de génération qui prendrait en compte non seulement le degré de

certitude et le paramètre� , mais aussi le taux de cohérence de la meilleure réponse.

Il reste à résoudre des problèmes dus aux schémas correspondant aux événements périodiques (cf.

tableau 4.2). En effet, ces schémas sont définis pour une réponse à une question au présent : par exemple,

à la questionQuand a lieu la fête de la musique ?, le schéma va permettre de générer une réponse de la

formeLa fête de la musique a lieu tous les ans le 21 juin.

En revanche, si la question posée estQuand a eu lieu la première fête de la musique ?ou Quand aura

lieu la prochaine fête de la musique ?, une réponse commeLa fête de la musique a lieu tous les ans le

21 juin n’est pas forcément acceptable. Pour être vraiment coopératif, il serait préférable de donner une

réponse telle queLa fête de la musique a lieu tous les ans le 21 juin, la premièrefête a eu lieu le 21 juin

1982.

94

4.4. Synthèse et discussion

Il faut donc définir des schémas composés de deux parties : unepremière partie comme celle présentée

dans le tableau 4.2 qui explique à l’utilisateur le caractère périodique de l’événement et une seconde

partie qui donne effectivement la date de l’événement pour la question posée.

Les schémas peuvent aussi être affinés dans certains cas. Parexemple, si les deux meilleures réponses

sont des intervalles consécutifs (i.e. ils ont une borne en commun) et que� est faible (i.e. les deux

réponses ont un taux de cohérence très proche), alors on peutimaginer faire l’union des deux intervalles.

Dans un autre cas, si toutes les réponses deRepCoh ont une caractéristique commune, alors il est

fort probable que celle-ci soit certaine. L’adverbe d’intensité peut alors porter sur les informations qui

diffèrent pour nuancer leur degré de certitude.

Par exemple, à la questionQuand a commencé la guerre de Sécession ?, toutes les réponses deRepCohdonnent comme année de début 1861 mais avec des jours ou des mois différents. On peut donc imagi-

ner un schéma qui proposera une réponse commeLa guerre de Sécession a commencé en 1861, plus

probablement le 12 avril(cf. exemple 3 de la section précédente).

95


96

Chapitre 5

Évaluation pour les réponses de typedate

Pour notre système, nous avons plusieurs points essentielsà évaluer :

– l’extraction des réponses candidates par la grammaire,

– la détermination de contenu, à savoir si la réponse élaborée est correcte ou non,

– la génération des réponses, à savoir si la formulation en langue est adéquate et compréhensible par

l’utilisateur.

Pour cela, nous avons donc collecté un ensemble de 72 questions qui vont permettre l’évaluation.

Ces questions recouvrent tous les types de questions possibles de typedate. Parmi ces 72 questions, 37

questions portent sur des événements uniques : ces questions sont issues du corpus de questions de la

campagne TREC.

Le corpus TREC ne comportant que très peu de questions portant sur des événements itératifs, nous

avons ajouté 35 questions de ce type portant sur des événements grand public. Ces questions proviennent

pour la moitié d’entre elles du site d’inventaire de questions Overture. Les autres sont des questions que

nous avons créées et qui portent sur le même type d’événement(cf. tableau 5.1). Le corpus de questions

pour cette évaluation est donné en annexe B.

Origine des questions Événement unique Événement itératif TotalTREC 35 15 50Overture 1 10 11Autre 1 10 11Total 37 35 72

TAB . 5.1 – Origine des questions pour chaque type d’événements évalués

97

Chapitre 5. Évaluation pour les réponses de type date

Chacun de ces sous-ensembles de questions se décompose en questions portant sur :

– despoints :

– uniques : par exemple,Quand est mort Beethoven ?,

– itératifs : par exemple,Quand aura lieu la prochaine fête des mères ?,

– desintervalles :

– duratifs : par exemple,Quand a eu lieu la guerre des six jours ?,

– itératifs : par exemple,Quand a eu lieu la dernière coupe du monde de football ?

Le tableau 5.2 récapitule la distribution des différents types de question évalués.

Réponse attendue Événement unique Événement itératif Totaltype point 18 18 36type intervalle 19 17 36Total 37 35 72

TAB . 5.2 – Nombre de questions pour chaque type d’événements évalués

Ceci va nous permettre de répondre à une question essentielle : sur quel(s) type(s) de réponses ou de

données temporelles notre méthode est-elle la plus(la moins) efficace ?

5.1 Évaluation de l’extraction

Pour évaluer la qualité de l’extraction, nous avons soumis les 72 questions de typedateà QRISTAL.

Nous avons ensuite extrait les réponses candidates manuellement et nous avons comparé les résultats

d’une extraction manuelle avec les résultats obtenus par lagrammaire d’extraction.

La grammaire parvient à extraire correctement les dates dans 74% des cas. Les échecs proviennent

en très grande majorité de problèmes de référence. Par exemple, dans l’extrait de page suivantLudwig

van Beethoven est né à Bonn le 17 décembre 1770. Sa mort à Vienne, le 26 mars 1827, donne lieu à un

deuil national, la grammaire ne peut pas extraire la date de mort car elle ne peut pas résoudre la référence

portant sursa mort.

Le problème se pose aussi dans le cas de références temporelles : notre grammaire ne permet pas par

exemple de reconstruire une date à partir de références telles queà la veille de, à la fin du siècle, ....

Notons aussi des cas où la grammaire extrait des informations non pertinentes dues à une mauvaise

connaissance du contexte ou une imprécision de la question.Par exemple, à la questionquand est mort

Beethoven ?, il est fort probable que l’utilisateur recherche la date demort de Ludwig von Beethoven

or la grammaire va extraire une date non pertinente dans la réponseJohann von Beethoven, le père de

Ludwig, décéda le 18 décembre 1792.

98

5.2. Évaluation de la détermination de contenu

5.2 Évaluation de la détermination de contenu

La campagne d’évaluation TREC pour les systèmes question-réponse [Voorhees, 2003] vise à évaluer

les systèmes question-réponse, en particulier en domaine ouvert, qui produisent des réponses plutôt

que des documents et qui classent les réponses selon un scorede confiance. Par exemple, COGEX

[Moldovan et al., 2003], le système le plus performant, a obtenu un score de 83% de réponses correctes.

Les autres systèmes participants ont répondu correctementaux 500 questions entre 54.2% et 26.6%.

Quand plusieurs réponses candidates sont proposées comme réponses à une même question, il existe

deux traitements possibles : soit on ne choisit qu’une seuleréponse parmi les réponses candidates soit

on les utilise toutes afin de construire une réponse plausible. La première approche peut, par exemple,

s’effectuer sur la base d’un comptage du nombre d’occurrences des réponses candidates : on choisit alors

la réponse la plus fréquemment donnée. C’est une méthode notamment utilisée par [Clarke et al., 2001]

ou [Brill et al., 2002]. Pourtant un simple comptage du nombre d’occurrences des réponses candidates est

parfois impossible ou non pertinent. Il est impossible notamment lorsque plusieurs réponses candidates

ont le même nombre d’occurrences (on ne peut alors pas en choisir une plutôt qu’une autre) mais il est

surtout non pertinent dans un grand nombre de cas.

Reprenons l’exemple de l’ouragan Hugo. QRISTAL renvoie 11 réponses candidates provenant de 11

pages Web différentes. La majorité d’entre elles (6 pages) donne comme réponse la date du 16 septembre

1989 (date à laquelle l’ouragan a touché la Guadeloupe) : cette réponse est bien évidemment incorrecte

(un ouragan ne dure pas qu’une journée !). C’est pourquoi nous avons préféré élaborer un algorithme de

détermination de contenu qui prend en compte l’ensemble desréponses candidates.

Notre algorithme de détermination de contenu se ramène à un comptage de fréquence lorsque toutes

les réponses candidates sont des points (et non des intervalles temporels). En effet, dans ce cas la durée

moyenne des réponses vaut 1 (1 jour ou 1 année, etc) et la réponse choisie est donc celle ayant le taux de

cohérence le plus élevé, i.e. celle dont le nombre d’occurrences est le plus élevé.

En revanche, notre algorithme de détermination de contenu est intéressant lorsque l’on doit traiter des

réponses candidates de typeintervalle mais aussi et surtout lorsque la question impose des contraintes

temporelles sur des événements itératifs. Cela nécessite bien-entendu quelques procédés de raisonne-

ment, chose que ne peut pas résoudre un simple comptage de fréquence.

Nous avons donc choisi d’évaluer notre approche selon les critères présentés ci-dessous et de la

comparer aux résultats obtenus par d’autres méthodes.

5.2.1 Critères d’évaluation

Notre méthode peut être comparée à plusieurs autres approches. Les moteurs de recherche clas-

siques peuvent ainsi être le premier élément évident de comparaison : en effet, pourquoi élaborer des

99


algorithmes de génération de réponse si des moteurs comme Google renvoient des réponses correctes ?

Ensuite, nous pouvons aussi nous demander ce que le système QRISTAL ou une méthode utilisant un

comptage de fréquence obtiennent comme résultats.

Nous avons donc choisi de comparer notre approche :

– au moteur de recherche Google : à savoir, quel est le rang du lien contenant la réponse correcte à

la question ?, existe-il des réponses incorrectes données avant la réponse correcte ?

– au système QRISTAL : la réponse proposée par QRISTAL (i.e. la réponse candidate la mieux

classée) est-elle correcte ?,

– à un comptage de fréquence : la réponse la plus fréquemment donnée par QRISTAL est-elle

correcte ?

5.2.2 Méthode

L’ensemble des 72 questions a été soumis en langue naturelleau système QRISTAL et sous forme

de mots-clés à Google (par exemple, la questionQuand Kennedy a-t-il été élu président des États-Unis ?

posée à QRISTAL devientKennedy élu président États-Unispour Google).

Pour comparer notre méthode aux résultats de Google, nous avons donc soumis les 72 questions

à Google sous forme de mots-clés et noté le rang du lien contenant la réponse correcte (donnée par

l’encyclopédie Universalis). Ceci nous donne une indication de l’efficacité de Google : en effet, si un

utilisateur trouve une réponse fausse dans le premier lien,il n’ira pas forcément chercher la réponse

ailleurs car il ne sait pas que l’information qu’il a trouvéeest fausse.

Nous avons ensuite posé toutes ces questions au système QRISTAL qui donne un ensemble de

liens vers les réponses candidates et propose la réponse la mieux classée (cf. chapitre 2). Nous avons

paramétré QRISTAL pour qu’il renvoie au maximum 50 réponsescandidates. De l’ensemble des liens

obtenus par QRISTAL nous n’avons gardé que les réponses provenant de pages Web différentes et exclu

manuellement les réponses aberrantes et incomplètes (dansnotre corpus d’évaluation, environ 85% des

questions ont au moins une réponse incomplète, i.e. une réponse moins précise que les autres).

Nous avons ensuite appliqué deux méthodes : notre algorithme de détermination de contenu et un comp-

tage de fréquence (appelé ensuiteFréquencedans les tableaux présentant les résultats).

Pour chacune des trois réponses obtenues respectivement par QRISTAL, par notre algorithme et par

un comptage de fréquence, nous avons identifié plusieurs cas:

– réponse correcte: la réponse proposée est la même que celle donnée par l’encyclopédie,

– réponse incluse: la réponse proposée (intervalle temporel) est incluse dans l’intervalle donné par

l’encyclopédie,

100


– réponse incomplète: la réponse proposée est incomplète, i.e. il manque une information par

rapport à celle donnée par l’encyclopédie (il manque le jour, l’année, etc.),

– réponse incorrecte: la réponse proposée est complètement incorrecte,

– cas impossible: le choix de la réponse la plus fréquente est impossible car plusieurs réponses ont

la même fréquence ou la réponse correcte ne se trouve pas parmi les réponses candidates.

Pour l’évaluation de Google, les cinq cas précédents sont définis plus finement. Ainsi, on compte

comme réponse correcte seulement les réponses correctes qui sont données dans le premier lien ou qui

ne sont pas précédées d’une réponse incorrecte ou incomplète. Par exemple, si une réponse incorrecte

est donnée au 2ème lien et que la réponse correcte est donnée au 5ème lien, alors la réponse n’est pas

comptabilisée comme correcte : on compte alors ces réponsescomme incorrectes ou incomplètes selon

le cas. Le cas "impossible" se présente quand aucune réponsen’a été trouvée dans les 30 premiers liens

proposés par Google.

5.2.3 Résultats

Les tableaux suivants présentent les résultats obtenus pour chaque type d’événement questionné.

L’évaluation ayant été réalisée sur un petit échantillon dequestions, elle nous permet d’avoir des indica-

tions de performance des différentes approches.

Événements uniques ponctuels

La figure 5.1 présente les résultats obtenus pour des questions portant sur des événements uniques et

ponctuels (par exemple,Quand est mort Beethoven ? le 26 mars 1827).

Comme nous l’avons déjà expliqué précédemment, notre algorithme de détermination de contenu

revient à un comptage de fréquence pour ce type de questions.Ces deux méthodes obtiennent de bien

meilleurs résultats que QRISTAL. Quant à Google, il donne labonne réponse en moyenne au lien de

rang 3, avec une majorité de bonnes réponses dans le lien de rang 1 (cf. figure 5.2).

Si l’on compare maintenant les résultats de notre approche avec ceux de Google, on remarque les

mêmes tendances avec des résultats meilleurs pour notre algorithme. Google obtient beaucoup plus de

réponses incomplètes : ceci peut s’expliquer par le fait queGoogle propose les liens classés par ordre de

fréquentation des pages et certaines pages beaucoup visitées, et donc bien classées, ne sont pas forcément

des pages "spécialistes" de la question d’où des réponses moins précises.

101


FIG. 5.1 – Évaluation : événements uniques ponctuels

FIG. 5.2 – Distribution des rangs des réponses correctes de Google : événements uniques ponctuels

En conclusion, pour les événements uniques et ponctuels, notre algorithme de détermination de

contenu obtient des résultats satisfaisants et meilleurs que ceux de QRISTAL (89% de réponses cor-

rectes contre 61% pour QRISTAL). Du fait qu’on s’intéresse aux événements uniques et ponctuels,

notre approche obtient les mêmes résultats qu’un comptage de fréquence. En revanche, pour ce type

d’événements, notre approche n’apporte pas de grande différence par rapport à Google (17%de réponses

correctes en plus) qui dans la plupart des cas donne la bonne réponse dans le premier lien, cette différence

n’étant pas réellement significative du fait du petit échantillon de test.

102


Événements uniques duratifs

La figure 5.3 présente les résultats obtenus pour des questions portant sur des événements uniques

où la réponse attendue est un intervalle temporel (par exemple, Quand Nixon a-t-il visité la Chine ? du

21 au 28 février 1972).

FIG. 5.3 – Évaluation : événements uniques duratifs

Dans ce cas, notre algorithme de détermination obtient de bien meilleurs résultats que QRISTAL

ou qu’un comptage de fréquence, notamment parce que ces derniers sont incapables de reconstruire des

intervalles. Quant à Google, il donne la bonne réponse en moyenne au lien de rang 3, avec une majorité

de bonnes réponses dans les liens de rang 1 ou 2 (cf. figure 5.4).

Si l’on compare maintenant les résultats de notre approche avec ceux de Google, on remarque qu’on

obtient quasiment le même taux de réponse correcte. En revanche, alors que notre algorithme fournit des

réponses incomplètes ou incluses, Google quant à lui donne un grand nombre de réponses incorrectes.

En conclusion, pour les événements uniques et duratifs, notre algorithme de détermination de contenu

obtient des résultats moyens mais bien meilleurs que ceux deQRISTAL ou qu’un comptage de fréquence

car il permet de reconstruire des intervalles à partir des différentes réponses candidates, chose que ne

peuvent pas faire les deux autres approches puisqu’elles traitent les réponses candidates individuellement

et non dans leur globalité. Les résultats moyens pour le tauxde réponses correctes viennent du fait que,

contrairement au cas précédent, notre algorithme donne plus de réponses incluses ou incomplètes : ceci

peut s’expliquer notamment par le fait que la durée moyenne des réponses peut être biaisée par certaines

réponses candidates trop imprécises.

103


FIG. 5.4 – Distribution des rangs des réponses correctes de Google : événements uniques duratifs

Par rapport à Google, notre algorithme obtient le même taux de réponses correctes. En revanche, contrai-

rement à Google, notre algorithme ne donne pas de réponse incorrecte (on peut supposer qu’il est

préférable de donner une réponse incomplète plutôt qu’une réponse fausse).

Événements itératifs ponctuels

La figure 5.5 présente les résultats obtenus pour des questions portant sur des événements itératifs

ponctuels (par exemple,Quand a eu lieu la dernière éruption majeure du Mont St-Hélène ? le 18 mai

1980).

FIG. 5.5 – Évaluation : événements itératifs ponctuels

104


FIG. 5.6 – Distribution des rangs des réponses correctes de Google : événements itératifs ponctuels

Dans ce cas aussi, notre algorithme de détermination obtient de bien meilleurs résultats que QRISTAL

ou qu’un comptage de fréquence, notamment parce que ces derniers sont incapables de reconstruire des

intervalles. Quant à Google, il donne la bonne réponse en moyenne au lien de rang 4 ou 5, avec une

majorité de bonnes réponses dans les liens de rang 1 ou 2 (cf. figure 5.6).

Si l’on compare maintenant les résultats de notre approche avec ceux de Google, on remarque qu’on

obtient des résultats sensiblement meilleurs pour le taux de réponse correcte. Encore une fois, alors que

notre algorithme fournit plutôt des réponses incomplètes ou incluses, Google, quant à lui, donne un

plus grand nombre de réponses incorrectes. Il existe aussi un petit nombre de questions (7%) auxquelles

Google n’a pas trouvé de réponses dans les 30 premiers liens.

En conclusion, pour les événements itératifs et ponctuels,notre algorithme de détermination de

contenu obtient des résultats satisfaisants et meilleurs (67% de réponses correctes) que ceux de QRISTAL

ou qu’un comptage de fréquence. Il obtient aussi de meilleurs résultats que Google pour le taux de

réponse correcte et incorrecte (16% de réponses incorrectes contre 28% pour Google).

Événements itératifs duratifs

La figure 5.7 présente les résultats obtenus pour des questions portant sur des événements itératifs

où la réponse attendue est un intervalle temporel (par exemple, Quand a eu lieu le festival de Cannes en

2005 ? du 11 au 22 mai 2005).

105


FIG. 5.7 – Évaluation : événements itératifs duratifs

FIG. 5.8 – Distribution des rangs des réponses correctes de Google : événements itératifs duratifs

Dans ce cas, notre algorithme de détermination obtient de très bons résultats car contrairement à

QRISTAL, Google ou un comptage de fréquence, notre algorithme est capable de satisfaire les contraintes

temporelles imposées par la question. Quant à Google, il donne la bonne réponse en moyenne au lien de

rang 4 ou 5 (cf. figure 5.8) mais propose une grande majorité deréponses incorrectes (53%).

C’est donc pour les événements itératifs et duratifs que notre algorithme de détermination de contenu

se montre le plus performant par rapport aux autres méthodes.

Synthèse

La figure 5.9 présente une synthèse des résultats obtenus pour les 72 questions.

106


FIG. 5.9 – Évaluation sur 72 questions : synthèse

L’évaluation sur les 72 questions nous permet d’avoir des indications de qualité de notre méthode.

Tous types d’événements confondus, notre algorithme de détermination de contenu obtient des résultats

satisfaisants et meilleurs que les autres méthodes ou systèmes évalués. Il est en particulier plus perfor-

mant sur le traitement des événements duratifs car il permet, contrairement aux autres approches, de

reconstruire des intervalles à partir de plusieurs réponses candidates. Surtout, il n’existe pas de cas où

notre système est moins bon que les autres.

Notre approche se différencie des autres par le fait qu’elleinforme sur le degré de certitude de la

réponse mais aussi parce qu’elle donne peu de réponses incorrectes mais plutôt des réponses incluses ou

incomplètes (4% de réponses incorrectes contre 46% pour QRISTAL et 25% pour Google).

Si l’on analyse maintenant plus en détail les causes d’échecde notre algorithme, on remarque que :

– pour les questions où notre algorithme a donné une réponse incorrecte, ceci est dû au fait que les

réponses candidates proposées par QRISTAL étaient toutes incorrectes. De plus, pour toutes ces

questions, Google n’a pas non plus trouvé de réponse correcte,

– pour les questions où notre algorithme a donné une réponse incluse, les réponses candidates pro-

posées par QRISTAL étaient soit des dates qui ont biaisé le calcul de la durée moyenne soit des

intervalles flous (par exemple,en mai 2005au lieu dedu 11 au 22 mai 2005). Pour ces questions

aussi, Google donne une majorité (80%) de réponses incorrectes ou incomplètes.

Pour éviter que la durée moyenne des réponses ne soit biaisée, on peut envisager d’apporter un

certain nombre de connaissances sémantiques qui permettent d’éliminer des réponses candidates

incorrectes (pour l’ouragan Hugo par exemple, plusieurs réponses candidates indiquent que l’évé-

nement a duré plusieurs jours : on peut donc inférer qu’un ouragan ne dure pas qu’une journée et

107


ainsi supprimer les réponses candidates aberrantes),

– pour les questions où notre algorithme a donné une réponse incomplète, les réponses candidates

proposées par QRISTAL étaient soit des dates qui ont biaisé le calcul de la durée moyenne soit des

intervalles flous ou incomplets.

Pour ces questions aussi, dans une grande majorité (67%) Google n’a pas trouvé de réponse ou

donne des réponses incorrectes ou incomplètes.

Enfin, nous avons effectué l’évaluation sur des réponses candidates obtenues par QRISTAL mais compte-

tenu des résultats satisfaisants de Google, il est légitimede se demander si l’on pourrait utiliser ce dernier

à la place de QRISTAL.

Pourtant, on peut penser que les résultats de notre méthode ne seraient pas forcément meilleurs en

utilisant Google comme moteur d’extraction. En effet, si une question introduite parquandest posée

à un système possédant un analyseur de questions, alors le système sait qu’il doit rechercher dans les

pages Web une information temporelle : c’est ce que fait QRISTAL en recueillant, grâce à Google, un

ensemble de pages contenant une information temporelle concernant le focus de la question.

En revanche, quand la requête est soumise à Google, elle l’est sous forme de mots-clés : le moteur connaît

donc le focus mais ne sait pas forcément qu’il doit rechercher une information temporelle. Les pages qui

sont alors proposées peuvent ne pas répondre à la question.

Par exemple, supposons que la questionQuand est mort Beethoven ?est posée à QRISTAL. Le sys-

tème, après analyse, sait qu’il doit rechercher une date. Sila requête est soumise à Google (par exemple,

mort Beethovenou Beethoven), le moteur va rechercher les pages les plus fréquentées quicontiennent

ces mots et il est fort probable que les pages les mieux classées soient des pages de biographie ce qui

explique pourquoi, pour ce genre de requêtes (événements uniques ponctuels), Google obtient de bons

résultats lors de notre évaluation.

En revanche, si une question commeQuand aura lieu le voyage de Chirac au Maroc ?est soumise à

Google sous la formeChirac voyage au Maroc, alors le moteur, ne sachant pas qu’il faut trouver une date,

propose une très grande majorité de pages ne répondant pas à la question (pages relatant des discours, du

voyage d’une autre personnalité, etc.). L’évaluation montre d’ailleurs que Google obtient des résultats

très moyens pour des événements qui ne sont pas uniques et ponctuels. Notre méthode ne pourrait donc

pas s’appliquer efficacement puisque Google ne propose pas toujours de réponses candidates pertinentes

aux questions portant sur des événements duratifs ou itératifs.

108

5.3. Évaluation des réponses en langue naturelle

5.3 Évaluation des réponses en langue naturelle

Le deuxième point à évaluer est la qualité des réponses générées. D’une façon générale, il n’existe

pas de véritable méthode d’évaluation pour les systèmes de génération automatique de langue naturelle

[Dale et al, 1998]. Cependant, dans notre cas, il est intéressant d’évaluer la bonne compréhension des

réponses par les utilisateurs. L’hypothèse que nous avons faite est l’utilisation d’adverbes pour rendre

compte du degré de certitude des réponses proposées. L’objectif est donc de vérifier :

1. si les utilisateurs perçoivent correctement les nuancesde degré des adverbes,

2. si des formulations autres que les adverbes pourraient être utilisées.

5.3.1 Protocole

Le protocole d’évaluation est soumis à un ensemble de 12 sujets d’âges, de langues maternelles et de

niveaux d’étude différents. Deux tâches sont proposées auxsujets :

Tâche 1.Pour vérifier que les utilisateurs perçoivent correctementles nuances de degrés entre les

adverbes, on leur demande de classer les phrases suivantes de la plus sûre à la moins sûre :

1. Chomsky est né très certainement le 7 décembre 1928.

2. Chomsky est né probablement le 7 décembre 1928.

3. Chomsky est né le 7 décembre 1928.

4. Chomsky est né certainement le 7 décembre 1928.

5. Chomsky est né très probablement le 7 décembre 1928.

Le classement que l’on doit obtenir, d’après l’échelle de lafigure 4.2, est (3), (1), (4), (5), (2).

Tâche 2.Pour vérifier si les utilisateurs préférent avoir des explications supplémentaires sur la ré-

ponse ou un degré de certitude exprimé d’une autre manière (par exemple, en pourcentage), on leur

demande de classer les réponses suivantes par ordre de préférence :

1. Chomsky est né très certainement le 7 décembre 1928.

2. Chomsky est né le 7 décembre 1928. Cette réponse est sûre à 90%.

3. Le système a trouvé plusieurs réponses possibles mais Chomsky est né très certainement le 7

décembre 1928.

109


Tâche 1 Ordre correct 1 permutation Ordre incorrectNombre de sujets 8 2 2

TAB . 5.3 – Évaluation des réponses en langue de typedate: tâche 1

Tâche 2 Réponse préférée : 1Réponse préférée : 2Réponse préférée : 3Nombre de sujets 5 4 3

TAB . 5.4 – Évaluation des réponses en langue de typedate: tâche 2

5.3.2 Résultats

Les tableaux 5.3 et 5.4 présentent les résultats obtenus pour les deux tâches proposées.

Pour la tâche 1, 8 sujets sur 12 (environ 66%) ont proposé un ordre pour les adverbes en accord avec

notre proposition d’ordonnancement. Deux sujets ont proposé un ordre correct mais avec une permutation

(entrecertainementet très certainement). Enfin, deux sujets ont proposé un ordre complétement différent

de notre proposition. Ces résultats permettent de confirmerque globalement, les utilisateurs perçoivent

correctement les nuances de degrés entre les adverbes de certitude.

Pour la tâche 2, il n’apparaît pas de large majorité pour le choix d’une formulation de la réponse en

langue. Ces résultats ne nous permettent donc pas de conclure : il faudrait réaliser ce protocole sur un

plus grand nombre de sujets.

110

Conclusion

Dans cette partie, nous avons présenté le problème de la génération de réponses de typedatequand

le moteur d’extraction a sélectionné plusieurs réponses candidates à une même question. L’objectif

est d’élaborer, à partir de l’ensemble des différentes réponses candidates, une réponse qui satisfait les

principes de coopérativité (et en particulier les maximes de quantité et de qualité).

Pour cela, nous avons développé dans un premier temps un algorithme d’intégration des dates qui

élabore une réponse cohérente en termes de durée et vis-à-vis de l’ensemble des réponses candidates.

L’évaluation a montré que les résultats de l’algorithme étaient très satisfaisants et meilleurs que ceux des

autres systèmes auxquels il a été comparé (QRISTAL et Google). En particulier, notre méthode obtient

d’excellents résultats pour les réponses aux questions portant sur des événements duratifs et itératifs.

L’analyseur de question est simulé et nous avons utilisé QRISTAL comme moteur de recherche puis

nous avons appliqué et évalué notre algorithme sur les réponses candidates fournies par ce système.

Il est bien évident que les résultats de l’évaluation seraient sensiblement différents si l’on avait utilisé

d’autres moyens que QRISTAL. Cependant, au vu des performances moyennes de QRISTAL, on peut

penser que notre approche aurait au moins d’aussi bons résultats si on l’appliquait à d’autres systèmes à

performances équivalentes ou meilleures.

L’autre point que nous avons abordé dans ce chapitre est la génération des réponses intégrées de type

datepar l’intermédiaire de schémas de génération. Nous avons ainsi défini un ensemble de templates

qui permettent de proposer à l’utilisateur une réponse coopérative accompagnée de parties explicatives.

Ces explications prennent diverses formes : le degré de certitude exprimé par un adverbe indique à quel

point la réponse est sûre, l’indication d’événement périodique, etc. Il reste à définir de nouveaux schémas

pour pouvoir générer des réponses ayant des structures différentes, par exemple des énumérations quand

plusieurs réponses ont le même degré de certitude, etc.

111

Conclusion

112

Troisième partie

Intégration et génération de réponses de

type numérique

Table des matières

Chapitre 6 Présentation du problème 119

6.1 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 119

6.2 Une typologie des réponses numériques . . . . . . . . . . . . . . .. . . . . . . . . 124

6.3 Processus général de traitement des réponses numériques . . . . . . . . . . . . . . 128

Chapitre 7 Extraction des réponses candidates 131

7.1 Grammaire d’extraction . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 132

7.2 Extraction des indices linguistiques . . . . . . . . . . . . . . .. . . . . . . . . . . 134

7.3 Extraction des restrictions . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 136

7.4 Problèmes lors de l’extraction . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 143

Chapitre 8 Génération des explications 145


8.2 Explications en langue naturelle . . . . . . . . . . . . . . . . . . .. . . . . . . . . 152

8.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .159

TABLE DES MATIÈRES

Chapitre 9 Génération de la réponse directe 163


9.2 Réponse directe en langue naturelle . . . . . . . . . . . . . . . . .. . . . . . . . . 175

9.3 Justification de la réponse . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 178

9.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .179

Chapitre 10 Évaluation pour les réponses de typenumérique 185

10.1 Quelques problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 185

10.2 Évaluation de l’extraction . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . 186

10.3 Évaluation de la détermination de contenu . . . . . . . . . . .. . . . . . . . . . . 187

10.4 Évaluation des réponses en langue naturelle . . . . . . . . .. . . . . . . . . . . . . 190

114

Introduction

Dans cette partie, nous nous intéressons à l’élaboration d’une réponse synthétique obtenue à partir de

plusieurs réponses de typenumérique. Les questions de ce type sont relativement fréquentes sur le Web

et portent sur des propriétés numériques telles que la distance, le poids, la quantité, etc. Pour identifier et

comprendre les problèmes qui se posent, intéressons-nous aux exemples des figures 1 et 2.

FIG. 1 – Réponses de QRISTAL àCombien y a-t-il d’habitants en France ?

La figure 1 présente un échantillon des réponses proposées par QRISTAL à la questionCombien y

a-t-il d’habitants en France ?. On remarque que l’on obtient non seulement des réponses numériques non

pertinentes (3 millions de personnes mal logées en France) mais aussi plusieurs réponses numériques qui

sont à première vue différentes mais qui, en fait, sont des valeurs "datées" (62 millions au 1er janvier

2004, 60656178 au 1er juillet 2005, ...).

Si l’on se place dans une perspective coopérative, il faut éliminer les réponses incorrectes (pour respecter

la maxime de qualité) puis générer une réponse à la question qui synthétise toutes les données disponibles

115

Introduction

(pour respecter les maximes de quantité et de relation). Ainsi, une réponse coopérative idéale serait par

exemple de la forme :

Question : Combien y a-t-il d’habitants en France ?

Réponse : La France comptait 62 millions d’habitants en 2005.

La population française a augmenté d’environ 2 millions

entre 1999 et 2005.

La figure 2 donne un échantillon des résultats proposés par Google à la requêteâge moyen du mariage

en France. Ici, les pages donnent des âges qui diffèrent en fonction del’année, des hommes, des femmes,

etc.

FIG. 2 – Réponses de Google àâge moyen du mariage en France

116

Dans ce cas, une réponse coopérative idéale serait par exemple de la forme :

Question : Quel est l’âge moyen du mariage en France ?

Réponse : L’âge moyen du mariage en France est aujourd’hui de

27,7 ans pour les femmes et de 29,8 ans pour les hommes.

Il a reculé d’environ 5,5 ans entre 1972 et 2005.

Ces réponses sont composées de deux parties :

1. une réponse directe à la question plutôt qu’une liste de réponses potentielles, qui satisfait les

attentes de l’utilisateur (maxime de qualité et de relation),

2. une explication qui synthétise l’ensemble des données trouvées (maxime de quantité). Cette expli-

cation caractérise dans ces exemples le mode de variation dela valeur numérique.

Ce modèle de réponse permet de présenter les informations d’une façon synthétique et évite à l’utilisateur

de devoir fouiller dans un ensemble de pages pour trouver lesinformations pertinentes par rapport à sa

requête.

Pour parvenir à une réponse de cette forme, il est nécessaired’intégrer les différentes réponses

trouvées par le moteur de recherche à plusieurs niveaux :

1. intégrer les réponses candidates pour produire la réponse directe à la question : l’intégration

consiste en la résolution des inconsistances et la satisfaction des attentes des utilisateurs,

2. intégrer les caractéristiques des réponses candidates pour en dégager des explications.

Dans les chapitres suivants, nous commençons par présenterles principaux enjeux, problèmes et

objectifs, puis nous détaillons chacune des étapes nécessaires à la génération de réponses telles que

présentées ci-dessus.

117

Introduction

118

Chapitre 6

Présentation du problème

Dans les sections suivantes, nous commençons par présenterun bref état de l’art sur le traitement des

valeurs numériques et la génération d’explications, puis nous présentons chacune des étapes nécessaires

à la génération de réponses telles que présentées en introduction.

6.1 État de l’art

Nous donnons dans les sections suivantes quelques élémentsd’état de l’art sur les théories consa-

crées aux explications ainsi que sur les systèmes traitant des données numériques et de la génération

d’explications.

6.1.1 En théorie

Beaucoup de domaines se sont intéressés aux explications. Citons par exemple les recherches en

intelligence artificielle, et les systèmes experts en particulier, où un des buts était d’expliquer les rai-

sonnements menant aux décisions du système [Brézillon, 1994], [Karsenty, 1996]. D’autres domaines

comme la didactique [Balacheff, 1990] ou les sciences cognitives [Ganet et al, 2003] s’y sont aussi lar-

gement intéressés sous différents angles : prise en compte du contexte, processus de catégorisation pour

la comparaison d’objets, etc.

Dans tous ces domaines de recherche, la définition de l’explication est large : elle permet entre autres

d’exposer, de commenter, d’argumenter, de justifier, de raisonner, etc. Sont définis généralement trois

niveaux d’explications :

– le premier niveau prend la forme la plus simple : les explications (appeléesexplications descrip-

tives) sont utilisées pour décrire des objets et leurs propriétés,

– le deuxième niveau établit des liens entre les objets (par exemple des liens cause/conséquence),

119

Chapitre 6. Présentation du problème

– le troisième niveau décrit un raisonnement, en prenant en compte, par exemple, les liens de causa-

lité.

Enfin, en pragmatique, la théorie de la pertinence [Sperber et Wilson, 1986] s’est intéressée à la

pertinence des énoncés, et en particulier à la pertinence des conclusions dérivées d’un ensemble de don-

nées [Van der Henst et al, 2002]. Selon cette théorie, une information est jugée pertinente si elle permet

d’apporter de nouvelles connaissances à l’utilisateur, deréviser ses croyances ou encore de répondre à ses

questions tout en minimisant ses efforts cognitifs. Ainsi,une conclusion (respectivement une explication)

dérivée d’un ensemble de prémisses (respectivement de données) n’est pas plus pertinente que l’ensemble

initial du point de vue de l’effet produit mais peut être pluspertinente du point de vue de l’effort cognitif

à fournir par l’utilisateur qui sera moindre.

6.1.2 En pratique

La génération d’explications a été étudiée notamment dans le cadre des systèmes experts et de la

génération de langue naturelle. Nous présentons quelques éléments ici.

6.1.2.1 Les systèmes experts

La génération d’explication dans les systèmes experts avait pour but à l’origine d’expliquer le raison-

nement effectué ou de justifier la solution proposée à l’utilisateur (citons par exemple le système MYCIN

développé à l’université de Stanford dans les années 70). Ceci était principalement effectué en produisant

une trace du raisonnement mais il est vite apparu que cette méthode n’était pas entièrement satisfaisante.

Des systèmes experts permettant de générer des explications adaptées à chaque type d’utilisateur ont

donc fait leur apparition.

Citons par exemple le système XPLAIN [Swartout, 1983] qui produit des explications en faisant

varier le nombre d’étapes du raisonnement à inclure. Le système de [Wallis et al, 1984] génère des

explications qui sont adaptées au niveau d’expertise des utilisateurs ainsi qu’au nombre d’informa-

tions qu’ils souhaitent. Pour cela, les utilisateurs associent une mesure de complexité à chaque règle

et concept de la base de connaissances. D’autres systèmes comme TAILOR [Paris, 1990] ou ADVISOR

[McKeown et al, 1985] produisent des explications adaptéesrespectivement aux connaissances et aux

buts des utilisateurs.

6.1.2.2 Les systèmes de génération de langue naturelle

Quelques systèmes de génération de langue naturelle se sontintéressés à la génération de résumés à

partir de données numériques, qui s’apparentent à des explications descriptives. Citons par exemple le

système ANA [Kukich, 1983] qui génére des résumés des fluctuations journalières des actions en bourse.

Les données en entrée sont les prix des actions fournis toutes les demi-heures. Le système calcule ensuite

120

6.1. État de l’art

les variations pour chaque intervalle temporel, ainsi que les points le plus bas et le plus haut pour une

journée donnée.

S’inspirant de ce système, StockReporter [Dale, 2003] a étédéveloppé afin de générer des résumés dé-

crivant l’évolution d’une action pendant une période donnée. C’est un système de génération dynamique

de document en ligne qui prend en entrée des prix d’actions etgénère des rapports pour une action et une

période demandées par l’utilisateur, en incorporant des textes et des graphiques issus du Web. L’évolution

de l’action choisie peut aussi être comparée à celle du Dow Jones ou du NASDAQ.

Le système FoG [Goldberg et al., 1994] produit, quant à lui, des bulletins météorologiques pour le

grand public et la marine, en français et en anglais. Les données en entrée sont des paramètres météorol-

giques (atmosphère, température, ...) pris toutes les heures.

Citons enfin le projet SumTime qui a donné naissance à plusieurs systèmes :

– SumTime-Mousam [Sripada et al, 2003a] est un système qui, comme FoG, génère des prévisions

météorologiques à partir de simulations atmosphériques,

– SumTime-Neonate [Sripada et al, 2003b] génère des résumésà partir de données obtenues par des

capteurs pour les bébés en soins intensifs,

– SumTime-Turbine [Yu, 2004] génère des résumés présentantles données de capteurs de turbines.

Par exemple, SumTime-Mousam génère un texte initial à partir de prédictions météorologiques

numériques (vitesse du vent, température, etc.). Aidé de cetexte, un expert peut ensuite modifier les

prévisions si nécessaire et un texte révisé est généré. Les systèmes issus du projet SumTime effectuent

les tâches suivantes :

– analyse des tendances des données en entrée (identification de pics, oscillations, etc.) par interpo-

lation, régression linéaire, etc.,

– détermination des informations à mettre dans le résumé (enutilisant des techniques et une ontolo-

gie du domaine suggérées par des experts),

– choix des mots et des structures linguistiques à utiliser dans le texte final grâce à une analyse fine

des choix faits par des rédacteurs humains,

– génération du texte en utilisant une grammaire spécifique au domaine.

Dans le cadre du traitement des valeurs numériques, d’autres systèmes se sont aussi intéressés à la

génération parallèle de graphiques et d’explications descriptives, les explications étant essentiellement

les légendes des graphiques. En effet, certaines présentations graphiques complexes peuvent être diffi-

ciles à comprendre pour les utilisateurs, surtout quand plusieurs attributs et relations sont représentés. Des

études ont montré que l’ajout de légendes explicatives peutaméliorer significativement la compréhension

d’un graphique [Nugent, 1983], [Large et al, 1995].

121


Dans ce but, le système proposé par [Mittal et al, 1998] permet de générer en langue naturelle des

légendes accompagnant des graphiques complexes qui présentent divers ensembles de données. Ce sys-

tème intègre deux autres systèmes :

– SAGE qui permet de générer les graphiques représentant desinformations quantitatives, tempo-

relles, géographiques, etc. et,

– un générateur de langue qui détermine le contenu et la structure des légendes.

La figure 6.1 montre un exemple de sortie du système. Les légendes permettent principalement d’expli-

quer à l’utilisateur comment sont représentées les données(en particulier les axes).

FIG. 6.1 – Génération de graphiques et de légendes [Mittal et al,1998]

Le système PostGraphe [Fasciano et al, 2000] permet, quant àlui, de générer des graphiques et des

explications en français plus précises concernant des valeurs numériques. Ces explications permettent

notamment de décrire des évolutions temporelles (augmentation, diminution ou stabilité), des comparai-

sons, des corrélations ou des distributions. La figure 6.2 montre un exemple de différentes explications

possibles.

122

6.1. État de l’art

FIG. 6.2 – Génération de graphiques et de légendes par PostGraphe

6.1.3 Synthèse

Nous avons donné ici quelques éléments de définition et d’application des explications dans différents

domaines de recherche tels que l’intelligence artificielle, les sciences cognitives ou le traitement de la

langue, du point de vue de la génération de langue en particulier.

Les explications que nous proposons de produire, et que nousavons présentées dans l’introduction de

ce chapitre, sont essentiellement des explications dites descriptives. Elles doivent permettre notamment :

– de présenter l’ensemble des réponses candidates trouvéessur le Web de manière synthétique afin

d’être coopératif en respectant la maxime de quantité. L’explication doit être concise pour ne pas

"submerger" l’utilisateur avec des informations qu’il n’apas demandées,

– d’apporter des informations additionnelles à l’utilisateur en lui expliquant les phénomènes ca-

ractéristiques (évolution, etc.) de la valeur numérique à laquelle il s’intéresse. En effet, si le

système laisse à l’utilisateur le soin de manipuler les données numériques extraites pour en tirer

ses propres observations (par exemple, que le prix d’une voiture est différent selon le modèle, le

carburant, etc.), alors c’est l’utilisateur qui doit fournir des efforts, faire des calculs pour avoir les

informations et ceci va à l’encontre de la théorie de la pertinence. Le but des explications que nous

souhaitons produire est donc de minimiser les efforts à faire par l’utilisateur.

123


Les systèmes présentés précédemment ont des modules d’analyse des données numériques plus ou

moins efficaces mais ne décrivent, pour la plupart, que des évolutions numériques temporelles. De plus,

ces systèmes prennent en entrée des données qui ne sont pas contradictoires.

Dans le cadre des systèmes question-réponse, nous avons vu au chapitre 1 que ces systèmes ne fournissent

pas directement d’explication car ils ne génèrent pas de réponse en langue naturelle. De plus, il existe

d’autres problèmes majeurs que les systèmes présentés précédemment ne traitent pas ou du moins n’ont

pas besoin de résoudre. Par exemple, quand une question numérique est soumise à un système question-

réponse, un ensemble de données numériques est extrait du Web. Le but est ensuite, non pas de décrire

l’ensemble des données (par un résumé par exemple), mais de trouver une réponse appropriée qui satisfait

les attentes de l’utilisateur et qui résoud les phénomènes d’inconsistance des données. De plus, il est

intéressant de pouvoir générer des explications qui décrivent non seulement une évolution temporelle

des données numériques mais aussi d’autres types de variation, par exemple selon le lieu, etc.

Nous commençons par définir les types de questions et de données numériques auxquelles nous nous

intéressons, puis nous présentons les différentes étapes qui permettent d’élaborer une réponse coopérative

telle que celle présentée en introduction.

6.2 Une typologie des réponses numériques

Afin d’identifier les différents types de réponses numériques, nous avons rassemblé un ensemble

de 80 paires question-réponses issues du Web en nous appuyant sur une typologie des valeurs numé-

riques (cf. figure 6.3) que nous avons construite en combinant celles définies par [Monceaux, 2001] et

[Hovy et al., 2002] (par exemple, quand certains types étaient absents d’une des typologies et présents

dans l’autre). Le tableau 6.1 présente la distribution des paires pour chaque type numérique.

FIG. 6.3 – Typologie des valeurs numériques

L’ensemble de questions est composé des 47 questions numériques du corpus d’étude (cf. chapitre

1). Nous y avons ajouté des questions provenant des sites d’inventaire de requêtes sur le Web (27% des

questions) ainsi que des questions portant sur des faits d’actualité grand public (14% des questions). 30 de

124

6.2. Une typologie des réponses numériques

Type ontologique Nombre de questionstemps 6

profondeur 7température 7

âge 8poids 8vitesse 8

longueur (taille) 8hauteur 8

prix 10quantité 10

TAB . 6.1 – Distribution des questions par type ontologique dansle corpus

ces questions ajoutées sont données en annexe C (elles seront utilisées au chapitre 10 pour l’évaluation).

Le but est ensuite de déterminer pour chaque paire question-réponses :

1. si la question accepte une ou plusieurs réponses (i.e. si les réponses candidates sont respectivement

en relation d’alternative ou d’agrégation, cf. chapitre 1),

2. pourquoi les valeurs numériques obtenues sont différentes : est-ce ou non une inconsistance ? une

évolution ? si oui, selon quel(s) critère(s) ?

L’analyse de ces paires question-réponses nous a permis d’identifier les cas suivants.

– La question n’a qu’une seule réponse possible

Par exemple,À quel âge est mort Zola ?, Combien de temps dure le Festival deCannes ?, ...Ce cas

correspond au cas par défaut : les réponses candidates ne se trouvent dans aucune des configurations

présentées par la suite. En effet, dans ce cas, il n’y a pas d’évolution des données numériques et la

génération d’une explication est alors impossible. Seule la réponse directe est à générer. Dans ce cas,

si l’on obtient plusieurs réponses candidates différentes, il y a forcément une inconsistance qu’il faut

résoudre (relation d’alternative). Nous verrons comment dans le chapitre 9.

125


– La question a plusieurs réponses possibles

Ces cas se produisent essentiellement parce que les valeursnumériques recherchées dépendent ou

évoluent selon certains critères, ceux-ci n’étant pas forcément précisés dans la question (relation d’agré-

gation). Considérons les exemples suivants.

Exemple 1:

Q : Quelle est la hauteur du Mont-Blanc ?

R :

- Longtemps, l’altitude officielle du Mont-Blanc a été de 4807 mètres.

- Nouvelle hauteur officielle pour le Mont-Blanc : 4808,45m (17/10/03)

Dans cet exemple, on obtient plusieurs réponses numériquesdifférentes car la valeur numérique

recherchée (hauteur) est une propriété qui varie dans le temps. Les réponses candidates situent d’ailleurs

ces valeurs dans le temps (dates (17/10/03), adverbes de temps (longtemps), autres indices (nouvelle)).

Exemple 2:

Q : Quel est l’âge moyen du mariage des femmes en 2004 ?

R :

- En Iran, l’âge moyen du mariage des femmes a reculé de 19 à 21 ans en 2004.

- En 2004, les femmes au Maroc se marient en moyenne à 27 ans.

Dans cet exemple, on obtient plusieurs réponses numériquesdifférentes car la valeur numérique recher-

chée (âge du mariage) dépend du lieu (en Iran, au Maroc).

Exemple 3:

Q : À quelle température servir le vin ?

R :

- Bordeaux rouge : il se boit chambré donc au moins à 18ÆC.

- Champagne et vins mousseux : entre 8 et 10ÆC.

- Vins blancs : comptez de 8 à 10ÆC.

Dans cet exemple, on obtient plusieurs réponses numériquesdifférentes car la valeur numérique

recherchée (température) dépend du type de vin.

Exemple 4:

Q : Quel est l’âge moyen du mariage ?

R : - En 1972, l’âge moyen du mariage en France était de 24,5 anspour les hommes et 22,4 ans pour

126

6.2. Une typologie des réponses numériques

les femmes.

- Les français en 2000 : âge moyen du mariage : 27,7 pour les femmes / 29,8 pour les hommes.

- En Iran, l’âge moyen du mariage des femmes a reculé de 19 à 21 ans en 2004.

Enfin, dans cet exemple, on obtient plusieurs réponses numériques différentes car la valeur numérique

recherchée (âge) varie selon le temps (en 1972, au 1er janvier 2000, en 2004), le lieu (en France, en Iran)

mais aussi selon le type de personnes (pour les hommes/ femmes).

Ces quelques exemples nous permettent de dégager les trois principaux critères de variation des

valeurs numériques que l’on a trouvés dans notre corpus :

– le temps(cf. exemple 1),

– le lieu (cf. exemple 2),

– les autresrestrictions (restrictions qui expriment des propriétés du focus de la question : par

exemple,Bordeauxet Champagnepourvin, cf. exemple 3). Nous les définissons plus tard.

Ces trois critères peuvent aussi se combiner : par exemple, des valeurs peuvent dépendre du temps et

du lieu, du temps et de restrictions, etc. (cf. exemple 4).

Dans notre corpus, ces critères de variation s’appliquent àtous les types de valeurs numériques et

apparaissent fréquemment lorsque la question est imprécise ou qu’elle n’impose pas de contrainte sur

ces critères.

Ainsi, la questionCombien y a-t-il d’habitants en France ?obtient plusieurs réponses à des dates diffé-

rentes parce que la question, qui porte sur une donnée qui évolue au cours du temps, n’impose pas expli-

citement de contrainte temporelle : une question plus précise qui éviterait ce problème seraitCombien y

a-t-il d’habitants en Franceen 2006?

Dans notre cadre, nous nous intéressons à tous les types de questions, précises ou imprécises. Dans ce

dernier cas, il est nécessaire de fixer un ensemble de règles qui permettent de proposer quand même une

réponse directe satisfaisant au mieux l’utilisateur. Nousprésentons ces règles ultérieurement.

La figure 6.4 présente quelques exemples de paires question-réponses pour chaque critère de varia-

tion.

Pour la suite, nous avons choisi de ne pas nous intéresser auxquestions portant sur des prix et des

distances puisqu’il existe déjà de nombreux sites Web dédiés (Mappy, Kelkoo, etc.).

127


FIG. 6.4 – Exemples de paires question-réponses par critère de variation

6.3 Processus général de traitement des réponses numériques

Comme le montre la figure 6.5, l’élaboration de réponses numériques coopératives telles que présen-

tées précédemment nécessite quatre principales étapes :

– l’analyse de la question : nous supposons que, pour chaque question, l’analyseur de question

fournit le type de réponse attendue, le focus (ce sur quoi porte la question) ainsi que les éventuels

modifieurs (de temps, de lieu, etc.) (cf. chapitre 2),

– l’extraction, via une grammaire dédiée, des réponses candidates dans les pages Web sélectionnées

par le moteur de recherche,

– la caractérisation de la variation numérique (critères etmode de variation), si nécessaire,

– la génération en langue de la réponse directe et d’une explication synthétique.

128

6.3. Processus général de traitement des réponses numériques

FIG. 6.5 – Schéma général du traitement des réponses numériques

Nous présentons chacune de ces étapes dans les chapitres suivants.

129


130

Chapitre 7

Extraction des réponses candidates

Comme pour les questions temporelles, notre système réalise l’extraction des informations à partir

des réponses proposées par QRISTAL. A la différence des questions temporelles où les réponses étaient

extraites des "snippets", l’extraction se fait ici dans lespages Web entières. En effet, pour les questions

numériques, il faut souvent parcourir tout le texte pour trouver des informations sur le contexte des

valeurs, des indices de variation, etc.

Une fois que QRISTAL a sélectionné les pages Web candidates,il faut vérifier que chacune d’entre

elles contient les informations nécessaires à la génération d’une réponse appropriée et les extraire (ceci

est réalisé par la grammaire présentée par la suite). Ces informations sont :

– la valeur numérique recherchée (notéeval),

– l’unitéde mesure,

– le focusde la question,

– ladateet le lieu de l’information,

– lesrestrictions(qui expriment des propriétés) du focus.

L’étude de corpus nous a aussi permis d’identifier un certainnombre d’informations essentielles à

la caractérisation des valeurs numériques. Ce sont principalement des indices linguistiques indiquant

notamment :

– le degré deprécision de la valeur numérique (par exemple, des adverbes ou des prépositions

commeenviron, autour de, presque, etc.),

– unevariation de la valeur numérique (par exemple, des adverbes de temps, des verbes de change-

ment, etc., commeaugmenter, monter, etc.).

131

Chapitre 7. Extraction des réponses candidates

Notre étude mène à la définition d’une frame8 ri qui rassemble toutes ces informations pour une

valeur numérique.

ri = 2666666666664Val =Précision=Unité =Focus=Date =Lieu =Restriction=Variation =

3777777777775Une grammaire extrait ces informations des pages Web candidates : on obtient ainsi un ensembleR

constitué deN frames représentant lesN réponses candidates :R = fr1; :::; rNg.7.1 Grammaire d’extraction

Certains systèmes question-réponse [de Chalendar et al., 2003], [Brill et al., 2001] reformulent les

questions sous une forme affirmative pour extraire le moins de variations possibles par rapport à la

formulation d’origine de la question : par exemple, pour la questionQuand est mort Beethoven ?, seule

la reformulation exacteBeethoven est mort le...est recherchée et extraite. D’autres approches permettent

d’apprendre automatiquement un ensemble d’expressions capables de paraphraser la réponse à une ques-

tion [Duclaye, 2003].

Cependant, ces méthodes ne nous permettent pas d’extraire les modifieurs ou informations contextuelles

telles que la date, le lieu et les restrictions. De plus, nousdevons pouvoir tolérer différentes formulations

de réponses, en particulier différentes lexicalisations pour le verbe utilisé qui peut apporter des indices

intéressants pour la caractérisation de la variation des valeurs numériques.

Nous avons défini une grammaire d’extraction (équivalente àdes patrons d’extraction via une énu-

mération récursive) qui s’applique aux textes entiers "nettoyés" (suppression des balises, des scripts,

etc.) des pages Web sélectionnées par QRISTAL. Les textes sont ensuite découpés en phrases. Notre

grammaire s’applique à chaque phrase et extrait les informations recherchées au sein d’une même phrase

sans analyse syntaxique préalable : les phrases doivent au moins contenir le focus de la question ainsi

qu’une valeur numérique correspondant au type de réponse attendue. Si des informations relatives au

focus et à la valeur numérique se trouvent dans des phrases différentes, alors ces informations ne peuvent

être extraites.

8Nous appelleronsframele "formulaire" d’extraction qui doit être rempli par la grammaire.

132

7.1. Grammaire d’extraction

De plus, la grammaire ne considère que les phrases ayant des formes syntaxiques bien définies :

– des phrases nominales (par exemple,Hauteur du Mont-Blanc : 4810 mètres),

– des phrases verbales (par exemple,la hauteur du Mont-Blanc est de 4810 mètres).

La grammaire d’extraction est définie par un quadruplet(Réponse; NT; T; F; Rg) où :

– Réponseest le symbole initial qui représente une réponse candidate(chaque phrase des textes) et

qui se réécrit en symboles non-terminaux et terminaux par des règles de réécriture,

– NT est l’ensemble des symboles non-terminaux,

– T l’ensemble des symboles terminaux (notés en italique dans la grammaire) et,

– F l’ensemble des fonctions qui permettent d’accèder aux éventuelles ontologies (par exemple,

fils(Focus)oupartie(Focus)),

– Rg l’ensemble des règles,

avec en particulier :

– NT = {Focus, Date, Lieu, Verbe, Unité, ...} représentant entre autres les champs des frames,

– Focusest le focus de la question,

– X représente une suite finie de mots autres que les verbes définis dans l’ensemble des verbes

terminaux,

– Unité se dérive selon le type de réponse attendue : si la question attend une réponse de typepoids

alorsUnité se dérive en unité de mesure de poids, etc.

Nous donnons ici les principales règles de la grammaire d’extraction. Les règles sont de la forme :�! � avec� 2 (Reponse [NT ) et� 2 (T [NT [ F )�.Les éléments qui ne sont pas obligatoirement présents dans la phrase analysée sont entre crochets. On

note "_" les éléments inutiles à l’analyse et la virgule est un symbole de précédence (a; b signifie queadoit apparaître avantb dans la phrase).

Les deux premières règles sont les règles principales. Elles sont gérées par unsuperviseur: la pre-

mière permet d’extraire dans un premier temps les informations essentielles (valeur numérique, unité,

restriction, etc.), puis en cas de succès la seconde permet d’extraire les modifieurs de temps et/ou de lieu.

Superviseur :

Réponse (Frame_entrée, Frame_sortie, Phrase): �Information_num(Frame_entrée, Frame_entree1, Phrase),

Modifieurs(Frame_entrée1, Frame_sortie, Phrase).

133


Information_num (Frame_entrée, (val = Val, unité = Unité, précision = Précision, focus = Focus,

date =;, lieu =;, restriction = Restriction, variation = Variation) , Phrase) !Focus, [Restriction], Ponct, X, [Précision], Val, Unitéj Focus, [Restriction], Verbe, _, [Précision], Val, Unité

Modifieurs (Frame_entrée1, (val = Val, unité = Unité, précision = Précision, focus = Focus,

date = Date, lieu = Lieu, restriction = Restriction, variation = Variation), Phrase)!_, [Date], _, [Lieu], _j _, [Lieu], _, [Date], _

Ponct ! : j - j (

Verbe ! Variation j peser j mesurer j estimer j ...

Variation ! augmenter j diminuer j monter j tomber j ...

Précision ! environ j en moyenne j plus de j ...

Lieu ! Pays j Ville j ...

Restriction ! Ontologie_Domaine j Prop_base

Ontologie_Domaine ! fils(Focus) j partie(Focus)j propriété(Focus) j fils(Focus) propriété(fils(Focus))

Prop_base ! Couleur j Forme j Matière j ...

Forme ! rond j rectangulaire j ...

Matière ! verre j terre j métal j fer j acier j ...

...

L’utilisation de la règleOntologie_Domaineest présentée dans la section 7.3.2. Pour l’extraction des

lieux, nous disposons d’une ontologie des lieux géographiques construite à partir des données disponibles

sur le Web9 (cf. figure 7.1).

La figure 7.2 montre le résultat d’une extraction obtenue à partir de 10 phrases pour la questionQuel

est l’âge moyen du mariage en France ?.

7.2 Extraction des indices linguistiques

Pour l’extraction desverbes, nous avons identifié, à partir d’une classification de verbes du français

[Saint-Dizier, 1999], 101 verbes qui peuvent s’appliquer àdes valeurs numériques.

9http ://www.citypopulation.de/cities.html

134

7.2. Extraction des indices linguistiques

FIG. 7.1 – Extrait de l’ontologie des lieux géographiques

Ces verbes sont issus des classes :

– de changement :augmenter, diminuer, évoluer,etc.,

– de mouvement :monter, descendre, grimper, tomber,etc., utilisés dans des usages métaphoriques

[Moriceau et al, 2003],

– d’état :mesurer, peser,etc.

Pour l’extraction des informations de typeprécision, nous avons utilisé la ressource PrepNet qui

fournit une description syntaxique et sémantique des prépositions [Saint-Dizier, 2005].

Nous nous sommes plus particulièrement intéressés aux prépositions et locutions prépositionnelles de la

classe dequantité:

– quantité précise :à, jusque, sous, au dessus de, en dessous de, moins de, plus de,

– quantité approximative :autour de, entre... et....

Nous avons ajouté à ces prépositions un ensemble d’adverbesqui sont des indices de précision des

valeurs numériques (environ, presque, à peu près, ...). Au total, nous avons identifié une quinzaine de

prépositions et d’adverbes.

Ces indices linguistiques (verbes, adverbes et prépositions) sont définis dans le lexique.

135


FIG. 7.2 – Exemple d’extraction :Quel est l’âge moyen du mariage en France ?

7.3 Extraction des restrictions

Nous avons vu au chapitre 6 que certaines valeurs numériquespeuvent varier en fonction de certaines

propriétés du concept en question. Si l’on veut pouvoir produire une réponse précise et qui explique ces

variations, il faut que le système puisse identifier ces propriétés. Nous montrons ici quelle est l’influence

des connaissances sur la qualité des réponses produites.

7.3.1 Impact de l’absence de connaissances

Supposons que le système ne dispose pas de connaissance sur les propriétés des concepts. Considérons

les deux exemples suivants.

À la questionQuel est le salaire d’un maître de conférences ?, on trouve sur le Web les réponses

candidates suivantes :

- Le salaire d’un maître de conférences est d’environ 1600 euros net mensuel en début de carrière et

136

7.3. Extraction des restrictions

2600 euros net mensuel en fin de carrière.

- Un maître de conférences à l’Université gagne en début de carrière 1405 euros nets mensuels.

Pour cet exemple, sans connaissance, le système est incapable d’extraire des propriétés commenet,

mensuelou en début de carrière. Le système va donc n’extraire que les valeurs numériques1600, 2600,

1405et générer une réponse telle quele salaire d’un maître de conférence est entre 1405 et 2600 euros.

Cette réponse est relativement correcte mais elle ne précise pas les propriétés qui expliquent la variation

du salaire.

De même, à la questionQuelle est la température de service des vins ?, on trouve sur le Web les

réponses candidates suivantes :

- champagnes et vins blancs secs : 9 à 10ÆC.

- vins rosés : 8 à 12ÆC.

- vins blancs : 11 à 14ÆC.

- vins rouges, Bordeaux, Banuyls, etc. : 14 à 18ÆC.

Sans connaissance sur des propriétés génériques comme les couleurs ou des propriétés plus spéci-

fiques aux vins, le système va extraire les températures et générer une réponse de la formela température

de service des vins est entre 8 et 18ÆC. Ici encore, la réponse n’est pas incorrecte mais assez imprécise.

Notre système peut donc produire des réponses acceptables sans connaissance a priori mais on voit

bien l’apport des connaissances sur la qualité et la précision des réponses. Pour mieux mesurer l’apport

de ce genre de connaissances, il faudrait mener une évaluation pour vérifier si les utilisateurs trouvent

utile ou pertinent d’avoir des présicions sur les différentes propriétés.

Nous montrons dans les sections suivantes comment des connaissances génériques ou spécifiques à

un domaine peuvent être utilisées pour améliorer la qualitédes réponses.

Pour environ la moitié des questions de notre corpus, il n’y apas de propriété des concepts à extraire.

Dans les autres cas, nous avons identifié deux types de propriétés :

1. des propriétés qui concernent la dimension mesurée : nousappelons ce concept le "mesureur", et

2. des propriétés qui concernent l’objet mesuré.

Par exemple, danshauteur du Mont-Blanc, hauteurest le "mesureur" etMont-Blancest le "mesuré".

137


7.3.2 Propriétés du "mesureur"

Nous appelons concept "mesureur" le concept qui exprime la quantité ou le type numérique recher-

ché, par exemplehauteur, prix, poids, etc. Il correspond au type de réponse attendue. Un certain nombre

de modifieurs s’appliquent fréquemment à ces concepts et permettent d’exprimer des différences entre

des valeurs numériques. Par exemple, un même salaire peut avoir des valeurs différentes selon que l’on

considère la valeur du salaire net ou brut. Il est donc primordial de pouvoir extraire ces modifieurs afin

d’identifier correctement les variations numériques.

Pour identifier et extraire les modifieurs exprimant des propriétés, nous avons appliqué une méthode

de "bootstrapping" : nous avons soumis chacun des concepts "mesureur" à Google et récupéré l’ensemble

de leurs modifieurs, essentiellement des adjectifs. Ceci permet de collecter les modifieurs les plus fré-

quemment utilisés et les plus pertinents pour chaque concept. Ces modifieurs sont essentiellement :

– temporels :ancien, actuel, officiel, annuel,etc.,

– algébriques : des modifieurs génériques (moyen, total, maximum, ...) et d’autres plus spécifiques

(par exemple pour le domaine financier,hors-taxe, brut, ...).

Par exemple, dansle montant mensuel brut du SMIC, les modifieursmensuelet brut s’appliquent

au "mesureur"montant. Dansla hauteur actuelle du Mont-Blanc, le modifieuractuelles’applique au

"mesureur"hauteur.

Enfin, nous avons identifié un ensemble de modifieurs non pertinents, c’est-à-dire qu’ils n’expriment

pas des propriétés du concept, par exemple des modifieurs quiexpriment un point de vue subjectif (idéal,

excessif, avantageux, nécessaire,etc.). Nous avons décidé de ne pas les considérer lors de l’extraction

car ils ne sont pas pertinents pour identifier une variation numérique. En effet, ces modifieurs peuvent

être supprimés sans changer pour autant la valeur numérique: par exemple, l’adjectifidéal peut être

supprimé dansle poids idéal d’un bébé à la naissance est de 3,5kgsans avoir d’influence sur la valeur

numérique. Au contraire, si l’on supprime l’adjectifanciennedansancienne hauteur du Mont-Blanc :

4807 mètres, ceci peut entraîner de fausses présuppositions.

Au total, nous avons donc défini dans le lexique un ensemble, non exhaustif, d’environ 50 modifeurs

temporels et algébriques qui sont utilisés comme modifieursdu concept "mesureur".

7.3.3 Propriétés du "mesuré"

Nous appelons concept "mesuré" le concept focus de la question. Ici encore, de nombreux modifieurs

peuvent s’appliquer et permettent de préciser la valeur numérique recherchée pour une propriété particu-

lière du focus. Extraire et analyser ces propriétés est doncessentiel pour identifier les éventuels critères

138


de variation d’une valeur numérique.

Nous avons identifié dans notre corpus deux principaux typesde propriétés de l’objet "mesuré" :

– des propriétés dites de "base" communes à de nombreux objets, et

– des propriétés spécifiques au concept ou au domaine considéré.

Propriétés de base

Dans le but de minimiser le plus possible le besoin en connaissances, nous avons défini à partir

des observations en corpus un ensemble de propriétés que nous appelons propriétés de "base" qui sont

communes à de nombreux objets pour lesquels des connaissances pré-définies sont inutiles.

Par exemple, il n’est pas raisonnable d’envisager avoir desconnaissances a priori sur la Tour Eiffel pour

pouvoir extraire les propriétés dansune Tour Eiffel en argentouune Tour Eiffel en verrecar ces propriétés

ne sont pas des propriétés intrinsèques à la Tour Eiffel et donc difficiles à collecter et difficilement

représentables !

Ces propriétés de base regroupent donc des propriétés exprimant principalement :

– la couleur :bleu, rouge, noir,etc.,

– la matière :verre, acier, métal, bois, etc.,

– la forme :rectangulaire, ovale, rond,etc,

– la localisation :bord, fond, centre, central, interne,etc. [Borillo, 1988], [Borillo, 1998].

Au total, nous avons ainsi défini un ensemble non exhaustif d’environ 70 propriétés de base définies

dans le lexique et que la grammaire peut extraire.

Propriétés spécifiques

Il existe d’autres types de propriétés qui nécessitent d’avoir recours à des connaissances spécifiques

au domaine considéré.

Nous nous sommes inspirés du projet italien CLIPS10 afin de représenter certaines connaissances sous

forme d’ontologies. CLIPS est la plus vaste ressource lexicale électronique de l’italien. Elle comprend

55000 mots codés sur plusieurs niveaux de description linguistique. Sont décrits, pour chaque lemme,

ses propriétés phonologiques, morphologiques et syntaxiques ainsi que ses arguments. Au niveau sé-

mantique, chaque sens est associé à un ensemble structuré d’informations, parmi lesquelles son type

ontologique et les différentes facettes de sa sémantique par l’intermédiaire des relations de la structure

10http ://www.ilc.cnr.it/clips/

139


Qualia.

Au niveau sémantique, le lexique est structuré sur la base del’ontologie SIMPLE-CLIPS composée

de 157 types sémantiques indépendants de toute langue et de tout domaine d’application. La modélisation

des informations sémantiques d’une unité lexicale s’inspire de la structure Qualia du Lexique Génératif

[Pustejovsky, 1995].

Dans la structure Qualia, quatre rôles sont définis :

– le rôleformelpermet de décrire une entité en termes de forme, taille, couleur, etc. : par exemple,

le rôle formel deromanetdictionnaireestlivre,

– le rôleagentif permet de décrire l’origine de l’objet : par exemple,écrire est le rôle agentif de

roman,

– le rôle constitutif permet de décrire la constitution d’un objet (matière, composantes, etc. : par

exemple, un des rôles constitutifs dupain estfarine (le pain estfait de farine) ; de même, un des

rôles constitutifs devoitureestmoteur(le moteur faitpartie dela voiture),

– le rôletéliquepermet de décrire les fonctions de l’objet : par exemple, le rôle télique d’uncouteau

est decouper.

Dans CLIPS, les rôles sont étendus. Par exemple, le rôle formel est exprimé par la relation d’hyper-

onymieest-unmais aussi par les relationsest-défini-parou est-caractérisé-par. Le rôle constitutif est,

quant à lui, exprimé par la relation de méronymiepartie-demais aussi par la relationmembre-de.

Dans notre cadre, seuls les rôles formel et constitutif sontnécessaires pour décrire les propriétés des

objets, et en particulier les propriétés qui peuvent être lacause d’une variation numérique.

Ainsi, dans notre base de connaissances, chaque concept de l’ontologie d’un domaine particulier est

défini par :

– le nom du concept (C),

– ses lexicalisations (liste_lexicalisations),

– sa structure Qualia où nous définissons essentiellement :

– le rôle formel : propriétés de taille, forme, etc. (liste_formels),

– le rôle constitutif : constitution, composants (liste_constitutifs).

Un conceptC est donc défini par :

concept(C, liste_lexicalisations, liste_formels, liste _constitutifs) .

140


Tous les concepts sont structurés grâce à la relationest-un(est-un(X,Y)signifie que X est un type de Y).

Des exemples sont donnés ci-après.

Nous donnons dans la suite les différents cas d’utilisationdes ontologies pour l’extraction des res-

trictions.

Cas 1 : la restriction à extraire est une propriété du concept(rôle formel)

Par exemple, le conceptvoitureest représenté de la façon suivante :

concept(voiture, [voiture, ...], [couleur 2 {noir, ...}, ... ], [roues, ...]) .

Ainsi, si l’on pose la requêteprix d’une voitureet que l’on obtient la réponsele prix d’une voiture

rouge est de 9500 euros, la règlepropriété(voiture)(notéepropriété(Focus) dans la grammaire)

permet d’extraire la propriétérougedéfinie dans l’ensemble des rôles formels du conceptvoiture.

Cas 2 : la restriction à extraire est une partie constitutivedu concept

Par exemple, si l’on soumet à un moteur de recherche la requête nombre d’habitants en France,

on peut trouver dans les pages Web des informations concernant le nombre d’habitants en France, en

métropole, en Bretagne, etc.

Pour pouvoir extraire et analyser ces informations correctement, il faut disposer de connaissances sur les

lieux géographiques : nous utilisons pour cela l’ontologieprésentée précédemment (cf. figure 7.1). Dans

cette ontologie, on trouve par exemple les concepts suivants :

concept(France, [France], [ ], [métropole, outre-mer]) .

concept(métropole, [métropole], [ ], [Aquitaine, Bretagn e, ...]).

Pour cet exemple, on trouve dans les parties constitutives du conceptFrance le conceptmétropole,

puis par héritage le conceptBretagne.

Pour la requêtenombre d’habitants en France, le conceptFrancefait partie du focus de la question. Dans

les extraits de réponses candidatesle nombre d’habitants en Bretagne est de...et nombre d’habitants en

métropole, les élémentsBretagneet métropole, définis dans la liste des rôles constitutifs, peuvent donc

être considérés comme des restrictions deFrance.

141


Cependant, la restrictionmétropoleest plus pertinente queBretagnedu point de vue de la réponse :

en effet, si l’utilisateur recherche le nombre d’habitantsen France, il est plus pertinent de proposer

comme réponse le nombre d’habitants en métropole plutôt qu’en Bretagne. C’est pourquoi la grammaire

extrait uniquement les parties constitutives du concept considéré sans appliquer de récursivité (règle

notéepartie(Focus) dans la grammaire d’extraction).

En revanche, si l’on trouve une information sur la population carcérale en France, celle-ci ne sera pas

extraite car la propriétécarcéralene se trouve pas dans l’ontologie des lieux géographiques.

Cas 3 : la restriction à extraire est un concept fils du focus

Les restrictions peuvent donc être des parties constitutives d’un concept (comme dans l’exemple

précédent) mais aussi d’autres concepts liés.

Par exemple, pour la questionquelle est la température de service des vins ?dont le focus estvin, les

pages Web proposent des températures pour le Bordeaux, le Champagne, les vins secs, rouges, etc. Pour

pouvoir extraire ces restrictions, il est indispensable dedisposer de connaissances spécifiques au domaine

des vins. Nous disposons, pour ce cas particulier, d’une ontologie des vins11 dont la figure 7.3 présente

un extrait.

FIG. 7.3 – Extrait de l’ontologie des vins

Cette ontologie est structurée par la relationest-unet fournit, par la relationest-caractérisé-par, un

ensemble de propriétés pour chaque concept précisant sa couleur, son goût, son origine géographique,

etc., par exemple :

concept(vin, [vin], [couleur 2 {rouge, ...}, goût 2 {sec, ... }, ...], [ ...]) .

concept(Bordeaux, [Bordeaux], [couleur = rouge, goût = ..., ...], [ ...]) .

concept(Champagne, [Champagne], [couleur 2 {blanc,rosé}, goût ...],[ ...]) .

est_un(Bordeaux, vin).

est_un(Champagne, vin).

11Ontologie disponible sur http ://www.daml.org/ontologies/

142

7.4. Problèmes lors de l’extraction

Il est ainsi possible d’extraire dans les pages Web :

– des propriétés du conceptvin telles querougeou secpar la règlepropriété(vin)(cf. cas 1),

– différents types de vins, comme le Bordeaux, par la règlefils(vin) (notéefils(Focus) dans la

grammaire d’extraction) puisque Bordeaux et vin sont liés par la relationest-un,

– différents types de vins et leurs propriétés associées, par exemple duChampagne rosé, grâce à la

règle de grammaire notéefils(Focus) propriété(fils(Focus)) .

7.4 Problèmes lors de l’extraction

Lors d’une analyse de texte et d’une extraction en particulier, il existe certains problèmes que la

grammaire ne peut résoudre facilement, les plus importantsétant les problèmes de synonymie et de

référence.

Par exemple, une des pages Web candidates proposée comme réponse à la questionQuelle est l’altitude

du Mont-Blanc ?donne :

Longtemps l’altitude officielle du plus haut sommet des Alpes a été de 4 807 mètres. La mesure faite en

2002 par les géomètres experts avait donné 4 810,40 mètres. (...) Lors de la campagne rendue publique

le 16 décembre 2005 l’altitude du Mont-Blanc a été mesurée à 4808,45 mètres.

Dans cet extrait, les informations concernant le focus de laquestion, la date et la valeur numérique

recherchée peuvent être facilement extraites dans la dernière phrase grâce à la règle :

Réponse ! Date, Focus, Verbe, Val Unité .

Les informations extraites dans ce cas sont :

ri = 2666666666664Val = 4808; 45Précision= ;Unité = mètres

Focus= altitude du Mont-Blanc

Date = 16=12=2005Lieu = ;Restriction= ;Variation = ;

3777777777775En revanche, dans la première phrase de l’extrait, l’utilisation de la périphrasele plus haut sommet des

Alpespour désigner le Mont-Blanc ne permet pas à la grammaire d’extraire les informations car le focus

de la question (Mont-Blanc) n’est pas explicitement présent.

De même, dans la phrasela mesure faite en 2002 par les géomètres experts avait donné4 810,40 mètres,

l’ellipse du focus (la mesure faite en 2002pour la mesure de l’altitude du Mont-Blanc faite en 2002) ne

143


permet pas d’extraire les informations recherchées.

Une autre difficulté pour la grammaire est la présence dans les textes d’anaphores ou de références

temporelles. Considérons la réponse suivante :

La dernière campagne de mesure du Mont-Blanc a été effectuéeen 2005. Lors de cette mesure, la hauteur

du Mont-Blanc a été estimée à 4 808,45 mètres.

Ici, la référence temporellelors de cette mesurene permet pas à la grammaire d’extraire la date

effective de la mesure (2005).

Nous donnons des éléments d’évaluation des performances dela grammaire et des idées d’améliora-

tion dans le chapitre 10 consacré à l’évaluation.

Dans les chapitres suivants, nous présentons dans un premier temps la génération des explications (cha-

pitre 8), puis la génération des réponses directes (chapitre 9).

144

Chapitre 8

Génération des explications

Nous nous intéressons dans ce chapitre à la génération des explications. Nous rappelons que les

explications que nous souhaitons produire doivent décrireune variation numérique en précisant le mode

et les critères de variation (par exemple,l’âge du mariage a augmenté de 5,5 ans entre 1972 et 2005).

Notre but est de pouvoir générer de telles explications directement à partir de l’observation des informa-

tions extraites du Web pour limiter les besoins en connaissances. Ainsi, l’analyse des données du Web

comporte deux étapes essentielles :

1. l’identification d’une éventuelle variation des valeursnumériques et des critères de variation,

2. l’identification du mode de variation (augmentation, diminution, variation aléatoire).

Cette phase d’analyse constitue la détermination de contenu (préparation duquoi dire). Les explications

doivent ensuite être générées en langue naturelle.

Nous décrivons chacune de ces étapes dans les sections suivantes.


Comme expliqué précédemment, la phase de détermination de contenu doit identifier les informations

pertinentes à générer dans les explications. Dans notre cadre, ces informations sont les critères et le mode

de variation.

8.1.1 Identification des critères de variation

Une fois que l’on dispose des frames représentant les informations extraites, les objectifs sont :

1. de déterminer si les valeurs numériques varient,

2. d’identifier les éventuels critères de variation,

afin de proposer une explication synthétique à l’utilisateur.

145

Chapitre 8. Génération des explications

Pour pouvoir identifier une variation des valeurs numériques selon certains critères, il faut les compa-

rer entre elles. Cependant, des valeurs peuvent être différentes parce qu’il y a effectivement une variation

mais aussi parce que les valeurs sont erronées. Il est donc nécessaire de définir un seuil qui va imposer

un nombre minimal de valeurs différentes pour un même critère : par exemple, si parmi 50 réponses

candidates, il n’y a que 2 valeurs numériques différentes pour un même critère, ceci ne nous permet pas

de conclure à une variation selon ce critère de façon certaine.

Nous considérons donc qu’il y a variation selon un critère si, parmi lesN frames, il existe au moinsk valeurs numériques différentes pour le critère considéré.Plus il y a de réponses candidates, plusk doit

être grand : en pratique, nous avons fixé arbitrairementk = N=4 mais ce nombre reste à évaluer.

On notef(A; ri) la fonction qui renvoie la valeur de l’attributA de la frameri. Ainsi, une valeur

numérique varie en fonction :

1. dutempss’il existe, parmi l’ensembleR desN frames, au moinsk valeurs numériques différentes

(ayant la même unité de mesure) pour des dates différentes :E = ff(V al; ri); 9 ri; rj 2 R; tel que f(V al; ri) 6= f(V al; rj)^ f(Unit�e; ri) = f(Unit�e; rj) ^ f(Date; ri) 6= f(Date; rj) g ^ ard(E) � k2. du lieu s’il existe, parmi l’ensembleR desN frames, au moinsk valeurs numériques différentes

(ayant la même unité de mesure) pour des lieux différents :E = ff(V al; ri); 9 ri; rj 2 R; tel que f(V al; ri) 6= f(V al; rj)^ f(Unit�e; ri) = f(Unit�e; rj) ^ f(Lieu; ri) 6= f(Lieu; rj) g ^ ard(E) � k3. desrestrictions s’il existe, parmi l’ensembleR desN frames, au moinsk valeurs numériques

différentes (ayant la même unité de mesure) pour des restrictions différentes :E = ff(V al; ri); 9 ri; rj 2 R; tel que f(V al; ri) 6= f(V al; rj)^ f(Unit�e; ri) = f(Unit�e; rj) ^ f(Restri tion; ri) 6= f(Restri tion; rj) g^ ard(E) � k4. dutempset dulieu si (1) ^ (2)5. dutempset desrestrictions si (1) ^ (3)6. dulieu et desrestrictions si (2) ^ (3)7. dutemps, du lieu et desrestrictions si (1) ^ (2) ^ (3)Les valeurs numériques ne peuvent bien entendu être comparées que si elles ont la même unité de

mesure, sinon elles doivent être converties.

146


De plus, comme le montrent les points 4, 5, 6 et 7, ces critèrespeuvent être combinés : certaines

valeurs peuvent varier selon le temps et le lieu, selon le temps et les restrictions, etc. Dans l’exemple de

la figure 7.2, l’âge moyen du mariage varie en fonction du temps, du lieu et des restrictions.

Pour chaque critère (temps, lieu ou restriction), seules les informations du même type sémantique

ou du même niveau ontologique peuvent être comparées. Par exemple, à la questioncombien y a-t-il

d’habitants en France ?, les valeurs décrivant la population pour les restrictionsDOM-TOMetmétropole

peuvent être comparées car DOM-TOM et métropole sont des restrictions du même type et du même

niveau ontologique.

En revanche, les informations sur le lieu ne peuvent être comparées que si elles ont le même niveau

ontologique : par exemple, les prix à Paris et à Toulouse peuvent être comparés car les lieux ont le même

type/niveau ontologique (ville), ce qui permet de générer une explication telle queles prix varient selon

les villes. En revanche, même s’il peut sembler pertinent de comparer les prix à Paris et les prix en

France qui ne sont pas au même niveau ontologique (cf. figure 7.1), ceci ne permet pas de générer des

explications telle que celles que nous proposons. Nous discutons de la possibilité de générer d’autres

types d’explications, notamment comparatives, dans la conclusion de ce manuscrit.

Dans les cas où aucune information n’a pu être extraite pour certains critères, il est nécessaire de dé-

finir des règles de comparaison. Soient rit 2 fDate; Lieu; Restri tiong et8i; j � N; ri; rj 2 R,

– si aucune information n’a été extraite pour deux critères comparés, alors nous considérons par

défaut que ces critères sont égaux (en d’autres termes, il n’y a aucune information permettant de

conclure qu’il y a une variation numérique selon ces critères) i.e. :

si f( rit; ri) = ";" et f( rit; rj) = ";", alors f( rit; ri) = f( rit; rj),Par exemple, si l’on af(Date; ri) = ";" et f(Date; rj) = ";" et quef(V al; ri) 6= f(V al; rj),il n’y a aucune information permettant de conclure que la valeur numérique varie selon le temps

donc on considère que les "valeurs vides" du critèreDatesont égales.

– si aucune information n’a été extraite pour un des deux critères comparés, alors nous considérons

que les informations pour ces deux critères sont différentes (donc il y a une variation selon ce

critère), i.e. :

si f( rit; ri) = ";" et f( rit; rj) 6= ";", alors f( rit; ri) 6= f( rit; rj),Dans l’exemple de la figure 7.2, l’âge moyen du mariage varie en fonction du temps, du lieu et des

restrictions. Dans l’exemple de la figure 8.1, le prix varie en fonction du temps (septembre 2005/";") et

du lieu (Paris/Toulouse). Dans un souci de place, nous ne donnons ici que deux frames pour cet exemple

mais il est bien évident que ceci ne suffit pas pour conclure à une variation.

147


FIG. 8.1 – Exemple de variation

Ainsi, les critères de variation des valeurs numériques sont inférés à partir des informations extraites

des pages Web afin de minimiser les besoins en connaissances,qui seraient trop importants en domaine

ouvert.

8.1.2 Identification du mode de variation

Pour les valeurs numériques qui varient en fonction de temps, il est intéressant de caractériser le

mode de variation dans le but d’en rendre compte à l’utilisateur. L’idée est donc de dégager une tendance

de variation dans le temps (augmentation, diminution) pourqu’une explication la plus précise possible

puisse être générée.

Dans ce but et dans le cas d’une variation numérique dans le temps, nous disposons d’un ensemble de

couples (valeur numérique, date) représentant l’ensembledes réponses extraites. La droite de régression

(droite qui passe au plus près de tous les points) obtenue à partir de cet ensemble permet de déterminer

la relation existant entre la valeur numérique et le temps. En particulier, le coefficient de corrélation (r)reflète à quel point les deux variables sont liées. Ce coefficient varie de+1 à�1. Cet indicateur est aussi

utilisé dans des systèmes comme SumTime [Sripada et al, 2003a] ou PostGraphe [Fasciano et al, 2000].

Par exemple, la figure 8.2 montre qu’un coefficient de corrélation positif implique une tendance à

l’augmentation de la valeur tandis qu’un coefficient négatif implique une tendance à la diminution. Dans

le cas où la valeur absolue du coefficient est faible, alors latendance (augmentation ou diminution) est

mathématiquement considérée comme aléatoire [Fisher, 1925].

En pratique, nous considérons que la variation est aléatoire si�0; 6 < r < 0; 6 : ceci découle des

observations de [Fisher, 1925] mais il est bien évident que si le nombre de points est très petit ou très

grand, ce seuil peut varier sensiblement.

148


FIG. 8.2 – Mode de variation

Soientvi les valeurs numériques etdi les dates associées.

Alors le coefficient de corrélation linéairer vaut :r = ovarian e(d; v)pvarian e(d) � varian e(v)Cette méthode possède plusieurs avantages. Elle permet tout d’abord de caractériser le mode de varia-

tion dans le temps des valeurs numériques et de déterminer siles valeurs sont fortement dépendantes du

temps ou non (plusr est élevé, plus les valeurs numériques dépendent du temps).Mais elle permet aussi

d’établir une tendance de variation même avec un très petit nombre de données. De plus, le coefficient

de corrélation permet de prendre en compte les faibles incohérences de données (phénomènes d’arrondi)

qui ne faussent pas la tendance de variation.

La figure 8.3 montre les résultats pour la questioncombien y a-t-il d’habitants en France ?Des

valeurs numériques différentes et les dates associées sontextraites des pages Web. Le coefficient de

corrélation vaut ici0:694 i.e. le nombre d’habitants augmente dans le temps (ici entre1999 et 2005). On

remarque dans cet exemple que la faible incohérence de données due aux arrondis pour l’année 2004 ne

fausse pas la tendance à l’augmentation.

Le coefficient de corrélation ne peut bien entendu être calculé que pour des couples (valeur numé-

rique, date) ayant les mêmes critères de lieu ou de restrictions. Il faut donc pour cela déterminer les

sous-ensembles de couples ayant les mêmes caractéristiques.

Ainsi, pour l’exemple de la figure 7.2 concernant l’âge moyendu mariage en France, il faut construire des

sous-ensembles de données ayant les mêmes critères de variation. Ici, toutes les valeurs concernent le lieu

Francemais elles sont associées à des restrictions différentes (homme/femme). Il faut donc construire

deux sous-ensemble de couples (valeur numérique, date) : unsous-ensemble qui concerne la restriction

hommeet un autre qui concerne la restrictionfemme.

149


FIG. 8.3 – Mode de variation :Combien y a-t-il d’habitants en France ?

Le coefficient de corrélation entre l’âge du mariage et le temps vaut alors 0,99 pour les hommes et

0,99 pour les femmes (cf. figure 8.4) : l’âge du mariage a donc augmenté entre 1985 et 2000 pour les

hommes et les femmes.

FIG. 8.4 – Mode de variation :Quel est l’âge moyen du mariage en France ?

150


Calcul de l’amplitude de variation

Dans le cas d’une augmentation ou d’une diminution de la valeur numérique recherchée selon le

temps, il est intéressant de connaître l’amplitude de variation pour que l’explication à générer soit plus

précise. Il faut pour cela connaître les valeurs numériquesassociées à la date la plus ancienne et à la

date la plus récente. Dans le cas d’inconsistances (valeurserronées ou valeurs arrondies), il peut y avoir

plusieurs valeurs associées à chaque date.

Soit CV al_Date = f (f(V al; ri); f(Date; ri)); ri 2 R tel que f(Date; ri) 6= ";" g l’ensemble des

couples (valeur numérique, date).

Ainsi, l’ensembleE_An des valeurs numériques associées à la date la plus ancienne est défini par :E_An = f f(V al; ri); tel que (f(V al; ri); date_min) 2 CV al_Date ave date_min = minrj2R( f(Date; rj) ) gDe même, l’ensembleE_Re ent des valeurs numériques associées à la date la plus récente est défini

par :E_Re ent = f f(V al; ri); tel que (f(V al; ri); date_max) 2 CV al_Date ave date_max = maxrj2R( ff(Date; rj) ) gAinsi :

– si0; 6 < r < 1 (augmentation), alors l’amplitude de variationV al_Ampl vaut :V al_Ampl = moyennef(V al;ri)2E_Re ent( f(V al; ri) ) � moyennef(V al;ri)2E_An ( f(V al; ri) )– si�1 < r < �0; 6 (diminution), alors l’amplitude de variationV al_Ampl vaut :V al_Ampl = moyennef(V al;ri)2E_An ( f(V al; ri) ) � moyennef(V al;ri)2E_Re ent( f(V al; ri) )Dans le cas où il y a plusieurs valeurs possibles associées à la date la plus récente (resp. ancienne),

alors on calcule la moyenne de toutes ces valeurs pour avoir une approximation de l’amplitude. Ceci doit

bien sûr être précisé en langue naturelle dans l’explication.

151


8.2 Explications en langue naturelle

Connaissant les critères et le mode de variation ainsi que l’amplitude, le but est maintenant de générer

les explications en langue naturelle. Dans les sections suivantes, nous présentons nos objectifs en termes

de génération d’explication ainsi que les différents schémas de génération qui ont été définis.

8.2.1 Objectifs

Comme nous l’avons vu au chapitre 6, plusieurs systèmes de génération de langue se sont intéressés

à la génération d’explications numériques. Ces systèmes produisent notamment des explications qui dé-

crivent les différents phénomènes de variation. Pour produire de telles explications, plusieurs problèmes

se posent :

– comment présenter les différents critères de variation ?,

– comment préciser le mode et/ou l’amplitude de variation ?,

– comment combiner les informations lorsqu’il y a une variation selon plusieurs critères ?.

Dans notre système, les explications doivent présenter à l’utilisateur les éventuels critères de variation

de la valeur numérique recherchée d’une manière synthétique en évitant d’énumérer toutes les informa-

tions trouvées. Une possibilité est de proposer des explications intensionnelles [Benamara, 2004b], qui

présentent les différents critères de variation par l’intermédiaire d’un terme généralisant (par exemple,le

poids d’un i-POD varie selon lemodèle).

Dans le cas d’une variation dans le temps, les explications doivent aussi présenter le mode de variation

et l’amplitude (par exemple,le nombre d’habitants en France a augmenté d’1 million entre2004 et 2006).

Nous remarquons que les explications ont toutes la même structure syntaxique et leur forme de

surface étant relativement simple, nous avons choisi, comme au chapitre 4, d’utiliser des schémas de

génération afin de faciliter la tâche de génération. Des schémas doivent ainsi être définis pour chaque

type d’explications et permettre de gérer les problèmes précédemment exposés.

8.2.2 Conception des schémas de génération

Comme nous l’avons présenté au chapitre 4, un schéma de génération est composée d’éléments

appartenant à :

– un ensembleP de termes prédéfinis de la langue,

– un ensembleC de concepts à générer,

– un ensembleF de fonctions de lexicalisation qui sélectionnent la meilleure lexicalisation parmi

un ensemble de lexicalisations possibles d’un élément (concept, propriété, connecteur, etc.).

152

8.2. Explications en langue naturelle

Un schémat est donc une séquence finie d’élémentsei 2 (P [ C [ F ) tels que9j; k 2 [1; :::; n℄;ej 2 C; ek 2 F .

Présentons à présent les principaux schémas que nous avons définis pour la génération des explica-

tions. Nous donnons ci-dessous les conventions de notation:




– la fonctionlexEvent 2 F est la fonction qui lexicalise la date d’un événement,


etc.).

Nous avons défini 13 schémas qui permettent de générer des explications de variation numérique

selon un ou plusieurs critères. Nous présentons ici les conditions d’applications des schémas.

Schémas de génération associés à une variation selon le lieu

Le schéma associé aux explications d’une variation selon lelieu est celui qui a la forme la plus

simple :

T_Num-Lieu 1 = Lex(Focus) Lex(Verbe) selon le lieu.

oùLex(Verbe)est la réalisation en langue (lexicalisation, morphologie) du verbevarier.

Exemple. Soit la questionquelle température fait-il en hiver en France ?. Le focus de la question est

température en hiver. Les réponses candidates donnent par exempleles températures moyennes à Brest

sont de 6ÆC en hiveret Température moyenne à Paris en hiver (France) : 12ÆC. Il y a ici une variation

de la température selon le lieu.

Après instanciation du schéma, l’explication générée est donc la température en hiver varie selon le lieu

(c’est la réponse directe qui va préciser les températures pour chaque lieu).

Schémas de génération associés à une variation selon les restrictions

Les schémas associés aux explications d’une variation selon les restrictions ont aussi une forme

relativement simple. La difficulté ici consiste à trouver précisément le critère de variation. En effet,

proposer à l’utilisateur une explication telle quele poids d’un i-POD varie selon les restrictionsest loin

d’être explicite ! Le but est donc de trouver quel est le type précis des restrictions en définissant un terme

généralisant [Benamara, 2004b].

153


Comme expliqué précédemment, les restrictions peuvent être définies soit dans l’ensemble dit des "pro-

priétés de base" soit dans l’ontologie du domaine considéré.

Exemple 1. Soit la questioncombien pèse une paire de lunettes ?. Les réponses obtenues donnent des

poids pour des lunettes en titane, en plastique, etc. Le poids varie selon des restrictions définies dans

l’ensemble des propriétés de base : il faut donc trouver le concept généralisant de toutes ces restrictions,

ici la matière (cf. grammaire d’extraction).

Le schéma utilisé est défini par :

T_Num-Rest 2:1 = Lex(Focus) Lex(Verbe) selon Lex(GenPropBase(Restriction)) .

Pour cet exemple, on a donc :le poids d’une paire de lunettes varie selon la matière.

Exemple 2. Soit la questionquelle est la température de service des vins ?. Les réponses obtenues

donnent des températures pour le Bordeaux, le Champagne, etc. La température varie selon des restric-

tions définies dans l’ontologie des vins : il faut donc trouver le concept généralisant, ici c’est le concept

père de toutes ces restrictions (cf. figure 8.5).


T_Num-Rest 2:2 = Lex(Focus) Lex(Verbe) selon le type deLex(Père(Restriction)) .

Pour cet exemple, on a donc :la température de service des vins varie selon le type de vin.

Exemple 3. Soit la questionquelle est la température de service des vins ?. Les réponses obtenues

donnent des températures pour les vins rouges, blancs, etc.La température varie selon des restrictions

définies dans l’ontologie des vins : il faut aussi trouver le concept généralisant, ici c’est le type de

propriétés défini dans l’ontologie (cf. figure 8.5).


T_Num-Rest 2:3 = Lex(Focus) Lex(Verbe) selon Lex(TypeProp(Restriction)) .

Pour cet exemple, on a donc :la température de service des vins varie selon la couleur.

154


FIG. 8.5 – Ontologie des vins : concepts généralisants

Schémas de génération associés à une variation aléatoire selon le temps

Pour les valeurs numériques qui varient aléatoirement en fonction du temps (i.e. aucun mode de

variation n’a pu être identifié), le schéma associé à l’explication est défini par :

T_Num-Temps3:1 = Lex(Focus) Lex(Verbe) dans le temps.

Par exemple, on a l’explication :le nombre de chômeurs en France varie dans le temps.

Schémas de génération associés à une variation non aléatoire selon le temps

Pour les valeurs numériques qui varient en fonction du temps, si le mode de variation a pu être

caractérisé (augmentation ou diminution), alors l’explication doit être plus précise : plutôt que de générer

X varie selon le temps, on préfére générer une explication telle queX a augmenté/diminué entre ... et ....

C’est ici le verbe qui va retranscrire avec le plus de précision possible le phénomène de variation. Le

choix du verbe à générer est donc un point essentiel. Des descriptions lexicales fines sont nécessaires et

155


nous nous appuyons pour cela sur les verbes de changement et de mouvement que nous avons définis

dans le lexique et nécessaires aussi pour la phase d’extraction.

À partir de ces verbes, il faut définir des classes qui expriment l’augmentation et la diminution. La

tâche de lexicalisation pour le choix du verbe est ainsi contrainte par le mode de variation de la valeur

numérique.

Il est ensuite nécessaire de disposer d’une description sémantique fine des verbes pour générer une

explication qui prenne en compte autant que possible toutesles caractéristiques de la variation numé-

rique : par exemple, la vitesse et l’amplitude de variation.Ainsi, pour chaque classe de verbes et leur

mode de variation associé, il faut définir les domaines ontologiques sur lesquels les verbes peuvent

s’appliquer ainsi que leurs restrictions de sélection pourqu’un verbe approprié puisse être choisi. Le

but est de définir quels sont les verbes les plus appropriés pour décrire une augmentation de prix, une

diminution d’âge, etc. [Moriceau et al, 2003].

L’idée que nous proposons est d’utiliser des séries proportionnelles sans branchement représentant

chaque classe de verbes selon la vitesse et l’amplitude de variation. Par exemple, le verbegrimper

(respectivementtomber) indique une croissance (respectivement, diminution) beaucoup plus rapide que

monter(respectivement,descendre). On préférera donc choisir le verbegrimperpour générerles prix de

l’essence ont grimpé de 20.3% en octobre 2005alors qu’on utilisera plutôtmonterouaugmenter(verbes

plus neutres) pour générerles prix de l’essence ont augmenté de 7.2% en septembre 2005(cf. figure 8.6).

FIG. 8.6 – Série proportionnelle pour les verbes décrivant une variation

Le schéma associé aux explications d’une variation selon letemps est défini par :

T_Num-Temps3:2 = Lex(Focus) Lex(VerbeVariation, Variation) d’environ

Lex(Val_Ampl) Lex(Unité) entre Lex(DateAncienne) et Lex(DateRécente)

où Variation prend la valeur + dans le cas d’une augmentation dans le tempsou la valeur� dans le cas

d’une diminution etVerbeVariationregroupe l’ensemble des verbes du lexique exprimant une variation

numérique. La fonctionLex(VerbeVariation, Variation)permet donc de choisir un verbe qui va exprimer

156


soit une augmentation soit une diminution (par défaut, ce sont les verbesaugmenteretdiminuerqui sont

utilisés).

Exemple. Soit la questionquelle est la hauteur du Mont-Blanc ?. Les réponses obtenues donnent des

valeurs différentes selon les années. La hauteur varie dansle temps : en l’occurrence, elle augmente.

Le schéma utilisé est donc :

T_Num-Temps3:2 = Lex(Focus) Lex(VerbeVariation, +) d’environ

Lex(Val_Ampl) Lex(Unité) entre Lex(DateAncienne) et Lex(DateRécente) .

Pour cet exemple, on a donc :la hauteur du Mont-Blanc a augmenté d’environ 3 mètres entre1976 et

2005.

Schémas de génération associés à une variation selon plusieurs critères

Comme nous l’avons déjà vu, certaines valeurs numériques peuvent varier en fonction d’une combi-

naison de critères : temps/lieu, lieu/restriction, etc.

Pour chaque combinaison de critères, l’explication est alors une combinaison des différents schémas

associés qui nécessite la mise en oeuvre de mécanismes d’agrégation [Wilkinson, 1995]. Nous présentons

ici chacun des cas.

.Variation selon le temps, le lieu et les restrictions.Nous ne considérons ici que les variations aléatoires

dans le temps. Une observation des schémas associés aux variations selon le temps (aléatoire), le lieu

et les restrictions, permet de constater que toutes les explications ont la même forme (X varie selon un

critère). Cette régularité syntaxique est un avantage dans le cas d’une variation selon plusieurs critères car

elle permet de générer une nouvelle explication en conservant la structure syntaxique et en coordonnant

les différents critères de variation.

Soit CRIT-VAR= ftemps; lieu;Gen_Rest1; :::; Gen_RestNg l’ensemble des critères de variation de

la valeur numérique recherchée. Le critèretemps est utilisé ici pour une variation aléatoire dans le temps

et les critèresGen_Resti sont les différents généralisants des restrictions (une valeur peut varier selon

plusieurs restrictions).

Ainsi, le schéma associé aux explications d’une variation selon plusieurs critères est défini par :

T_Num-Crit 4:1 = Lex(Focus) Lex(Verbe) selon Lex(CRIT-VAR) +.

Le signe + permet de générer une coordination des différentscritères.

Par exemple, ce schéma permet de générer des explications telles que :

– l’âge moyen du mariage varie selon le temps, le lieu et le sexe(temps, lieu, restriction),

157


– l’âge moyen du mariage en France varie selon le temps et le sexe (temps, restriction),

– la température de service des vins varie selon la couleur et le goût(plusieurs restrictions),

– etc.

. Variation selon le temps et le lieu.Nous ne considérons ici que les augmentations ou diminutions

dans le temps (i.e. nous ne considérons pas les variations aléatoires dans le temps). Les schémas associés

aux variations selon le temps et selon le lieu ont des formes syntaxiques différentes : la solution proposée

pour générer l’explication est d’utiliser les deux schémasT_Num-Lieu 1 et T_Num-Temps3:2.Par exemple, les explications générées sont de la forme :Le nombre de chômeurs varie selon le lieu. Il a

augmenté de 50000 entre ... et ....

. Variation selon le temps et une restriction.Nous ne considérons ici que les augmentations ou dimi-

nutions dans le temps ne concernant qu’une seule restriction. Le schéma associé est une adaptation de

T_Num-Temps3:2. Il est défini par :

T_Num-Crit 4:3 = Lex(Focus) Lex(Gen_Rest) Lex(VerbeVariation, Variatio n)

d’environ Lex(Val_Ampl) Lex(Unité) entre Lex(DateAncienne) et

Lex(DateRécente) .

Par exemple, pour la questionquel est l’âge moyen du mariage des femmes ?, ce schéma permet de

générer une explication telle quel’âge moyen du mariage des femmes a augmenté d’environ 4 ans entre

1980 et 2006.

.Variation selon le temps et plusieurs restrictions.Nous considérons ici les augmentations ou diminu-

tions dans le temps concernant plusieurs restrictions. Ce cas est le plus complexe. En effet, plusieurs cas

de figure se présentent.

1. la tendance et l’amplitude de variation sont les mêmes pour toutes les restrictions :

Dans ce cas, il est inutile de générer une explication qui énumère toutes les caractéristiques des

différentes restrictions puisque ces caractéristiques sont identiques. Il est donc possible de les

"factoriser" et le schémaT_Num-Temps3:2 peut être utilisé.

Par exemple, plutôt que de générerl’âge du mariage des hommes et des femmes a augmenté de 4

ans entre 1980 et 2006, le schéma permet de synthétiser ces informations et de générer : l’âge du

mariage a augmenté de 4 ans entre 1980 et 2006.

2. les restrictions ont la même tendance de variation mais une amplitude différente :

158

8.3. Synthèse

Dans ce cas, seule la tendance de variation peut être "factorisée". Le schéma associé est défini par :

T_Num-Crit 4:5 = Lex(Focus) Lex(VerbeVariation, Variation)�d’environ Lex(Val_Ampl) Lex(Unité) Lex(Gen_Rest)

�+entre Lex(DateAncienne) et Lex(DateRécente) .

Par exemple, le schéma permet de générer l’explication suivante :l’âge du mariage a augmenté

d’environ 4 ans pour les femmes et d’environ 5 ans pour les hommes entre 1990 et 2005.

3. les restrictions ont des tendances de variation différentes :

Dans ce cas, aucune information ne peut être "factorisée" : il faut énumérer les caractéristiques

de chaque restriction. L’explication est générée grâce à une coordination de plusieurs schémas du

typeT_Num-Crit 4:2.Par exemple, on peut générer l’explicationl’âge du mariage des femmes a diminué d’1 an et l’âge

du mariage des hommes a augmenté de 3 ans....

8.3 Synthèse

Les tableaux 8.1, 8.2 et 8.3 présentent les différents schémas de génération que nous avons définis

pour la génération des explications.

159

Chapitre

8.

Généra

tion

des

explica

tions

Explications numériques

Conditions d’application Schémas de génération Exemples

Variation T_Num-Lieu1 :selon le lieu Q : Quelle température fait-il en France en hiver ?

Lex(Focus) Lex(Verbe)selon le lieu La température en hiver varieselon le lieu.

le généralisantest : T_Num-Rest2.1 :

Q : Quel est le poids d’une paire de lunettes ?

une propriété Lex(Focus) Lex(Verbe)selon Lex(GenPropBase(Restriction)) Le poids d’une paire de lunettes varieselonla matière.

de base

Variation T_Num-Rest2.2 :selon les le concept père Q : Quelle est la température de service des vins ?

restrictions dans l’ontologie Lex(Focus) Lex(Verbe)selon le type deLex(Père(Restriction)) La température de service des vins varieselon le type devin.

T_Num-Rest2.3 :une propriété

dans l’ontologie Lex(Focus) Lex(Verbe)selon Lex(TypeProp(Restriction)) La température de service des vins varieselonla couleur.

TAB . 8.1 – Schémas de génération pour les explications des réponses numériques (1/3)

160

8.3

.S

ynth

èse



T_Num-Temps3.1 :variation Q : Combien y a-t-il de chômeurs en France ?

aléatoire Lex(Focus) Lex(Verbe)dans le temps Le nombre de chômeurs en France variedans le temps.

T_Num-Temps3.2 :Variation Q : Quelle est la hauteur du Mont-Blanc ?

selon le augmentation Lex(Focus) Lex(VerbeVariation, +)d’environ Lex(Val_Ampl) La hauteur du Mont-Blanc a augmentéd’environ

temps Lex(Unité) entre Lex(DateAncienne)et Lex(DateRécente) 3 mètresentre1976et 2005.

T_Num-Temps3.2 :Q : Combien y a-t-il de chômeurs en France en 2006 ?

diminution Lex(Focus) Lex(VerbeVariation,�) d’environ Lex(Val_Ampl) Le nombre de chômeurs a diminuéd’environ

Lex(Unité) entre Lex(DateAncienne)et Lex(DateRécente) 150000entre2005et 2006.

Variation aléatoire T_Num-Crit 4.1 :selon le temps, Q : Quel est l’âge moyen du mariage en France ?

et/ou le lieu, Lex(Focus) Lex(Verbe)selon Lex(CRIT-VAR)+ L’âge moyen du mariage en France varieselonle temps et le sexe.

et/ou les restrictions

Variation non aléatoire T_Num-Crit 4.2 : Q : Combien y a-t-il de chômeurs ?

selon le temps Le nombre de chômeurs varieselonle lieu.

et le lieu T_Num-Lieu1. T_Num-Temps3.2 Il a augmentéd’environ50000entrejuin et juillet 2005.

TAB . 8.2 – Schémas de génération pour les explications des réponses numériques (2/3)161

Chapitre

8.

Généra

tion

des

explica

tions



Variation non aléatoire T_Num-Crit 4.3 :selon le temps Q : Quel est l’âge moyen du mariage des femmes en France ?

et une restriction Lex(Focus) Lex(Gen_Rest) Lex(VerbeVariation, Variation) L’âge moyen du mariage des femmes a augmenté

d’environ Lex(Val_Ampl) Lex(Unité) d’environ4 ansentre1980et2006.

entre Lex(DateAncienne)et Lex(DateRécente)

même tendance T_Num-Crit 4.4 : Q : Quel est l’âge moyen du mariage en France ?

même amplitude L’âge moyen du mariage en France a augmenté

de variation T_Num-Temps3.2 d’environ4 ansentre1980et2006.

Variation non même tendance, T_Num-Crit 4.5 : Q : Quel est l’âge moyen du mariage en France ?

aléatoire amplitudes L’âge moyen du mariage en France a augmenté

selon le temps différentes Lex(Focus) Lex(VerbeVariation, Variation)

�d’environ d’environ4 ans pour les femmes etd’environ

et plusieurs Lex(Val_Ampl) Lex(Unité) Lex(Gen_Rest)�+

entre 5 ans pour les hommesentre1980et2006.

restrictions Lex(DateAncienne)et Lex(DateRécente)

tendances T_Num-Crit 4.6 : Q : Quel est l’âge moyen du mariage ?

de variation L’âge moyen du mariage des femmes a diminué

différentes (T_Num-Crit4.2)+ d’environ1 an et l’âge moyen du mariage

des hommes a augmentéd’environ4 ans...

TAB . 8.3 – Schémas de génération pour les explications des réponses numériques (3/3)

162

Chapitre 9

Génération de la réponse directe

Nous nous intéressons dans ce chapitre à la génération de la réponse directe. Pour pouvoir produire

une réponse qui soit la plus coopérative possible, plusieurs problèmes se posent :

1. dans un premier temps, il faut identifier les besoins de l’utilisateur :

– au niveau de la question : à partir de la question posée, que peut-on conclure des attentes de

l’utilisateur ?,

– au niveau de la réponse directe : quelles informations le système doit-il donner et sous quelle

forme ?,

2. puis, il faut résoudre les éventuels problèmes d’inconsistance de données : les données sont-elles

fortement inconsistantes (données erronées) ou faiblement inconsistantes (données approxima-

tives, arrondies) ? Comment choisir une réponse parmi un ensemble de données ?

Cette première phase constitue la détermination de contenupuis les réponses directes doivent être géné-

rées en langue naturelle. Nous décrivons chacune de ces étapes dans les sections suivantes.


Nous nous intéressons dans cette section à la déterminationde contenu. Cette phase doit identifier les

attentes de l’utilisateur ainsi que les informations à faire figurer dans la réponse directe tout en traitant le

problème des éventuelles inconsistances de données.

Nous commençons donc par présenter comment les besoins de l’utilisateur sont identifiés à partir de

l’analyse de la question, puis comment les inconsistances sont gérées pour élaborer la réponse directe.

9.1.1 Attentes de l’utilisateur : contraintes imposées parla question

La génération de la réponse directe est principalement guidée par les attentes de l’utilisateur. En

effet, pour être coopérative, la réponse ne doit présenter àl’utilisateur que les informations demandées

163

Chapitre 9. Génération de la réponse directe

ou nécessaires pour ne pas être trop informatif ou provoquerdes malentendus.

Comme nous nous plaçons dans le cadre d’un système sans modèle utilisateur, les attentes sont essen-

tiellement exprimées dans la question, et ceci sous plusieurs formes : force illocutoire, contraintes pour

restreindre un domaine trop grand, etc. C’est à ce dernier cas que nous nous intéressons plus particu-

lièrement (des éléments indiquant la force illocutoire étant peu présents dans les questions factuelles et

difficiles à interpréter automatiquement).

Dans notre cadre, les contraintes de la question peuvent porter sur les trois critères de variation

possibles, à savoir le temps, le lieu ou les restrictions.

Nous définissons doncC comme étant l’ensemble des contraintes de la question :C = fCt; Cl; Crg où :

- Ct est la contrainte de temps (Ct 2 fexpression_temporelle; ";"g),- Cl est la contrainte de lieu (Cl 2 fexpression_lieu; ";"g),- Cr est la contrainte sur les restrictions (Cr 2 fexpression_restri tion; ";"g).Pour une question donnée, chaque contrainte ne peut avoir qu’une valeur possible.

Les contraintes de la question peuvent prendre plusieurs formes :

– descontraintes explicites: elles sont principalement exprimées grâce à des modifieurs. On sup-

pose que ces contraintes sont fournies par l’analyseur de question.

Par exemple, dans la questioncombien y a-t-il d’habitants en France en 2006 ?, des contraintes

explicites portent sur le lieu (en France) et le temps (en 2006). Pour cet exemple, l’analyseur de

question doit donner :C = f Ct = 2006; Cl = France,Cr = ";" g.En revanche, dans la questioncombien y a-t-il d’habitants en France ?, il n’y a pas de contrainte

de temps. L’analyseur de question doit donc donner :C = fCt = ";"; Cl = France,Cr = ";" g.Il peut aussi n’y avoir aucune contrainte imposée par la question : par exemple,quelle est la

température du Soleil ?. Ici, l’analyseur de question doit donner :C = f Ct = ";"; Cl = ";",Cr = ";" g.– descontraintes implicites : même lorsque l’utilisateur n’a pas imposé de contrainte dans sa

question, il existe quand même parfois des contraintes implicites. Par exemple, si un utilisateur

demandecombien y a-t-il d’habitants en France ?, il est raisonnable de penser qu’il cherche à

connaître le nombre d’habitants pour l’année en cours : c’est ce que nous appelons une contrainte

164


implicite.

Plusieurs cas se présentent alors :

– s’il n’y a pas de contrainte de temps explicite dans la question et si l’analyse des caractéristiques

de la valeur numérique a conclu à une variation dans le temps,alors on suppose que l’utilisateur

souhaite avoir l’information pour la date courante si des données existent pour cette date, ou par

défaut l’information la plus récente donc :Ct = maxri2R( f(Date; ri) ),– s’il n’y a pas de contrainte de lieu explicite dans la question et si l’analyse des caractéristiques

de la valeur numérique a conclu à une variation selon le lieu,alors on suppose que l’utilisateur

souhaite avoir l’information pour le lieu le plus proche de lui. Un modèle utilisateur pourrait,

par exemple, fournir au système l’information sur le lieu leplus proche de l’utilisateur. Comme

nous ne disposons pas d’un tel modèle, nous avons choisi par défaut le lieuCl = France,

– s’il n’y a pas de contrainte de restriction explicite dans la question et si l’analyse des caracté-

ristiques de la valeur numérique a conclu à une variation selon les restrictions, alors il n’y a

pas de raison de penser que l’utilisateur recherche une valeur pour une restriction en particulier

(sinon il l’aurait précisée dans sa question). On suppose donc que l’utilisateur souhaite avoir

l’information pour toutes les restrictions trouvées. On maintient doncCr = ";" et, dans ce cas,

n’importe quelle expression de restriction satisfera cette contrainte.

Pour l’exemple de la figure 9.1, à la questionquel est l’âge moyen du mariage en France ?, l’ana-

lyseur de question donne les contraintes explicites suivantes :C = f Ct = ";"; Cl = France,Cr = ";" g.L’analyse des données pour cette question montre qu’il y a une variation de l’âge du mariage selon

le temps et les restrictions (hommes/femmes). Il y a donc descontraintes implicites sur le temps (il

vaut mieux donner l’information pour la date la plus récente) et les restrictions. Le nouvel ensemble de

contraintes (explicites et implicites) est donc :C = f Ct = 2000; Cl = France,Cr = ";" g.9.1.2 Réponses candidates satisfaisant les contraintes

Une fois les attentes de l’utilisateur identifiées grâce auxcontraintes de la question, il faut rechercher

parmi l’ensemble des réponses candidates extraites cellesqui satisfont ces contraintes.

Nous choisissons donc comme réponse directe potentielle laou les valeurs numériques qui satisfont

l’ensemble de contraintesC.

165


FIG. 9.1 – Exemple d’extraction :Quel est l’âge moyen du mariage en France ?

L’ensembleRC de frames (représentant les réponses extraites) qui satisfont, par égalité, l’ensemble

de contraintesC est défini par :RC = f ri 2 R; tel quef(Date; ri) = Ct^ f(Lieu; ri) = Cl^ f(Restri tion; ri) = ( Cr si Cr 6= ";"expression_restri tion si Cr = ";"}

166


Ainsi, pour qu’une frameri satisfasse l’ensemble de contraintesC, il faut que la date et le lieu indiqués

dansri coïncident avec les contraintes de tempsCt et de lieuCl.Pour le cas des restrictions :

– si une contrainte est imposée dans la question (i.e.Cr 6= ";"), alors il faut que la restriction

indiquée dansri coïncide avecCr,– si aucune contrainte n’est imposée dans la question (i.e.Cr = ";"), alors n’importe quelle expres-

sion de restriction extraite des pages Web satisfaitCr (cf. section 4.7.1.1).

Pour l’exemple de la figure 9.1, l’ensemble de contraintes est : C = f Ct = 2000; Cl = France,Cr = ";" g. L’ensemble des frames satisfaisantC est donc :RC = fr1; r2; r3; r4g.9.1.3 Choix des restrictions à générer dans la réponse directe

Nous disposons maintenant de l’ensembleRC des réponses directes potentielles à partir desquelles

il faut générer une ou plusieurs réponses. En effet, comme expliqué précédemment, plusieurs réponses

sont générées dans le cas particulier où la valeur recherchée varie selon les restrictions et que la question

de l’utilisateur n’impose pas de contrainte sur ces restrictions (Cr = ";"). La réponse directe est donc

une énumération des différentes valeurs numériques associées à chaque restriction trouvée.

Pour cela, il faut définir des sous-ensembles deRC qui vont regrouper les frames ayant les mêmes

restrictions : une réponse sera ainsi générée pour chaque sous-ensemble (i.e. pour chaque restriction)

jugé pertinent.

Nous définissons donc l’ensembleR qui regroupe les partitions de frames satisfaisant les contraintes

et ayant les mêmes restrictions :R = fRC1; :::; RCMg.On définit la relation d’équivalencea_même_restrictiontelle que :

a_même_restriction(ri ; rj) signifie quef(Restri tion; ri) = f(Restri tion; rj).Les partitionsRCi correspondent donc aux classes d’équivalence définies par :RCi = frj 2 RC; tel que8 rj ; rk 2 RC; a_même_restriction(rj ; rk)g.

Ainsi, pour l’exemple de la figure 9.1, nous avons :R = fRC1; RC2g avec :RC1 = fr1; r3g (sous-ensemble de frames pour la restrictionfemme) et,RC2 = fr2; r4g (sous-ensemble de frames pour la restrictionhomme).

Parmi ces partitions de frames ayant les mêmes restrictions, certaines sont plus pertinentes que

d’autres à générer du point de vue de l’utilisateur. Ainsi, nous considérons que les partitions les plus

pertinentes pour l’utilisateur en termes de restriction sont par ordre de préférence :

167


1. celles qui décrivent directement le focus de la question (pas de restriction ou même restriction que

celle de la question),

2. celles qui décrivent des propriétés du focus (propriétésde base ou ontologiques),

3. celles qui décrivent les fils les plus proches du focus (en termes de distance) dans l’ontologie.

Ainsi, nous avons l’algorithme suivant :

si cas (1) : il n’y a pas de restriction sur le focus dans le sous-ensembleRCi considéré ou la restric-

tion est la même que celle de la question (Cr) i.e. :9 RCi � R; 8rep 2 RCi; f(Restri tion; rep) = ";" _ 8rep 2 RCi; f(Restri tion; rep) = Cralors

réponse = génère_réponse(RCi)sinon

si cas (2) : la restriction du sous-ensembleRCi considéré est une propriété définie dans

l’ensemble des propriétés de base ou dans l’ontologie du concept i.e. :

soientPropbase l’ensemble des propriétés de base (couleur, matière, ...) et Proponto l’ensemble

des propriétés du focus définies dans une ontologie (si elle existe),9 RCi � R; 8rep 2 RCi; f(Restri tion; rep) 2 Propbase_ 8rep 2 RCi; f(Restri tion; rep) 2 Propontoalors

réponse = génère_réponse(RCi)sinon

si cas (3) : la restriction du sous-ensembleRCi considéré est un fils du focus proche

dans l’ontologie utiliséei.e. :

soitproxonto(C1; C2) le nombre d’arcs entre deux concepts d’une ontologie,9 RCi � R; 8rep 2 RCi; proxonto(f(Restri tion; rep); F o us) � Seuilalors

réponse = génère_réponse(RCi)La fonctiongénère_réponsepermet de choisir un template de génération en fonction de conditions

d’application : nous la présentons plus tard. Le paramètreSeuil permet de fixer un seuil pour la notion

de proximité afin d’éviter de générer des réponses non pertinentes. En pratique, nous avons fixé ce seuil

à 1 car nous considérons que seuls les fils directs du focus sont pertinents vis-à-vis de la question de

l’utilisateur. Nous donnons ici des exemples d’application de l’algorithme.

168


Exemple 1 : la restriction coïncide avec celle de la question(cas 1). La figure 9.2 montre les

partitions de frames satisfaisant les contraintes de la question combien y a-t-il d’habitants en France ?.

Pour la partitionRC1, il n’y a pas de restriction (cas 1) alors queRC2 etRC3 portent respectivement

sur les restrictionsmétropoleet outre-merqui sont des parties du conceptFrance (cas 3). Le cas 1

étant prioritaire, c’estRC1 qui est choisi pour générer la réponse directe (ici, la réponse estle nombre

d’habitants en France en 2006 est de 63000000).

FIG. 9.2 – Pertinence des restrictions :Combien y a-t-il d’habitants en France ?

Exemple 2 : la restriction est une propriété du focus (cas 2). La figure 9.3 montre les partitions

de frames satisfaisant les contraintes de la questionQuelle est la température de service des vins ?. Les

partitionsRC1 etRC2 portent respectivement sur les restrictionsrougeet roséqui sont des propriétés

du conceptvin (cas 2) alors que la restrictionChampagneest un type de vin (cas 3). Le cas 2 étant

prioritaire, ce sontRC1 etRC2 qui sont choisis pour générer la réponse directe.

FIG. 9.3 – Pertinence des restrictions :Quelle est la température de service des vins ?

Exemple 3 : la restriction est un fils du focus (cas 3). La figure 9.4 montre les partitions de frames

satisfaisant les contraintes de la questioncombien y a-t-il d’habitants en France ?. Les partitionsRC1,RC2 etRC3 portent sur des restrictions qui sont des parties du conceptFrance. Les restrictionsmétropole

etoutre-merétant des concepts directement liés au conceptFrance, ce sontRC2 etRC3 qui sont choisis

169


pour générer la réponse directe. La restrictionToulousedépasse le seuil de proximité car le nombre d’arcs

entreFranceetToulousedans l’ontologie est supérieur à 1.

FIG. 9.4 – Pertinence des restrictions :Combien y a-t-il d’habitants en France ?

Dans les trois exemples précédents, chaque partitionRCi ne contient qu’une seule frame donc il n’y

a pas d’inconsistance de données à l’intérieur d’une partition. Voyons maintenant les problèmes qui se

posent lorsqu’il y a plusieurs frames/réponses possibles dans une partition.

9.1.4 Choix de la valeur numérique à générer dans la réponse directe

Chaque partitionRCi peut contenir une ou plusieurs frames, donc une ou plusieursvaleurs numé-

riques, car :

– des valeurs peuvent être desvaleurs aberrantes: elles sont éliminées par des méthodes statis-

tiques classiques, en éliminant les valeurs qui s’éloignent de l’écart-type [Fourastié et al, 1987].

Appliquer cette méthode sur les sous-ensemblesRCi de mêmes restrictions permet d’éliminer

seulement les valeurs qui sont aberrantes pour une restriction donnée,

– des valeurs peuvent être égales ou différentes à certains degrés : c’est le cas par exemple des

valeurs approximativesou arrondies.

Problème. Nous développons ici le deuxième cas, plus complexe. Il existe différents opérateurs utilisés

en logique pour la fusion de données : la conjonction, la disjonction, des opérateurs qui ignorent ou qui

renforcent les informations redondantes, etc. (une synthèse est présentée dans [Kaci, 2002]). Cependant,

ces opérateurs risquent de produire une réponse non coopérative. En effet, proposer à l’utilisateur la

conjonction ou la disjonction des valeurs ne permet pas de donner une réponse cohérente et peut induire

en erreur.

En ce qui concerne les opérateurs statistiques, ils ne sont pas réellement satisfaisants. Par exemple,

proposer la moyenne des valeurs serait une réponse "artificielle" puisque calculée et non directement

issue d’une page Web. De même, la médiane (valeur se trouvantau milieu de la liste ordonnée des

valeurs) ou le mode (la valeur la plus fréquente) ne tiennentcompte que de la distribution des données

170


mais pas de la "qualité" des valeurs numériques en elles-mêmes. En d’autres termes, ces opérateurs ne

permettent pas de traiter correctement les phénomènes d’approximation ou d’arrondi.

Par exemple, supposons qu’à la questionquelle est la hauteur du Mont-Blanc ?, on ait comme réponses

candidates les valeurs suivantes en mètres :4800; 4807; 4807; 4807; 4809; 4810; 4810; 4813; 4813:La moyenne vaut ici4808; 44 qui ne correspond à aucune des valeurs extraites : ceci peut donc induire

l’utilisateur en erreur.

Le mode vaut4807 et la médiane4809 : ces valeurs ne sont pas non plus réellement représentatives de

l’ensemble des valeurs. En effet, en observant les valeurs,on peut remarquer par exemple que4800 est

un arrondi inférieur de toutes les autres valeurs ou que4810 est un arrondi inférieur de4813 et supérieur

de toutes les autres valeurs.

Le problème que nous devons donc traiter est de choisir une valeur parmi l’ensemble des valeurs

possibles tout en prenant en compte la qualité des valeurs numériques i.e. en traitant les phénomènes

d’approximation et d’arrondi.

Étude expérimentale. Afin de définir une méthode pour choisir une valeur parmi un ensemble, nous

avons tout d’abord voulu étudier les réactions d’utilisateurs face à ce problème. Pour cela, nous avons

proposé le protocole dont un extrait est représenté sur la figure 9.5 à 16 utilisateurs d’âge et de niveau

d’étude différents. Ces utilisateurs ne sont pas tous familiers avec la recherche d’informations sur le Web.

Nous leur avons demandé, pour chaque question, de choisir lavaleur numérique qu’ils préfèreraient

avoir comme réponse et d’expliquer les différences entre les valeurs proposées.

Dans tous les cas, les utilisateurs ont correctement perçu que certaines réponses proposées étaient

des arrondis plus ou moins fins des autres valeurs.

– À la première question, les utilisateurs avaient le choix entre une valeur précise et une valeur

arrondie proche : 93% d’entre eux ont choisi la valeur arrondie.

– À la deuxième question, les utilisateurs avaient le choix entre trois valeurs arrondies à différents

degrés : 62% d’entre eux ont choisi la valeur qui, selon eux, leur semblait être la plus proche de la

réalité.

– À la troisième question, les utilisateurs avaient le choixentre une valeur précise et deux valeurs

arrondies à différents degrés : 50% d’entre eux ont choisi lavaleur arrondie la plus proche de la

valeur précise contre 25% pour chacune des autres valeurs.

171


FIG. 9.5 – Les arrondis vus par les utilisateurs

Les utilisateurs ont justifié leurs choix par les explications suivantes :

– une réponse arrondie est suffisante lorsqu’il s’agit d’unerequête grand public,

– une réponse arrondie est plus facile à mémoriser,

– les arrondis ne doivent pas être trop "grossiers" : quand les utilisateurs ont le choix entre plusieurs

valeurs arrondies, ils choisissent l’arrondi le plus fin.

Notre objectif est donc de formaliser le comportement des utilisateurs pour permettre de choisir une

valeur parmi un ensemble de données. Il faut proposer une méthode qui permette dans un premier temps

de formaliser les relations d’arrondi puis de choisir une valeur qui sera générée dans la réponse directe.

172


Solution proposée. Afin de représenter les relations d’arrondi qui peuvent exister entre les valeurs,

nous avons choisi de représenter les différentes valeurs candidates à la réponse directe sous forme d’un

graphe orienté et pondéré. Le but est ensuite de choisir la valeur qui minimise tous les effets d’arrondis

(choix de l’arrondi le plus "fin").

Le grapheG (S ; A ) des valeurs est défini par :

– un ensembleS de sommets représentant les différentes valeurs numériques candidates. Chaque

sommetx est associé à un poidspoids(x) correspondant au nombre d’occurrences de la valeurxdans l’ensemble des données extraites,

– un ensembleA d’arcs orientés et pondérés. Un arc relie une valeurx à une valeury si y est un

arrondi dex. Pour cela, nous considérons que si l’on compare deux valeurs proches, celle qui

a le moins de chiffres significatifs est probablement un arrondi de l’autre. Par exemple, si l’on

compare4809 et 4810, on considère que4810 (qui a 3 chiffres significatifs) est probablement un

arrondi de 4809 (qui a 4 chiffres significatifs) : un arc peut donc relier4809 à la valeur4810.

Nous rappelons que les valeurs comparées ici sont relativement proches puisqu’elles concernent

une même restriction et que les valeurs aberrantes ont été éliminées. Nous avons donc :9a = (x; y) 2 A ; nb_ hifsignif(x) > nb_ hifsignif(y) oùnb_ hifsignif(x) = ( nb_ hiffres(x) si x ne termine pas par 0nb_ hiffres(x)� nb_zero_final(x) sinonAinsi, la construction du graphe est impossible si toutes les valeurs ont le même nombre de chiffres

significatifs.

La valuation (x; y) d’un arc(x; y) est pondérée par :

– le coût entre les deux valeurs reliées (jx�yjy ),

– le poids dex (nous considérons qu’une réponse fréquente (poids fort) est plus probable).

Ainsi, la valuation (x; y) de l’arc(x; y) vaut : (x; y) = jx� yjy � poids(x)La figure 9.6 montre un exemple de calcul des valuations.

Intuitivement, la valuation (x; y) représente l’"effort" qu’il faut fournir pour aller d’une valeurx vers la valeury. Ainsi, plus la valuation d’un arc est élevée, plus la "distance" entre les deux

valeurs est grande et plus l’arrondiy est grossier.

173


FIG. 9.6 – Valuation des arcs d’un graphe

La valeur à choisir pour la réponse directe doit minimiser les effets d’arrondis avec l’ensemble des

autres valeurs. Pour cela, nous calculons pour chaque valeur la différence entre le coût nécessaire pour

quitter cette valeur et le coût nécessaire pour l’atteindre. La valeur qui est ensuite choisie pour la réponse

directe est celle qui maximise cette différence (notéecoût(x)) :

réponse_directe= argmaxs2S ( coût_sortie(s) � coût_entrée(s))avec coût_sortie(x) =Pi (x; xi) et coût_entrée(x) =Pi (xi; x).

Intuitivement, la valeur qui est choisie est telle qu’il faut fournir un "effort" beaucoup plus grand

pour en sortir (i.e. pour aller vers d’autres arrondis plus coûteux donc plus grossiers) que pour y entrer :

elle correspond donc à l’arrondi le plus fin de toutes les autres valeurs.

Considérons un exemple. Supposons qu’à la questionquelle est la hauteur du Mont-Blanc ?, les va-

leurs suivantes sont candidates à une réponse directe : 4800, 4807 (2 occurrences), 4808 (2 occurrences),

4808.75, 4810 (8 occurrences) et 4813. La figure 9.7 montre legraphe des valeurs : ici la valeur choisie

est 4810.

S’il n’est pas possible de construire un graphe des valeurs,alors le système propose comme réponse

l’intervalle des valeurs. Par exemple, supposons qu’à la réponsequelle est la hauteur de la Tour Eiffel ?,

on ait les réponses suivantes : 315, 316 et 318. Ici, les troisréponses possibles ont le même nombre de

chiffres significatifs : il n’est donc pas possible de les relier dans un graphe. Dans ce cas, la réponse

directe proposée est l’intervalleentre 315 et 318.

174

9.2. Réponse directe en langue naturelle

FIG. 9.7 – Graphe des valeurs : hauteur du Mont-Blanc

9.2 Réponse directe en langue naturelle

Connaissant la(les) valeur(s) numériques associées à chaque restriction jugée pertinente, le but est

maintenant de générer les réponses directes en langue naturelle.

Comme déjà présenté pour la génération des explications, unschéma de générationt est une instan-

tiation d’un modèle de schémaT et est une séquence finie d’élémentsei tels que8i 2 [1; :::; n℄; ei 2(P [ C [ F ) et 9j; k 2 [1; :::; n℄; ej 2 C; ek 2 F .

Présentons à présent les principaux schémas que nous avons définis pour la génération des réponses

directes. Nous rappelons ci-dessous les conventions de notation :





etc.).

Nous avons défini 6 schémas qui permettent de générer les réponses directes numériques et qui

peuvent se combiner pour générer des réponses plus complexes. Nous présentons ici les conditions

d’application des schémas.

Soit réponse_directela valeur choisie grâce au graphe des valeurs ou la seule valeur candidate (cas où il

n’y a qu’une seule valeur dans le graphe).

175


Il n’y a qu’une seule valeur dans le graphe

- Quand il n’y a aucune restriction à générer, le schéma associé est défini par :

T_Rep-dir 1:1 = Lex(C t) Lex(C l), Lex(Focus) Lex(Verbe)

Lex(réponse_directe) Lex(Unité) .

Notons queCt etCl ne sont pas générés siCt = ";" ouCl = ";".

Par exemple, à la questionquel est l’âge moyen du mariage en France ?oùCt = 2006 etCl = Fran e,on a la réponse suivante :En 2006 en France, l’âge moyen du mariage est 30 ans.

- Quand il y a une valeur associée à chaque restriction à générer, le schéma associé est défini par :

T_Rep-dir 1:2 = Lex(C t) Lex(C l), Lex(Focus) Lex(Verbe)�Lex(réponse_directe) Lex(Unité) Lex(Restriction)

�+.

Par exemple, on a la réponse suivante :En 2006 en France, l’âge moyen du mariage est 30,6 ans pour

les hommes et 28,5 ans pour les femmes.

Le graphe a permis de choisir une valeur

Ici, la valeur choisie dans le graphe est une valeur arrondie: ceci est lexicalisé dans la réponse par

environ.

- Quand il n’y a aucune restriction à générer, le schéma associé est défini par :

T_Rep-dir 2:1 = Lex(C t) Lex(C l), Lex(Focus) Lex(Verbe) environ

Lex(réponse_directe) Lex(Unité) .

Par exemple, on a la réponse suivante :En 2005, la hauteur du Mont-Blanc est environ 4810 mètres.

- Quand il y a une valeur associée à chaque restriction à générer, le schéma associé est défini par :

T_Rep-dir 2:2 = Lex(C t) Lex(C l), Lex(Focus) Lex(Verbe)�environ Lex(réponse_directe) Lex(Unité) Lex(Restriction)

�+.

Par exemple, on a la réponse suivante :En 2006 en France, l’âge moyen du mariage est environ 30 ans

pour les hommes et environ 28 ans pour les femmes.

176

9.2. Réponse directe en langue naturelle

La construction du graphe est impossible

Dans ce cas, plusieurs valeurs sont possibles pour la réponse directe. Nous avons choisi de proposer

à l’utilisateur un intervalle.

- Quand il n’y a aucune restriction à générer, le template associé est défini par :

T_Rep-dir 3:1 = Lex(C t) Lex(C l), Lex(Focus) Lex(Verbe) entre

Lex(Val_min) et Lex(Val_max) Lex(Unité) .

oùVal_minetVal_maxsont respectivement les valeurs candidates minimale et maximale.

Par exemple, on a la réponse suivante :En 2005, la Tour Eiffel mesure entre 315 et 318 mètres.

- Quand il y a une valeur associée à chaque restriction à générer, le template associé est défini par :

T_Rep-dir 3:2 = Lex(C t) Lex(C l), Lex(Focus) Lex(Verbe)�entre Lex(Val_min) et Lex(Val_max) Lex(Unité) Lex(Restriction)

�+.

Par exemple, on a la réponse suivante :L’âge moyen du mariage est entre 27 et 29 ans pour les hommes

et entre 24 et 28 ans pour les femmes.

Dans le cas où il y a plusieurs restrictions à générer et que chaque restriction se trouve dans un des

cas précédents, des combinaisons de schémas sont possiblespour éviter de générer une énumération

de schémas ayant la même structure. Par exemple, on peut avoir la réponse suivante :la température de

service du vin est d’environ 18ÆC pour les vins rouges et entre 7 et 9ÆC pour les vins blancs. Cette réponse

est obtenue à partir d’une combinaison deT_Rep-dir 2:2 et T_Rep-dir 3:2 grâce à des mécanismes

d’agrégation.

177


9.3 Justification de la réponse

Notre méthode permet de produire une réponse coopérative composée de deux parties :

– une réponse directe à la question,

– une explication sur la variation éventuelle de la valeur numérique recherchée (cf. chapitre 8).

Cependant, il se peut que la réponse proposée ne soit pas trèssûre en raison d’un trop grand ou trop

petit nombre de valeurs candidates à la réponse directe. De même, il peut être parfois difficile de générer

une réponse synthétique surtout lorsqu’il y a beaucoup de restrictions sur le focus, et donc beaucoup

de cas différents à énumérer. Dans tous ces cas, il peut être nécessaire d’apporter des informations

complémentaires à l’utilisateur pour justifier ou compléter la réponse que le système propose.

Une perspective possible est l’ajout à notre système d’un composant de savoir-faire coopératif qui

mesure la complexité de la réponse et le besoin en explications supplémentaires. Ce composant per-

mettrait, chaque fois que nécessaire, de sélectionner une page ou un extrait de page Web pertinent à

proposer à l’utilisateur ou d’ajouter, dans les schémas, des hyperliens menant vers ces justifications

[Dale et al, 1998]. Ces extraits doivent bien sûr contenir des informations sur les différentes valeurs

numériques recherchées mais aussi des informations additionnelles, par exemple des explications sur

les causes de variation.

Plusieurs indices peuvent être utilisés pour sélectionnerdes extraits de page :

– nombre de valeurs numériques concernant le focus de la question dans la page,

– présence de marqueurs introduisant des causes ou des conséquences, des arguments (à cause de,

dû à, impliquer,etc.),

– informations plus récentes que celles données par le système,

– des indices de variation (verbes, etc.), etc.

Ainsi, pour la questionquelle est la hauteur du Mont-Blanc ?, la réponse générée est :La hauteur

du Mont-Blanc est d’environ 4810 mètres. Elle varie dans le temps. Comme il y a beaucoup de valeurs

différentes candidates à la réponse directe et que la valeurchoisie est une valeur arrondie, il peut être utile

d’ajouter des explications. L’extrait de la figure 9.8 peut être proposé à l’utilisateur. Cet extrait contient :

– de nombreuses valeurs numériques datées concernant le focus de la question (4810,40 mètres en

2002, 4808,75 mètres en 2005, ...),

– des marqueurs de cause et d’argumentation (résulter de, effectivement, dû aux, ...),

– des indices de variation (diminution, décalage, ...).

178

9.4. Synthèse

FIG. 9.8 – Extrait de page Web : hauteur du Mont-Blanc

9.4 Synthèse

Les figures 9.9 et 9.10 montrent un exemple complet, de l’extraction des données à leur analyse puis

de la génération de la réponse.

Les tableaux 9.1 et 9.2 récapitulent les différents schémasde génération que nous avons définis pour

la génération des réponses directes.

179


FIG. 9.9 – Traitement complet d’un exemple :Quel est l’âge moyen du mariage en France ?

180

9.4. Synthèse

FIG. 9.10 – Traitement complet d’un exemple :Quel est l’âge moyen du mariage en France ?

181

Chapitre

9.

Généra

tion

de

laré

ponse

dire

cte

Réponses directes


T_Rep-dir1.1 :Q : Quel est l’âge moyen du mariage en France ?

Lex(Ct) Lex(Cl), Lex(Focus) Lex(Verbe) En 2006 en France, l’âge moyen du mariage est 30 ans.

Lex(réponse_directe) Lex(Unité)Une seule valeurdans le graphe T_Rep-dir1.2 :

Q : Quel est l’âge moyen du mariage en France ?

Lex(Ct) Lex(Cl), Lex(Focus) Lex(Verbe) En 2006 en France, l’âge moyen du mariage est 30,6 ans�

Lex(réponse_directe) Lex(Unité) Lex(Gen_Rest)

�+pour les hommes et 28,5 ans pour les femmes.

T_Rep-dir2.1 :Q : Quelle est la hauteur du Mont-Blanc ?

Plusieurs valeurs Lex(Ct) Lex(Cl), Lex(Focus) Lex(Verbe) La hauteur du Mont-Blanc estenviron4810 mètres.

dans le graphe environ Lex(réponse_directe) Lex(Unité)


Lex(Ct) Lex(Cl), Lex(Focus) Lex(Verbe) En 2006 en France, l’âge moyen du mariage estenviron�

environ Lex(réponse_directe) Lex(Unité) Lex(Gen_Rest)

�+30 ans pour les hommes etenviron28 ans pour les femmes.

TAB . 9.1 – Schémas de génération pour les réponses directes de typenumérique(1/2)

182

9.4

.S

ynth

èse

Réponses directes


T_Rep-dir3.1 :Q : Combien mesure la Tour Eiffel ?

Lex(Ct) Lex(Cl), Lex(Focus) Lex(Verbe) La Tour Eiffel mesureentre315et318 mètres.

Construction du entre Lex(Val_min) et Lex(Val_max) Lex(Unité)graphe impossible


Lex(Ct) Lex(Cl), Lex(Focus) Lex(Verbe) L’âge moyen du mariage estentre27 et29 ans�

entre Lex(Val_min) et Lex(Val_max) Lex(Unité) Lex(Gen_Rest)

�+pour les hommes etentre24 et 28 ans pour les femmes.

TAB . 9.2 – Schémas de génération pour les réponses directes de typenumérique(2/2)

183


184

Chapitre 10

Évaluation pour les réponses de type

numérique

Chaque composant de notre système doit être évalué, à savoirl’extraction des réponses candidates,

la caractérisation des valeurs numériques et la générationdes réponses en langue naturelle. Comme nous

l’avons déjà expliqué au chapitre 5, une évaluation à la TRECest impossible dans notre cadre. Nous

proposons donc dans les sections suivantes des éléments d’évaluation adaptés. Nous commençons ici par

présenter les cas qui posent problème et que notre système nepeut résoudre de façon satisfaisante.

10.1 Quelques problèmes

Certains types de questions numériques ne permettent pas ausystème de générer une réponse entiè-

rement satisfaisante. Considérons l’exemple suivant :

Q : Quel est le nombre de buts marqués par Zidane en équipe de France ?

R : Le nombre de buts marqués par Zidane en équipe de France est 31. Il a augmenté de 20 entre 1998

et 2006.

Dans cet exemple, l’explication générée est certes correcte sur le fond mais loin d’être pertinente. En

effet, l’amplitude de variation donnée ici n’apporte pas d’information vraiment utile. De plus, le nombre

de buts ne peut qu’augmenter !

Le problème de la génération d’explications non pertinentes se pose dans le cas de questions portant

en particulier sur un nombre d’événements. En effet, un nombre d’événements ne peut être que cumu-

latif (le nombre de fois où un événement se produit ne peut pasdiminuer). Des questions portant sur

un nombre d’événements (achats, ventes, morts, etc.) peut donc entraîner la génération d’explications

185

Chapitre 10. Évaluation pour les réponses de type numérique

inutiles pour l’utilisateur.

Dans l’évaluation qui suit, nous n’avons pas considéré ce type de question. Nous proposons quelques

pistes de réflexion dans la conclusion de ce manuscrit. L’ensemble de l’évaluation porte sur 30 questions

de type numérique qui portent sur des poids, tailles (hauteur, longueur, etc.), températures, âges et quan-

tités. Nous rappelons que ces questions sont des questions provenant des sites d’inventaire de requêtes

sur le Web ou portant sur des faits d’actualité grand public.Elles sont données en annexe C.

10.2 Évaluation de l’extraction

Pour évaluer la qualité de l’extraction, nous avons soumis les 30 questions de type numérique à

QRISTAL.

Nous avons ensuite évalué manuellement la pertinence des pages Web (pages entières) sélectionnées par

QRISTAL : une page est jugée pertinente si elle contient une réponse, même fausse, à la question (la

réponse est du type sémantique attendu). Sur l’ensemble des50 pages sélectionnées au maximum par

QRISTAL pour chaque question, on obtient en moyenne 45% de pages pertinentes.

Parmi ces pages jugées pertinentes, nous avons ensuite rempli les frames manuellement et nous avons

comparé les résultats d’une extraction manuelle avec les résultats obtenus par la grammaire d’extraction.

Une frame extraite par la grammaire et provenant d’une pagep est jugée incorrecte si elle diffère d’au

moins un champ par rapport à la frame extraite manuellement et provenant de la même pagep.

La grammaire parvient à extraire correctement les informations dans 67% des cas. Les échecs pro-

viennent en très grande majorité :

– de problèmes de référence, notamment de références temporelles,

– de synonymie (que l’on peut résoudre lors d’une extractionmanuelle mais que notre grammaire

ne traite pas),

– de manque de connaissances spécifiques au domaine, en particulier pour l’extraction des restric-

tions (même si l’ensemble des propriétés définies dans le lexique permet tout de même de couvrir

un grand nombre de cas).

Il existe des approches qui pourraient améliorer les résultats, par exemple en identifiant les entités

nommées, en analysant les textes syntaxiquement [Appelt etal, 1993], sémantiquement [Katz et al, 2003],

en résolvant les problèmes d’anaphore [Lappin et al, 1994] [Vicedo et al, 2000] ou grâce à de l’inférence

temporelle [Harabagiu et al., 2005]. Cependant, comme il existe beaucoup de redondances au sein des

pages Web, les cas d’échecs n’ont pas de conséquences gravessur le mécanisme d’intégration.

186


10.3 Évaluation de la détermination de contenu

L’évaluation de la détermination de contenu consiste à vérifier si le contenu de la réponse générée est

correct. Elle concerne donc les deux parties de la réponse : la réponse directe et les explications.

10.3.1 Évaluation des réponses directes

L’évaluation de la détermination de contenu pour les réponses directes consiste à évaluer si les valeurs

numériques proposées (avec les éventuelles restrictions)sont correctes.

Méthode. Comme pour l’évaluation du chapitre 5, nous avons comparé notre approche :

– au moteur de recherche Google : à savoir, quel est le rang du lien contenant la réponse correcte à

la question ?, existe-il des réponses incorrectes données avant la réponse correcte ?

– au système QRISTAL : la réponse proposée par QRISTAL (i.e. la réponse candidate la mieux

classée) est-elle correcte ?,

– à un comptage de fréquence : la réponse la plus fréquemment donnée par QRISTAL est-elle

correcte ?

L’ensemble des 30 questions a été soumis en langue naturelleau système QRISTAL et sous forme

de mots-clés à Google.

De l’ensemble des liens obtenus par QRISTAL nous n’avons gardé que les réponses provenant de

pages Web différentes. Nous avons ensuite appliqué deux méthodes : notre méthode de détermination de

contenu et un comptage de fréquence (appelé ensuiteFréquencedans le tableau présentant les résultats).

Pour chacune des quatre réponses obtenues respectivement par Google, QRISTAL, notre méthode et

par un comptage de fréquence, nous avons identifié plusieurscas :

– réponse correcte: la réponse proposée (valeur numérique et éventuelles restrictions) est correcte

(la réponse est comparée aux informations venant d’encyclopédies ou de documents officiels).

Pour le cas de Google, on compte comme réponse correcte seulement les réponses correctes

qui sont données dans le premier lien ou qui ne sont pas précédées d’une réponse incorrecte ou

incomplète,

– réponse arrondie: les éventuelles restrictions sont correctes et la valeur proposée est un arrondi

de la valeur correcte,

– réponse incomplète: la réponse proposée est incomplète, i.e. il manque des informations sur

certaines restrictions,

– intervalle : la réponse proposée est un intervalle (cas où la construction du graphe est impossible),

– réponse incorrecte: la réponse proposée est complètement incorrecte,

187


– pas de réponse: les systèmes n’ont pas trouvé de réponse. Par exemple, le choix de la réponse la

plus fréquente est impossible car plusieurs réponses ont lamême fréquence. Pour le cas de Google,

ce cas se présente quand aucune réponse n’a été trouvée dans les 30 premiers liens proposés.

Résultats. Les figures 10.1 et 10.2 présentent les résultats obtenus.

FIG. 10.1 – Évaluation des réponses directes numériques

FIG. 10.2 – Distribution des rangs des réponses correctes de Google : réponses numériques

Pour les réponses qui présentent des valeurs pour plusieursrestrictions, il est possible d’avoir, dans

une même réponse, plusieurs cas de figure pour chaque restriction : par exemple, une valeur arrondie

associée à une restriction et un intervalle associé à une autre restriction, etc. (ce qui explique que la

somme des pourcentages ne fasse pas toujours 100).

Les résultats obtenus grâce à notre méthode sont bien supérieurs à ceux obtenus par tous les autres

systèmes. En effet, Google et QRISTAL ne donnent que très peu, voire pas de réponse correcte. En

particulier, là où Google et QRISTAL donnent des réponses incorrectes, incomplètes ou ne donnent

188


aucune réponse, notre méthode permet dans la majorité des cas testés d’obtenir soit une réponse correcte

soit une réponse arrondie ou un intervalle. Les quelques réponses incomplètes sont dues à l’absence de

connaissances pour extraire correctement les différentesrestrictions.

Ces résultats montrent bien l’intérêt de générer une réponse synthétique qui prend en compte des

informations venant de plusieurs pages Web car une seule page Web ne permet que très rarement d’obte-

nir l’intégralité des informations recherchées (en particulier pour les restrictions qui se trouvent souvent

dans des pages différentes).

10.3.2 Évaluation des explications

L’évaluation de la détermination de contenu pour les explications consiste à évaluer la qualité des

caractéristiques des valeurs numériques inférées à partirdes pages Web, c’est-à-dire :

1. si les critères de variation inférés (temps, lieu, restrictions) sont effectivement corrects et,

2. si le mode de variation inféré (augmentation, diminutionou variation aléatoire) est lui aussi correct.

Ceci est évalué en consultant des documents officiels (encyclopédies, documents INSEE, etc.) décri-

vant les données ou par rapport à notre propre connaissance du phénomène pour les cas simples. Nous

avons évalué ces deux points sur les 30 questions précédentes qui portent sur des valeurs numériques

pouvant varier selon zéro, un ou plusieurs critères.

Critères de variation. Les critères de variation (ou l’absence de critère de variation) sont correctement

identifiés dans 89% des cas.

Les cas d’échecs sont dus au fait que les critères n’ont pas puêtre identifiés car la grammaire n’a pas pu

les extraire des pages Web.

Mode de variation. Pour les valeurs numériques pour lesquelles le critère de variation selon le temps

a été correctement identifié, nous avons évalué si le mode de variation inféré à partir de la régression

linéaire est correct.

Celui-ci est correct dans 86% des cas. Les cas d’échecs proviennent du fait que le critère de variation

selon le temps n’a pas pu être identifié (et donc la régressionlinéaire n’a pu être faite) car la grammaire

n’a pas pu extraire les informations temporelles des pages Web.

Cependant, dans ce cas, il serait possible d’améliorer les résultats et d’identifier le mode de variation si

des indices linguistiques de variation (verbes d’augmentation, etc.) ont pu être extraits des textes. Pour

le moment, notre système ne traite pas ces indices.

Synthèse.Les résultats peuvent être considérés comme très satisfaisants. En effet, dans une très grande

majorité des cas, le contenu des explications est correct.

189


Les cas d’échecs ne sont pas réellement pénalisants car ils correspondent en fait à une absence de

reconnaissance des critères et mode de variation et non à unemauvaise reconnaissance. Ceci a pour

conséquence qu’aucune explication ne pourra être générée (seule la réponse directe est générée), ce qui

est bien évidemment préférable à une explication erronée.

10.4 Évaluation des réponses en langue naturelle

Nous avons finalement souhaité évaluer la satisfaction des utilisateurs face aux réponses qui leur sont

proposées par le système. Nous avons pour cela soumis trois questionnaires à 15 sujets entre 20 et 35

ans, de niveaux d’étude différents et qui ont l’habitude d’utiliser des moteurs de recherche sur le Web.

Tâche 1. Dans un premier temps, nous avons voulu évaluer quels types de réponses les utilisateurs

produisent à partir d’un ensemble de réponses candidates. Pour cela, nous leur avons proposé 5 questions

numériques avec leurs réponses candidates variant selon letemps, le lieu ou les restrictions et nous leur

avons demandé de produire leur propre réponse. La figure 10.3présente un extrait du questionnaire.

FIG. 10.3 – Évaluation du point de vue utilisateur : choix des contraintes utilisateurs

– Pour les questions variant selon les restrictions (comme dans l’exemple précédent), 93% des sujets ont

produit une réponse qui est une énumération des valeurs pourles différentes restrictions.

– Pour les questions variant selon le temps, 80% des sujets ont produit une réponse donnant l’information

la plus récente.

– Enfin, pour les questions variant selon le lieu, 73% des sujets ont produit une réponse donnant l’infor-

mation pour le lieu le plus proche d’eux.

Ces résultats valident nos hypothèses faites pour le choix des contraintes implicites imposées par la

190

10.4. Évaluation des réponses en langue naturelle

question (cf. chapitre 9).

Tâche 2. Le deuxième point que nous voulions évaluer est l’ordre de présentation des différentes

composantes de la réponse. Notre système produit des réponses sous la forme d’une réponse directe

puis d’une explication.

FIG. 10.4 – Évaluation du point de vue utilisateur : ordre des réponses

Les résultats d’une évaluation présentée dans [Yu et al., 2005] montrent que face à un résumé de

données numériques, les utilisateurs préférent avoir d’abord un résumé général puis une focalisation sur

un phénomène intéressant. Nous avons voulu vérifier si ces résultats sont aussi valables dans notre cadre

en proposant aux utilisateurs une paire question-réponse où les différentes parties de la réponse (réponse

directe, explication et justification avec extrait de page Web) sont proposées dans des ordres différents.

Nous avons demandé aux utilisateurs de choisir l’ordre de présentation qui leur convenait le mieux (cf.

figure 10.4).

Contrairement aux résultats de [Yu et al., 2005], 73% des sujets ont préféré l’ordre proposé par le système

(proposition 2 dans l’exemple de la figure 10.4). En effet, dans le cadre d’un système question-réponse,

191


les utilisateurs veulent d’abord avoir la réponse à leur question avant d’avoir des informations addition-

nelles.

Tâche 3. Enfin, pour évaluer la qualité des réponses produites, nous avons proposé 5 questions aux

sujets. Pour chacune des questions, nous leur avons demandé:

– de choisir quelle réponse directe ils préférent parmi : la réponse de notre système, une moyenne,

un intervalle et une disjonction de toutes les réponses candidates,

– de dire s’ils jugent l’explication utile,

– de dire s’ils souhaitent d’autres informations additionnelles,

– de dire s’ils jugent les informations additionnelles proposées utiles (un extrait de page Web).

La figure 10.5 présente un extrait de ce questionnaire.

FIG. 10.5 – Évaluation du point de vue utilisateur : qualité de laréponse

91% des sujets ont préféré la réponse directe du système et 73% des sujets ont trouvé que l’explica-

tion fournie était utile. Les utilisateurs sont donc très satisfaits des réponses produites par le système. En

revanche, seulement 31% des sujets ont souhaité avoir des informations additionnelles et seulement 28%

les ont trouvées utiles.

Synthèse. L’évaluation de la réponse du point de vue utilisateur donnedes résultats très satisfaisants.

Elle nous a permis de valider les choix effectués concernantles attentes de utilisateurs, les informations

pertinentes à générer et la forme des réponses.

192

Conclusion

Nous avons présenté dans cette troisième partie les problèmes liés aux réponses numériques trouvées

sur le Web et proposé une approche pour la génération de réponses coopératives. La coopérativité se situe

à deux niveaux :

– une réponse directe synthétique est générée en langue naturelle à partir d’un ensemble de réponses

potentielles extraites par un moteur de recherche,

– des informations additionnelles sont générées, qui expliquent à l’utilisateur les variations éven-

tuelles de la valeur numérique recherchée.

L’originalité de notre méthode réside dans les points suivants :

– les attentes de l’utilisateur, déduites de la question, sont utilisées pour générer une réponse directe

pertinente. Une étude des éléments pertinents à générer a notamment été menée afin que la réponse

générée ne surprenne pas l’utilisateur (maxime de pertinence),

– les inconsistances de données trouvées sur le Web sont identifiées. Plutôt que de présenter à l’uti-

lisateur un ensemble de réponses incohérentes, notre méthode permet par exemple de détecter les

relations d’arrondi et de choisir une valeur numérique satisfaisante pour l’utilisateur (maxime de

qualité),

– au lieu de laisser l’utilisateur tirer ses propres conclusions à partir d’une grande quantité de

données sur le Web, les explications présentent d’une façonsynthétique l’ensemble des données

trouvées sur le Web en expliquant les phénomènes de variation propres à une valeur numérique

donnée (maxime de quantité).

Nous avons finalement évalué notre méthode du point de vue technique et du point de vue utilisateur.

Les résultats de ces évaluations sont très satisfaisants, l’une des principales limites étant le besoin de

ressources pour améliorer la précision des réponses. Cependant, une grande majorité des cas testés sont

couverts par les ressources du lexique et ne nécessitent pasde ressource spécialisée. De plus, l’absence de

connaissances spécifiques à un domaine n’empêche pas la génération de la réponse, elle influe seulement

sur le niveau de précision de celle-ci. Enfin, notre système nécessite une représentation des connaissances

de type ontologique qui est relativement standard (relation de méronymie/hyperonymie) ce qui lui permet

d’utiliser des ontologies déjà définies et dont certaines sont disponibles sur le Web.

193

Conclusion

194

Conclusion générale et perspectives

Nous avons présenté dans ce manuscrit l’approche que nous avons adoptée, dans le cadre des sys-

tèmes question-réponse, pour concevoir un système coopératif qui se situe en aval d’un analyseur de

questions et d’un moteur de recherche des réponses candidates sur le Web. L’originalité de notre système

repose sur un module d’intégration de données qui permet de produire une réponse synthétique quand

plusieurs réponses candidates à une question sont extraites du Web. Notre système fonctionne en domaine

ouvert. Nous nous sommes concentrés sur deux types de questions : les questions attendant des réponses

temporelles de typedateet celles attendant des réponses numériques. Ceci nous a permis de mesurer les

besoins et les coûts en domaine ouvert du point de vue des mécanismes d’intégration de données et des

connaissances nécessaires.

Contributions

Étant donné nos objectifs, nos principales contributions portent sur :

– L’analyse du problème et la conception du système.Grâce à notre étude de corpus, nous avons

identifié les problèmes qui se posent pour répondre à une question lorsque plusieurs réponses

sont sélectionnées par un moteur de recherche. Nous avons ainsi identifié les relations pouvant

exister entre plusieurs réponses potentielles à une question et proposé des formulations de réponses

synthétiques en langue naturelle. L’objectif était de concevoir un système qui puisse traiter ces

problèmes. Cette étude nous a permis d’implémenter un système dont l’architecture repose sur

une architecture classique (analyse de la question et recherche des réponses candidates) à laquelle

nous avons ajouté sur un module de raisonnement spécifique aux systèmes coopératifs (module

d’intégration de données) et un module de génération pour les réponses et les explications. Notre

système a été implémenté en Perl, les grammaires d’extraction étant en Prolog (cf. annexe D).

– La représentation des connaissances. Nous avons identifié puis intégré plusieurs modèles

de représentation des connaissances nécessaires à l’analyse des données et à la génération des

réponses. Ainsi, nous avons montré qu’un lexique et une basede connaissances de sens commun

de taille limitée permettent de couvrir une grande partie des besoins en domaine ouvert. Dans

195


certains cas, des ontologies décrivant des domaines plus finement peuvent être utilisées (certaines

pouvant être trouvées sur le Web) pour améliorer la précision des réponses.

– Les mécanismes d’intégration. Nous avons étudié pour notre système deux mécanismes d’in-

tégration de données, à savoir l’intégration de données temporelles (dates) et l’intégration de

données numériques.

– pour les données temporelles (dates), le mécanisme d’intégration permet d’identifier des phé-

nomènes propres aux événements traités (itérativité, périodicité, etc.) et de définir un degré de

certitude de la réponse proposée,

– pour les données numériques, nous avons dans un premier temps identifié les éléments perti-

nents à générer du point de vue de l’utilisateur. Le mécanisme d’intégration permet d’identifier

les propriétés des concepts et de résoudre les inconsistances de données afin de proposer une

réponse et une explication.

– La génération des réponses. Dans notre système, les réponses sont générées en langue natu-

relle. Cette génération s’appuie sur des techniques utilisant des schémas de génération et de la

génération "pure" (techniques de lexicalisation, d’agrégation, etc.). Les schémas que nous avons

définis reflètent les différents mécanismes mis en œuvre et les phénomènes caractéristiques des

données qui ont pu être identifiés. Les réponses sont composées d’une réponse directe et d’une

partie coopérative (degré de certitude ou explication).

– L’évaluation. Nous avons proposé des méthodes d’évaluation de notre système à différents

niveaux : une évaluation des performances des composants dusystème et une évaluation plus

cognitive du point de vue utilisateur.

Nous avons développé notre approche dans le cadre des systèmes question-réponse sur le Web mais

celle-ci pourrait aussi être utilisée pour l’interrogation de bases ou d’entrepôts de données. De plus, les

mécanismes d’intégration des données sont indépendants dela langue : ils peuvent ainsi être utilisés dans

des systèmes multilingues par exemple.

Perspectives et orientations futures

Au cours du développement des différentes étapes et de l’évaluation, nous avons identifié de nou-

veaux problèmes, plus ou moins complexes, qui concernent l’extraction et l’analyse des données, les

mécanismes d’intégration et la génération des réponses. Nous proposons ici quelques pistes de réflexion.

196

Un de nos objectifs de départ pour le développement d’un tel système en domaine ouvert était de

minimiser le besoin en connaissances et d’inférer les connaissances nécessaires à l’élaboration de la

réponse directement à partir des pages Web. Ainsi, le lexique que nous avons défini est assez réduit :

en effet, les principaux concepts nécessaires à l’extraction ou la génération des réponses sont issus

directement de la question. De même, pour la génération des réponses, le système n’a besoin que de

ressources lexicales concernant certains verbes et prépositions.

Cependant, nous envisageons de nous intéresser à d’autres types de questions (par exemple, les questions

enpourquoi ?) et donc à d’autres formes de réponses. Dans ce cas, d’autresressources lexicales sont sans-

doute nécessaires. L’extension du lexique pour traiter d’autres questions risque donc d’être coûteuse.

Lors de la mise en œuvre des mécanismes d’extraction et d’intégration des données numériques,

nous avons constaté que, pour certains domaines spécialisés, les informations nécessaires à la génération

de la réponse ne peuvent être traitées que si le système dispose de connaissances fines sur le domaine

considéré. C’est pourquoi le système a recours à des ontologies pour produire des réponses les plus

précises possibles. Des ontologies, définies de façon standard, sont aujourd’hui disponibles sur le Web.

Le problème réside dans le fait qu’elles peuvent ne pas être réellement appropriées par rapport à la tâche

envisagée. En effet, ces ontologies sont souvent définies par des experts, pour un certain type de public

ou d’application. Il faut donc adapter ces ontologies aux besoins.

Les résultats des différentes évaluations nous ont permis d’identifier quelques pistes d’amélioration

que nous présentons à présent.

À court terme.

Nous envisageons de nous intéresser à deux principaux points : la prise en compte de la crédibilité

des sources d’information et l’amélioration de l’extraction.

– Pour le moment, nous n’avons pas pris en compte la crédibilité des pages Web car nous avons vu

que les informations sur la date ou l’auteur de la page sont rarement disponibles. En revanche, pour

des questions portant sur des faits d’actualité, les informations sur la source peuvent être récupérées et

utilisées dans les mécanismes d’intégration.

Dans le cadre d’un projet STIC Asie, nous nous sommes intéressés plus particulièrement aux questions

numériques portant sur des faits d’actualité. Nous avons pour cela utilisé le moteur de recherche Google

News qui renvoie, pour une requête donnée, une liste de liensvers des sites d’informations (journaux en

ligne, etc.) qui répondent à la question.

Une analyse rapide des résultats de Google News nous permet de constater que pour chacun des

sites renvoyés, des informations sur la date, la source, l’auteur... sont disponibles. Ces informations que

197


nous n’avons jusqu’alors pas prises en compte dans les mécanismes d’intégration car absentes d’une

grande majorité des pages Web, peuvent être déterminantes dans le cas des questions portant sur des

faits d’actualité. Les mécanismes d’intégration peuvent,dans ce cas, prendre en compte un critère de

fiabilité de l’information défini à partir de la date de l’information, de la source, etc. Ceci nous a menés

à la définition d’une nouvelle frame pour l’extraction des données dans les sites d’actualité. Le champ

Crédibilité contient les informations propres à la page Web (source, date et lieu de l’information). Le

champPerspectivecontient éventuellement une information sur la personne/l’organisme... qui rapporte

les faits. Par exemple, la figure 1 présente une page Web sélectionnée par Google News et une frame

obtenue manuellement.

FIG. 1 – Exemple de page sélectionnée par Google News :Combien y a-t-il d’adhérents en PS ?

Nous réfléchissons actuellement à la façon de prendre en compte ce paramètre de crédibilité dans le

mécanisme d’intégration.

– Notre système est aussi en cours d’implémentation pour l’anglais à l’IIT Kharagpur. Il faut en parti-

culier adapter les schémas de génération, la grammaire d’extraction étant relativement stable par rapport

198

au français.

Nous envisageons aussi :

– d’étendre les connaissances : pour le moment, nous avons défini dans le lexique un ensemble de

propriétés de base pour les objets et quelques propriétés pour les humains. Pour étendre ceci, il

est possible de construire une ontologie générale pour les objets et les humains qui définirait un

ensemble de propriétés comme la couleur, la forme, etc. pourles objets et le genre, la nationalité,

la profession, etc. pour les humains.

– d’augmenter la grammaire d’extraction pour prendre en compte d’autres phénomènes, en parti-

culier l’extraction de valeurs numériques relatives (pourcentage, fraction), de repérer les entités

nommées, etc.

À moyen et long terme.

– Toujours au niveau de la fiabilité des sources, d’autres éléments apportant des informations de cré-

dibilité peuvent aussi être pris en compte, par exemple des points de vue, des opinions ou des argu-

ments présents dans les textes. Pour cela, des techniques d’extraction d’opinions peuvent être envisagées

[Kim et al, 2004], [Bethard et al, 2004]. Les mécanismes d’intégration peuvent alors s’adapter à ces nou-

velles données et se rapprocher des techniques de fusion utilisées notamment en logique. Le problème,

ici, réside dans la difficulté à interpréter la sémantique des opinions et des arguments pour les associer à

un paramètre de crédibilité.

Nous avons vu aussi que les mécanismes d’intégration sont fortement dépendants du type de données à

manipuler. En s’intéressant à d’autres types de questions,ces mécanismes devront être repensés, adaptés

et évalués.

– Enfin, nous envisageons d’étudier plus particulièrement la pragmatique des explications, en particulier

pour les questions événementielles. Jusqu’ici, nous ne nous sommes intéressés qu’aux explications des-

criptives portant sur les critères et le mode de variation des valeurs numériques. Pourtant dans certains

cas particuliers, ce type d’explication n’est pas pertinent. Il semble donc nécessaire de pouvoir générer

des explications sous d’autres formes ou qui présentent lesinformations différemment. Nous présentons

ici quelques exemples problématiques.

Exemple 1. Soient les réponses issues du Web à la questioncombien y a-t-il eu de soldats américains

morts en Irak ?:

- 5 juin 2006. Un soldat américain a été tué lors d’une "actionennemie" dans la province d’Anbar, un

des bastions insurgés dans l’ouest de l’Irak. Ce décès porteà au moins 2476 le nombre de membres de

l’armée américaine morts en Irak depuis le début de la guerreen mars 2003, selon un décompte établi

par l’Associated Press.

- 25 avril 2005. L’armée américaine a annoncé hier la mort d’un de ses soldats tué à l’ouest de Bagdad,

199


ce qui porte à 1563 le nombre de soldats américains morts en Irak depuis l’invasion du pays, il y a deux

ans.

Exemple 2. Soient les réponses issues du Web à la questioncombien de buts Thierry Henry a-t-il

marqués quand il jouait à Arsenal ?:

- Lors de chacune des quatre dernières saisons, le nombre de buts de Henry équivaut à plus du quart du

total du club, avec une pointe à 39% pour la saison 2003-2004 (34 buts).

- HENRY Thierry : Meilleur buteur du Championnat d’Angleterre (2005-2006 : 27 buts, 2004-2005 : 30

buts et 2002-2003 : 22 buts) avec Arsenal FC.

Ici, des explications de la formele nombre de soldats américains morts en Irak a augmenté de 912

entre 2005 et 2006ou le nombre de buts marqués par Thierry Henry à Arsenal a augmenté de 5 entre

2002 et 2006, bien que correctes sur le fond, ne sont pas réellement satisfaisantes du point de vue de la

forme. Des explications comparatives telles queEn 2006, Thierry Henry a marqué 3 buts de moins qu’en

2005 et 5 buts de plus qu’en 2003seraient préférables.

De même, les questions portant sur un nombre d’événements vont avoir comme réponse des valeurs

pour un instant donné, des valeurs cumulées, etc. Par exemple, à la questioncombien de buts Thierry

Henry a-t-il marqué quand il jouait à Arsenal ?, notre système produit la réponse directeEn 2006,

Thierry Henry a marqué 27 buts à Arsenal. Ici, le système génère la réponse directe qui correspond

à l’information la plus récente mais on peut aussi imaginer que l’utilisateur veuille connaître le nombre

total de buts de Henry depuis qu’il est à Arsenal. Dans ce cas,une réponse directe telle queDepuis 2000,

Thierry Henry a marqué 164 buts à Arsenal, dont 27 en 2006semble plus appropriée.

Une solution possible est d’identifier les questions portant sur des événements ou sur des valeurs cumu-

latives afin de générer des réponses directes et des explications plus appropriées.

Les explications actuellement générées peuvent ainsi êtredans certains cas peu pertinentes tant au

niveau du fond que de la forme. Il faut donc étudier en détail :

– le contenu des explications et en particulier la pertinence des informations générées : en restant

dans un contexte de coopérativité, le système ne doit proposer à l’utilisateur que des informations

appropriées par rapport à ses attentes. L’introduction d’un modèle usager pourrait apporter des

solutions à ce problème. Des explications autres que descriptives peuvent aussi être envisagées,

par exemple des explications comparatives ou de causalité.

Nous envisageons aussi de générer des réponses avec des liens hypertextes qui permettraient aux

utilisateurs d’aller consulter les pages Web correspondantes s’ils désirent avoir plus d’informa-

tions.

– la forme des explications : d’un point de vue cognitif, quelle est la meilleure forme d’explication en

fonction de la nature des informations à présenter ? Par exemple, si une réponse directe numérique

200

doit présenter plusieurs restrictions sur le focus de la question, comment éviter de générer une

énumération qui pourrait être ennuyeuse pour les utilisateurs ? Peut-on grouper ou ordonner les

informations à présenter ? Sur quelle base ?

201


202

Bibliographie

[Allen, 1983] J.F. Allen.Maintaining Knowledge about Temporal Intervals.Communications of the

ACM, 26, p832–843, 1983.

[Anaya et al, 2003] G.B. Anaya, L. Kosseim.Generation of natural responses through syntactic

patterns.In Proceedings of TALN, 2003.

[Appelt et al, 1993] D. Appelt, J. Hobbs, J. Bear, D. Israel, M. Tyson.FASTUS : a finite-state processor

for information extraction from real-world text.In Proceedings of the 13th International Joint

Conference on Artificial Intelligence, Chambéry, 1993.

[Arens et al., 1996] Y. Arens, C.A. Knoblock, W. Shen.Query reformulation for dynamic information

integration.Journal of Intelligent Information Systems 6 (2/3), p99–130, 1996.

[Balacheff, 1990] N. Balacheff.Problème de la production d’une explication : aspects conceptuels et

langagiers.Revue d’Intelligence Artificielle 4(2), p149–160, 1990.

[Balbiani et al., 2000] P. Balbiani, J.-F. Condotta, G. Ligozat.Reasoning about generalized intervals :

Horn representability and tractability.S. Goodwin, A. Trudel (eds), Seventh International Workshop

on Temporal Representation and Reasoning (TIME 2000). Institute of Electrical and Electronics

Engineers, p23–39, 2000.

[Barzilay et al., 1999] R. Barzilay, K.R. McKeown, M. Elhadad. Information Fusion in the Context of

Multi-Document Summarization.In Proceedings of ACL, Maryland, 1999.

[Benamara, 2004a] F. Benamara.WEBCOOP : un système question-réponse coopératif sur le Web.

Thèse de doctorat, Université Paul Sabatier, Toulouse, 2004.

203

Bibliographie

[Benamara, 2004b] F. Benamara.Generating Intensional Answers in Intelligent Question Answering

Systems.In Proceedings of INLG, LNAI, volume 3123, Springer, 2004.

[Bethard et al, 2004] S. Bethard, H. Yu, A. Thornton, V. Hativassiloglou, D. Jurafsky.Automatic

extraction of opinion propositions and their holders.In Proceedings of AAAI Spring Symposium on

Exploring Attitude and Affect in Text, 2004.

[Bloch, 2003] I. Bloch.Fusion d’informations en traitement du signal et des images. Lavoisier (eds),

Hermès Science Publication, 2003.

[Borillo, 1988] A. Borillo. Le lexique de l’espace : les noms et les adjectifs de localisation interne.

Cahiers de grammaire, 13, p1–22, Université de Toulouse-Le-Mirail, 1988.

[Borillo, 1998] A. Borillo. L’espace et son expression en français.Paris, Ophrys, 1998.

[Brézillon, 1994] P. Brézillon.Context needs in cooperative building of explanations.First Cognitive

Science in Industry, Luxembourg, p443–450, 1994.

[Brill et al., 2001] E. Brill, J. Lin, M. Banko, S. Dumais, A. Ng. Data-Intensive Question Answering.

TREC 10 Notebook, Gaithersburg, USA, 2001.

[Brill et al., 2002] E. Brill, S. Dumais, M. Banko.An Analysis of the AskMSR Question-Answering

System.In Proceedings of Empirical Methods in Natural Language Processing Conference, 2002.

[Burger et al., 2000] J. Burger, C. Cardie, V. Chaudhi et al.Issues, Tasks and Program Structures to

Roadmap Research in Question Answering.In Technical Report, NIST, 2000.

[Busemann et al., 1998] S. Busemann, H. Horacek.A Flexible Shallow Approach to Text Generation.In

Proceedings of the Ninth International Workshop on NaturalLanguage Generation, 1998.

[Cahill, 1999] L. Cahill.Lexicalization in applied NLG systems.Research report, ITRI-99-04, 1999.

[de Chalendar et al., 2002] G. de Chalendar, T. Delmas, F. Elkateb, O. Ferret, B. Grau, M. Hurault-

Plantet, G. Illouz, L. Monceaux, I. Robba, A. Vilnat.The Question-Answering system QALC at

LIMSI, Experiments in using Web and WordNet.In Proceedings of TREC 11, 2002.

204

[de Chalendar et al., 2003] G. de Chalendar, F. El Kateb, O. Ferret, B. Grau, M. Hurault-Plantet, L.

Monceaux, I. Robba, A. Vilnat.Confronter des sources de connaissances différentes pour obtenir

une réponse plus fiable.Actes de TALN, Batz sur mer, France, 2003.

[Chaudhuri et al., 2003] S. Chaudhuri, K. Ganjam, V. Ganti, R. Motwani. Robust and efficient fuzzy

match for online data cleaning.In Proceedings of ACM SIGMOD, p313–324, 2003.

[Chaudhuri et al., 2005] S. Chaudhuri, V. Ganti, R. Motwani.Robust identification of fuzzy duplicates.

In Proceedings of ICDE, Tokyo, Japon, 2003.

[Cholvy, 1994] L. Cholvy.Fusion de sources d’informations contradictoires ordonnées en fonction de

thèmes.Revue de l’Intelligence Artificielle, 8(2), 1994.

[Cholvy et al, 1997] L. Cholvy, A. Hunter.Information Fusion in Logic : a Brief Overview.In

Proceedings of ECSQARU, 1997.

[Clarke et al., 2001] C.L. Clarke, G.V. Cormack, T.R. Lynam.Exploiting Redundancy in Question-

Answering.In Proceedings of the 24th ACM-SIGIR International Conference on Research and

Development in Information Retrieval, p358–365, 2001.

[Cruse, 1986] D.A. Cruse.Lexical Semantics.Cambridge Textbooks in Linguistics, Cambridge

University Press, 1986.

[Cukierman et al, 1998] D. Cukierman, J. Delgrande.Towards a formal characterization of temporal

repetition with closed time.In Proceedings of the Fifth International Workshop on Temporal

Representation and Reasoning, 1998.

[Dahl et al, 1984] V. Dahl, H. Abramson.On Gapping Grammars.In Proceedings of the Second Logic

Programming Conference, 1984.

[Dale et al, 1998] R. Dale, C. Mellish.Towards the Evaluation of Natural Language Generation.In

Proceedings of the First International Conference on Evaluation of Natural Language Processing

Systems, 1998.

[Dale et al, 1998] R. Dale, J. Oberlander, M. Milosavljevic,A. Knott. Integrating Natural Language

Generation and Hypertext to Produce Dynamics Documents.Interacting with Computers, volume

205

Bibliographie

11(2), p109–135, 1998.

[Dale, 2003] R. Dale. http ://www.ics.mq.edu.au/ lgtdemo/StockReporter/ , 2003.

[Dalmas et al, 2005] T. Dalmas, B. Webber.Using Information Fusion for Open Domain Question

Answering.In Proceedings of KRAQ Workshop, IJCAI, 2005.

[Delgrande et al, 2004] J.P. Delgrande, T. Schaub.Two Approaches to Merging Knowledge Bases.In

Proceedings of the European Conference on Logics in Artificial Intelligence JELIA, p426–438, 2004.

[Dubois et al, 1992] D. Dubois, J. Lang, H. Prade.Dealing with multi-source information in possibilistic

logic. In Proceedings of the 10th European Conference on ArtificialIntelligence, Vienna, 1992.

[Duclaye, 2003] F. Duclaye.Apprentissage automatique de relations d’équivalence sémantique à partir

du Web.Thèse Informatique et Réseaux, INFRES, Télécom Paris (ENST), 2003.

[Fasciano et al, 2000] M. Fasciano, G. Lapalme.Intentions in the coordinated generation of graphics

and text from tabular data.Knowledge and Information Systems, volume 2(3), p310–339,2000.

[Fellbaum, 1998] C. Fellbaum.WordNet : an Electronic Lexical Database. MIT Press, 1998.

[Ferret et al, 2002] O. Ferret, B. Grau, M. Hurault-Plantet,G. Illouz, L. Monceaux, I. Robba, A. Vilnat.

Recherche de la réponse fondée sur la reconnaissance du focusde la question.In Actes de TALN -

RECITAL, Dourdan, 2002.

[Fisher, 1925] R. A. Fisher.Statistical Methods for Research Workers. Originally published in London

by Oliver and Boyd, 1925.

[Fourastié et al, 1987] J. Fourastié, J.F. Laslier.Probabilités et Statistique.Série J. Quinet, Dunod, 1987.

[Ganet et al, 2003] L. Ganet, P. Brézillon, C. Tijus.Explanation as Contextual Categorization.LNAI

2680, Springer-Verlag, p142–153, 2003.

[Garcia-Molina et al., 1997] H. Garcia-Molina, Y. Papakonstantinou, D. Quass, A. Rajaraman, Y.

Sagiv, J.D Ullman, V. Vassalos, J. Widom.The TSIMMIS approach to mediation : data models and

206

languages.Journal of Intelligent Information Systems, volume 8(2), p117–132, 1997.

[Goldberg et al., 1994] E. Goldberg, N. Driedger, R. Kittredge. Using natural language processing to

produce weather forecasts.IEEE Expert : Intelligent Systems and Their Applications, volume 9(2),

p45–53, 1994.

[Graesser et al, 1991] A. Graesser, S. Gordon.Question-Answering and the Organization of the World

Knowledge.Journal of Intelligent Information Systems, volume 1, 1991.

[Green, 1998] S.J. Green.Automated Link Generation : Can We Do Better than Term Repetition ?

Computer Networks and ISDN Systems, volume 30, p75–84, 1998.

[Grice, 1975] H. Grice.Logic and Conversation.In Cole and Morgan editors, Academic Press, 1975.

[Hacid et al., 2004] M. Hacid, C. Reynaud.L’intégration de sources de données.In Revue Information

- Interaction - Intelligence, 2004.

[Harabagiu et al., 1999] S. Harabagiu, S. Maiorano.Finding Answers in Large Collections of Texts :

Paragraph Indexing + Abductive Inference.In AAAI Fall Symposium on Question Answering

Systems, p63–71, 1999.

[Harabagiu et al., 2003] S. Harabagiu, S. Maiorano, M. Pasca. Open-Domain Textual Question-

Answering Techniques.Natural Language Engineering, volume 1, p1–38, 2003.

[Harabagiu et al., 2004] S. Harabagiu, F. Lacatusu.Strategies for Advanced Question Answering.In

Proceedings of the Workshop on Pragmatics of Question Answering at HLT-NAACL, Boston, USA,

2004.

[Harabagiu et al., 2005] S. Harabagiu, C.A. Bejan.Question Answering Based on Temporal Inference.

In Proceedings of AAAI Workshop on Inference for Textual Question Answering, Pittsburgh, USA,

2005.

[Hovy et al., 2002] E. Hovy, U. Hermjakob, D. Ravichandran.A Question/Answer Typology with

Surface Text Patterns.In Proceedings of the DARPA Human Language Technology conference

(HLT), 2002.

207

Bibliographie

[Hunter, 2002] A. Hunter.Measuring Inconsistency in Knowledge via quasi-classicalModels. In

Proceedings of the American National Conference on Artificial Intelligence, p68–73, 2002.

[Hunter et al, 2004] A. Hunter, R. Summerton.Fusion rules for context-dependent aggregation of

structured news reports.Journal of Applied Non-classical Logic, 14(3), p329–366, 2004.

[Jenhani, 2006] O. Jenhani.WebSum : système de résumé automatique de réponses des moteurs de

recherche.Thèse de doctorat, Université Paul Sabatier, Toulouse, 2006.

[Kaci, 2002] S. Kaci.Connaissances et préférences : représentation et fusion enlogique possibiliste.

Thèse de doctorat, Université Paul Sabatier, Toulouse, 2002.

[Karsenty, 1996] L. Karsenty.Une définition psychologique de l’explication.Intellectica 23(2), p299–

317, 1996.

[Katz et al, 2003] B. Katz, J. Lin.Selectively Using Relations to Improve Precision in Question

Answering.In Proceedings of the EACL Workshop on Natural Language Processing for Question

Answering, Budapest, 2003.

[Kim et al, 2004] S.O Kim, E. Hovy.Determining the sentiment of opinions.In Proceedings of Coling,

2004.

[Kukich, 1983] K. Kukich.Knowledge-based report generation : a knowledge engineering approach

to natural language report generation.Ph.D. Thesis, Information Science Department, Universityof

Pittsburgh, 1983.

[Lappin et al, 1994] S. Lappin, H.J. Leass.An Algorithm for Pronominal Anaphora Resolution.

Computational Linguistics, 20(4), p535–561, 1994.

[Large et al, 1995] A. Large, J. Beheshti, A. Breuleux, A. Renaud.Multimedia and comprehension : The

relationship among text, animation, and captions.Journal of the American Society for Information

Science, 46(5), p340–347, 1995.

[Laurent et al, 2005] D. Laurent, P. Séguéla.QRISTAL, système de Questions-Réponses.In Proceedings

of TALN, 2005.

208

[Lehnert, 1978] W. Lehnert.The Process of Question-Answering : a Computer Simulation of Cognition.

Lawrence Erlbaum Associates, Publishers, 1978.

[Lim et al., 1994] E.P. Lim, J. Srivastava, S. Shekhar.Resolving Attribute Incompatibility in Database

Integration : An Evidential Reasoning Approach.ICDE, p154–163, 1994.

[Lin et al, 1999] J. Lin, A.O. Mendelzon.Knowledge Base Merging by Majority.In R. Pareschi and B.

Fronhoefer (eds), Dynamic Worlds : From The Frame Problem toKnowledge Management, Kluwer,

1999.

[Maingueneau, 1981] D. Maingueneau.Approche de l’énonciation en linguistique française.Paris,

Hachette, 1981.

[Mani, 2004] I. Mani. Recent Developments in Temporal Information Extraction.In Proceedings of

Recent Advances In Natural Language Processing, 2004.

[Maurel, 1991] D. Maurel.Préanalyse des adverbes de date du Français.TA Information, volume 32,

nÆ2, p5–17, 1991.

[McGuinness et al., 2004] D.L. McGuinness, P. Pinheiro da Silva. Trusting Answers on the Web.New

Directions in Question-Answering, chapter 22, Mark T. Maybury (ed), AAAI/MIT Press, 2004.

[McKeown et al, 1985] K.R. McKeown, M. Wish, K. Matthews.Tailoring Explanations for the User.In

Proceedings of IJCAI, p794–798, 1985.

[Mittal et al, 1998] V.O. Mittal, J.D. Moore, G. Carenini, S.Roth. Describing Complex Charts in

Natural Language : A Caption Generation System.Computational Linguistics, 24(3), p431–467,

1998.

[Moldovan et al., 2003] D. Moldovan, C. Clark, S. Harabagiu,S. Maiorano.COGEX : A Logic Prover

for Question Answering.In Proceedings of HLT-NAACL 2003.

[Monceaux, 2001] L. Monceaux.Analyse sémantique dans un système de question-réponse.In

Proceedings of RECITAL, 2001.

209

Bibliographie

[Monceaux et al., 2002] L. Monceaux, I. Robba.Les analyseurs syntaxiques : un atout pour les

systèmes question-réponse ?In Proceedings of TALN 2002.

[Moriceau et al, 2003] V. Moriceau, P. Saint-Dizier.A conceptual treatment of metaphors for NLP.In

Proceedings of the International Conference On Natural language processing (ICON), Mysore, 2003.

[Morris et al, 1998] R.A. Morris, L. Khatib. Quantitative Structural Temporal Constraints on

Repeating Events.In Proceedings of the Fifth International Workshop on Temporal Reasoning and

Representation (TIME), p74–80, 1998.

[Motro et al, 2004] A. Motro, P. Anokhin.Fusionplex : resolution of data inconsistencies in the

integration of heterogeneous information sources.Information Fusion, Elsevier, 2004.

[Narayanan et al., 2004] S. Narayanan, S. Harabagiu.Answering Questions Using Advanced Semantics

and Probabilistic Inference.In Proceedings of the Workshop on Pragmatics of Question Answering,

HLT-NAACL, Boston, 2004.

[Newcombe et al., 1959] H.B. Newcombe, J.M. Kennedy, S.J. Axford, A.P. James.Automatic linkage

of vital records.In Science, 130(3381), p954–959, 1959.

[Nugent, 1983] G.C. Nugent.Deaf students’ learning from captioned instruction : The relationship

between the visual and caption display.Journal of Special Education, 17(2), p227–234, 1983.

[Nyberg et al., 2003] E. Nyberg, T. Mitamura, J. Callan, J. Carbonell, R. Frederking, K. Collins-

Thompson, L. Hiyakumoto, Y. Huang, C. Huttenhower, S. Judy,J. Ko, A. Kupsc, L.V. Lita, V.

Pedro, D. Svoboda and B. Van Durme.The JAVELIN Question-Answering System at TREC 2003 : A

Multi-Strategy Approach with Dynamic Planning.NIST Special Publication 500-255 : The 12th Text

REtrieval Conference, 2003.

[Page et al., 1998] L. Page, S. Brin, R. Motwani, T. Winograd.The PageRank Citation Ranking :

Bringing Ordre to the Web.Technical Report, Computer Science Department, Stanford University,

1998.

[Pan et al, 2006] F. Pan, R. Mulkar, J.R. Hobbs.Extending TimeML with Typical Durations of Events.

In Proceedings of The Annotating and Reasoning about Time and Events, Sydney, 2006.

210

[Paris, 1990] C. Paris.Generation and Explanation : Building an Explanation Facility for the

Explainable Expert Systems Framework.In Natural Language Generation in Artificial Intelligence

and Computational Linguistics. Kluwer Academic Publishers, 1990.

[Plamondon et al, 2004] L. Plamondon, G. Foster.Quantum, a French/English Cross-Language

Question Answering System.LNCS, volume 3237, p549–558, 2004.

[Pustejovsky, 1995] J. Pustejovsky.The Generative Lexicon.MIT Press, Cambridge, 1995.

[Pustejovsky et al, 2003] J. Pustejovsky, J. Castano, R. Ingria, R. Saurí, R. Gaizauskas, A. Setzer, G.

Katz.TimeML : Robust specification of event and temporal expressions in text.In Proceedings of the

AAAI Spring Symposium on New Directions in Question-Answering, Stanford, 2003.

[QRISTAL] Question-Réponse Intégrant un Système de Traitement Automatique des Langues.

www.qristal.fr, Synapse Développement, 2004.

[Quirk et al, 1985] R. Quirk, S. Greenbaum, G. Leech, J. Svartvik. A Comprehensive Grammar of the

English Language.London, Longman, 1985.

[Radev et al., 1998] D.R. Radev, K.R. McKeown.Generating Natural Language Summaries from

Multiple On-Line Sources.Computational Linguistics, vol. 24, issue 3 - Natural Language

Generation, p469–500, 1998.

[Radev, 2000] D.R. Radev.A Common Theory of Information Fusion from Multiple Text Sources Step

One : Cross-Document Structure.In Proceedings of the First SIGdial workshop on Discourse and

dialogue, Hong-Kong, 2000.

[Radev et al., 2000] D.R. Radev, J. Prager, V. Samn.Ranking Suspected Answers to Natural Language

Questions Using Predictive Annotation.In Proceedings of the Sixth Conference on Applied Natural

Language Processing, p150–157, 2000.

[Radev et al., 2002] D.R. Radev, B. Sundheim.Using TimeML in Question Answering.

www.cs.brandeis.edu/jamesp/arda/ time/documentation/TimeML-use-in-qa-v1.0.pdf, 2002.

[Reiter, 1995] E. Reiter.NLG vs. Templates. In Proceedings of the Fifth European Workshop on Natural

Language Generation, 1995.

211

Bibliographie

[Reiter et al, 1997] E. Reiter, R. Dale.Building Applied Natural Language Generation Systems. Journal

of Natural Language Engineering, volume 3-1, p57–87, Cambridge University Press, 1997.

[Reiter et al, 2002] E. Reiter, S. Sripada.Human Variation and Lexical Choice.Computational

Linguistics, volume 28, nÆ4, 2002.

[Reiter et al., 2003] E. Reiter, S. Sripada, S. Williams.Acquiring and Using Limited User Models in

NLG. In Proceedings of European Workshop on Natural Language Generation, 2003.

[Saint-Dizier, 1999] P. Saint-Dizier.Alternations and Verb Semantic Classes for French. Predicative

Forms for NL and LKB, Kluwer Academic, 1999.

[Saint-Dizier, 2005] P. Saint-Dizier.PrepNet : a Framework for Describing Prepositions : preliminary

investigation results.Actes de IWCS’05, Tilburg, The Netherlands, 2005.

[Salton, 1989] G. Salton.Automatic Text Processing.The Transformation, Analysis and Retrieval of

Information by Computer, Addison-Wesley, 1989.

[Sperber et Wilson, 1986] D. Sperber, D. Wilson.Relevance : Communication and cognition.

Blackwell, Oxford and Harvard UP, Cambridge MA, 1986.

[Sripada et al, 2003a] S. Sripada, E. Reiter, I. Davy.SumTime-Mousam : configurable marine weather

forecast generator.Expert Update 6(3), p4–10, 2003.

[Sripada et al, 2003b] S. Sripada, E. Reiter, J. Hunter, J. Yu. Summarising neonatal time series data.In

Proceedings of EACL, Companion Volume, p 167–170, Budapest, 2003.

[Stede, 1993] M. Stede.Lexical Choice Criteria in Language Generation.In Proceedings of the Sixth

conference of the European chapter of the ACL, Utrecht, 1993.

[Subrahmanian et al., 1994] V.S. Subrahmanian, S. Adali, A.Brink, R. Emery, J.J. Lu, A. Rajput,

T.J. Rogers, R. Ross, C. Ward.HERMES : A heterogeneous reasoning and mediator system.

http ://www.cs.umd.edu/projects/hermes/publications/abtracts/hermes.html, 1994.

212

[Swartout, 1983] W.R. Swartout.XPLAIN : a System for Creating and Explaining Expert Consulting

Programs.Artificial Intelligence, 21(3), p285–325, 1983.

[Terenziani, 2003] P. Terenziani.Symbolic User-Defined Periodicity in Temporal Relational Databases.

IEEE Transactions On Knowledge and Data Engineering, vol. 15(2), 2003.

[Tseng et al., 1992] F.S.C. Tseng, A.L.P. Chen, W.P. Yang.A probabilistic approach to query processing

in heterogeneous database systems.RIDE-TQP, p176–183, 1992.

[Ullman et al., 1986] J.D. Ullman, R. Fagin, G. Kupper, M. Vardi. Updating logical databases.

Advances in Computer Research, 3, 1986.

[Van der Henst et al, 2002] J-B. Van der Henst, G. Politzer, D.Sperber.When is a conclusion worth

deriving ? A relevance-based analysis of indeterminate relational problems.Thinking and Reasoning

8(1), p1–20, 2002.

[Vicedo et al, 2000] J.L. Vicedo, A. Ferrandez.Importance of Pronominal Anaphora resolution in

Question Answering systems.In Proceedings of the 38th Annual Meeting of the ACL, Hong-Kong,

2000.

[Voorhees, 2003] E.M. Voorhees.Overview of the TREC 2002 Question Answering Track.In

Proceedings of TREC 11, NIST Publication, 2003.

[Wald, 2003] L. Wald.Data Fusion.Presses de l’Ecole des Mines de Paris, 2003.

[Wallis et al, 1984] J.W. Wallis, E.H. Shortliffe.Customized Explanations Using Causal Knowledge.

In Rule-Based Expert Systems : The MYCIN Experiments of the Stanford Heuristic Programming

Project. Reading, Mass : Addison-Wesley, 1984.

[Webber et al, 2002] B. Webber, C. Gardent, J. Bos.Position statement : Inference in Question

Answering.In Proceedings of LREC, 2002.

[Wilkinson, 1995] J. WilkinsonAggregation in Natural Language Generation : Another Look.Technical

report, Computer Science Department, University of Waterloo, 1995.

213

Bibliographie

[Woods, 1997] W. Woods.Conceptual Indexing : a Better Way to Organize Knowledge.Technical

Report TR-97-61, Sun Microsystems Laboratories, 1997.

[Yu, 2004] J. Yu.SumTime-Turbine : a knowledge-based system to generate English textual summaries

of gas turbine time-series data.Ph.D. thesis, University of Aberdeen, 2004.

[Yu et al., 2005] J. Yu, E. Reiter, J. Hunter, C. Mellish.Choosing the content of textual summaries of

large time-series data sets.Natural Language Engineering, 11, 2005.

[Yuwono et al., 1995] B. Yuwono, S.L. Lam, J.H. Ying, D.L. Lee. A World Wide Web Resource

Discovery System.In Proceedings of the Fourth International World Wide Web Conference, 1995.

214

Annexe A

Corpus de questions

Ci-dessous les 180 questions du corpus d’étude (cf. chapitre 1).

Les questions précédées du signe * sont celles qui ne proviennent pas du corpus de questions de la

campagne TREC.

Où est né Ulysses S. Grant ?

Où est né George Washington ?

Quelle est la plus grande ville d’Allemagne ?

Quel est le nom de la plus haute montagne d’Afrique ?

Où est situé l’immense complexe nucléaire de la Corée du Nord?

Quel est le plus long fleuve des États-Unis ?

Quelle est la capitale de l’Uruguay ?

Quelle est la capitale du Kosovo ?

Où est le Qatar ?

Où est le Danube ?

Où y a-t-il des aborigènes ?

Quelle est la capitale de la Californie ?

Dans quel océan a coulé le Titanic ?

Où est situé le pays basque ?

Où est Glasgow ?

Où eut lieu Woodstock ?

Où se trouve le Louvre ?

Où est mort Howard Hughes ?

Dans quelle province se trouve Montréal ?

Où se trouve la tour Eiffel ?

Où sont conservés les joyaux de la Couronne britannique ?

* Où est Paris ?

217

Annexe A. Corpus de questions

* Où se trouve Disneyland ?

* Où se trouve Brest ?

* Où coule le Rhin ?

* Où se trouve Hawaï ?

* Où se trouve les Alpes ?

* Vers où coule le Rhin ?

* Où puis-je acheter un billet Air France ?

* Où se trouve l’Empire State Building ?

* Où se trouve Toulouse ?

* Où est mort John Lennon ?

Qui fut le premier Américain dans l’espace ?

Qui a gagné le prix Nobel de la paix en 1991 ?

Qui était président du Costa Rica en 1994 ?

Qui jouait le rôle du parrain dans le film "Le parrain" ?

Qui a gagné deux médailles d’or en ski aux jeux Olympiques de Calgary ?

Qui est le fondateur de la scientologie ?

Qui est président du Ghana ?

Quelle équipe a gagné le Super Bowl en 1996 ?

Qui a écrit "Dubliners" ?

Qui a écrit "Hamlet" ?

Qui a inventé la télévision ?

Qui a découvert Hawaii ?

Qui est le prophète de l’islam ?

Qui est Charles Lindbergh ?

Qui a remporté le Superbowl en 1982 ?

Qui fut le trente-troisième président des États-Unis ?

Qui a créé les "Muppets" ?

Qui a gagné la coupe mondiale de rugby en 1987 ?

Qui a créé le personnage de James Bond ?

Quel était le nom du capitaine du Titanic ?

Qui fut le première femme dans l’espace ?

Qui Lee Harvey Oswald a-t-il tué ?

Qui a gagné le prix Nobel de littérature en 1988 ?

* Qui est le maire de Valenciennes ?

* Qui dirige les armées en France ?

* Qui est Jacques Chirac ?

* A qui Bernard Tapie a-t-il vendu le Phocéa ?

* Qui est George Bush ?

218

* Qui a tué John Lennon ?

* Qui était le président des Etats-Unis en 1996 ?

* Qui est président des Etats-Unis ?

* Quel le pays le plus grand exportateur de blé au monde ?

* Qui est l’auteur du roman de Renart ?

* Qui était président de la république française en 1995 ?

Que produit la compagnie Peugeot ?

Quelle étoile est la plus lumineuse vue de la Terre ?

Quelle langue est la plus utilisée à Bombay ?

Quelle est la langue principale des Philippines ?

Que mangent les pingouins ?

Quelle planète est la plus éloignée du soleil ?

Quel est l’édifice le plus haut de New York ?

Qu’est-ce qu’une mangouste ?

Quel est le plus long mot de la langue française ?

Que représente l’acronyme CNN ?

Que signifie l’acronyme NASA ?

Qu’est-ce que Java ?

Qu’est-ce qu’un atome ?

Qu’est-ce que l’autisme ?

* Quel âge a l’Airbus A320 ?

* Quelles sont les principales causes des accidents de la route ?

* Quel diplôme donne accès à l’université ?

* Quelle est la monnaie de la France ?

* Quels animaux portent leur bébé dans une poche ?

* Comment payer mon billet d’avion ?

* Quelles langues sont parlées sur l’île de Jersey ?

* Quelle est la couleur du drapeau français ?

* Quelle est la couleur de la robe des cardinaux ?

* Quel est le meilleur itinéraire pour aller de Paris à Toulouse ?

* L’hôtel IBIS Matabiau est-il cher ?

* L’hôtel IBIS Matabiau est-il loin de l’université Toulouse III ?

* Quel est l’hôtel le plus proche de la gare Matabiau ?

* Combien y a t-il de bacheliers en France ?

* Combien y a t-il d’étudiants à l’Université Paul Sabatier en 2004 ?

* Combien y a-t-il de pions aux échecs ?

* Combien de fois Kuerten a-t-il remporté Roland Garros ?

* Combien y a-t-il de vols Paris-Toulouse par jour ?

219


* Quel était le taux de change dollar US/euro le 4 novembre 2004 ?

* Quel était le taux de change dollar US/euro il y a 3 mois ?

* A quel âge a-t-on le droit de voter en France ?

* A quel âge est mort Victor Hugo ?

* Quelle est la hauteur d’un panier de basket ?

* Quelle est la hauteur du niveau de la Seine ?

* A quelle distance faut-il être de son écran d’ordinateur ?

* Quelle distance y a-t-il entre Paris et Toulouse ?

* Quelle distance y a-t-il entre Toulouse et Castanet ?

* Quelle est la distance Pluton-Soleil ?

* Quelle est la distance Terre-Lune ?

* Quelle est la longueur de la Seine ?

* Quelle est la longueur d’une piscine olympique ?

* Combien pèse une voiture ?

* Quel est le poids de 30 litres d’huile ?

* Quel est le poids d’un ordinateur portable ?

* Combien pèse l’A380 ?

* Combien pèse un labrador ?

Combien pèse un litre d’eau ?

* Quel est le poids autorisé des bagages à main en avion ?

* Combien pèse un i-POD ?

* Combien coûte un visa ?

* Combien coûte une Twingo ?

* Combien coûte une communication téléphonique à l’étranger chez SFR ?

* Quel est le salaire du président de la République ?

* A quelle profondeur peut-on trouver du pétrole ?

* Quelle est la profondeur du tunnel sous la Manche ?

Combien d’îles comptent les Fidji ?

Combien y a-t-il de calories dans un Big Mac ?

* A quelle température bout l’eau ?

Quelle est la température du Soleil ?

* A quelle température servir les vins ?

* Quelle est la température du corps humain ?

* Combien de temps François Mitterrand a-t-il été président?

* Combien de temps a duré la guerre d’Algérie ?

* Combien de temps dure le mandat présidentiel en France ?

* Combien de temps dure le festival de Cannes ?

* Combien de temps dure la période d’essai d’un CDI ?

220

A quelle vitesse se déplace la lumière ?

* A quelle vitesse se délace la Terre autour du Soleil ?

* A quelle vitesse vole l’A380 ?

* Quelle est la vitesse autorisée sur autoroute ?

Quand Beethoven est-il né ?

Quand Hawaii est-elle devenue un État ?

Quand Elvis Presley est-il mort ?

Quand Rosa Parks est-elle née ?

Quand s’est écrasé le Hindenberg ?

Quand le Président Kennedy a-t-il été assassiné ?

Quand Abraham Lincoln est-il né ?

Quand Mozart est-il né ?

Quand Thomas Jefferson est-il né ?

En quelle année le Titanic a-t-il commencé son voyage ?

Quand eut lieu la fusillade de Columbine ?

En quelle année l’Alaska est-elle devenue un État ?

Quand Mike Tyson a-t-il mordu l’oreille de Holyfield ?

Quand Bob Marley est-il mort ?

Quand le Président Herbert Hoover est-il décédé ?

Quand est né Davy Crockett ?

Quand les révolutionnaires français ont-ils pris d’assautla Bastille ?

Quand s’est déroulée la bataille de la Somme ?

Quand la Guerre du Viêtnam a-t-elle pris fin ?

Quand Apollo 11 fut-il lancé ?

Quand le Reichstag a-t-il brûlé ?

Quand Einstein est-il décédé ?

En quelle année la navette Challenger a-t-elle explosé ?

Quand les États-Unis sont-ils entrés dans la Deuxième Guerre mondiale ?

Quand Houdini est-il décédé ?

Quand Jules César est-il né ?

Quand la princesse Diana et le prince Charles se sont-ils mariés ?

Quand eurent lieu les émeutes de Los Angeles ?

Quand Spoutnik fut-il lancé ?

Quand eut lieu l’attentat d’Oklahoma City ?

Quand Walt Disney est-il mort ?

En quelle année Blanche-Neige est-il sorti ?

Quand Marilyn Monroe s’est-elle suicidée ?

En quelle année est paru le Nintendo 64 ?

221


Quand eut lieu la bataille de Shiloh ?

En quelle année fut inventé le phonographe ?

Quand est né le roi Louis XIV ?

* Quand a lieu la fête de la musique ?

* Quand commence l’automne ?

* Quand a été proclamée l’indépendance de l’Algérie ?

222

Annexe B

Corpus d’évaluation : questions

temporelles

Ci-dessous les 70 questions du corpus d’évaluation pour lesquestions temporelles (cf. chapitre 5).

Les questions précédées du signe * sont celles qui ne proviennent pas du corpus de questions de la

campagne TREC.

—————————————————-

ÉVÉNEMENTS PONCTUELS UNIQUES

—————————————————-

Quand Desmond Tutu a-t-il eu le prix Nobel de la paix ?

Quand Nixon est-il mort ?

Quand est né Martin Luther King ?

Quand est mort l’empereur Hirohito ?

Quand a eu lieu l’accident de Tchernobyl ?

Quand Kennedy a-t-il été élu président des Etats-Unis ?

Quand a eu lieu la prise de la Bastille ?

Quand Aldous Huxley a-t-il écrit "le meilleur des mondes" ?

Quand est mort Beethoven ?

Quand est mort Jaco Pastorius ?

Quand est mort Hitler ?

Quand l’amendement accordant le suffrage aux femmes a-t-ilété ratifié en France ?

Quand a été inventé le code barres ?

Quand les Etats-Unis ont-ils acheté l’Alaska ?

Quand Neil Armstrong a-t-il marché sur la lune ?

Quand a eu lieu la Boston Tea Party ?

Quand le Titanic a-t-il coulé ?

223

Annexe B. Corpus d’évaluation : questions temporelles

Quand a été inventé le téléphone ?

————————————————–

ÉVÉNEMENTS DURATIFS UNIQUES

————————————————–

Quand a eu lieu l’ouragan Hugo ?

Quand Nixon a-t-il visité la Chine ?

Quand a eu lieu la guerre des Six Jours ?

Quand a eu lieu l’offensive du Têt au Vietnam ?

Quand a commencé la ruée vers l’or du Klondike ?

Quand a eu lieu la bataille de Chancellorsville ?

Quand eut lieu la bataille d’Iwo Jima ?

Quand a régné Henri VIII ?

Quand l’Algérie a-t-elle été colonisée par la France ?

Quand a été peinte la Joconde ?

Quand Mussolini est-il arrivé au pouvoir ?

Quand s’est déroulée la guerre de Sécession ?

Quand eut lieu la grande dépression aux Etats-Unis ?

Quand a eu lieu la Première Guerre Mondiale ?

Quand vécut Mahomet ?

Quand a régné Louis XIV ?

Quand a eu lieu la première guerre du Golfe ?

* Quand Giscard d’Estaing a-t-il été élu président ?

* Quand a eu lieu la coupe du monde de foot en France ?

——————————————————

ÉVÉNEMENTS PONCTUELS ITERATIFS

——————————————————

En quelle année l’Irlande a-t-elle élu sa première femme présidente ?

Quand était la dernière fête des pères ?

Quand aura lieu la prochaine fête des mères ?

Quand George Bush a-t-il été lu gouverneur du Texas ?

Quand "The Simpsons" ont-ils été diffusés pour la première fois à la télévision ?

Quand la première bombe atomique a-t-elle été larguée ?

Quand a été effectuée la première transplantation du coeur ?

Quand est le solstice d’été ?

En quelle année est paru le premier disque de Janet Jackson ?

Quand eut lieu la dernière éruption du mont Saint-Hélène ?

224

Quand est le Boxing Day ?

Quand a été fabriquée la première Barbie ?

* Quand a eu lieu le premier concert du Vertigo Tour de U2 ?

* Quand Jean-Louis Borloo a-t-il été élu député ?

* Quand a lieu la fête de la musique ?

* Quand auront lieu les prochaines élections européennes ?

* Quand a eu lieu la dernière élection présidentielle en France ?

* Quand a eu lieu la première élection de Miss France ?

—————————————————-

ÉVÉNEMENTS DURATIFS ITERATIFS

—————————————————-

Quand s’est déroulée la bataille de la Somme ?

Quand a lieu la saison des ouragans dans les Caraïbes ?

Quand s’est déroulée la première guerre du Golfe ?

* Quand a eu lieu le dernier festival de Cannes ?

* Quand a eu lieu le premier festival de Cannes ?

* Quand a eu lieu le dernier festival d’Angoulème ?

* Quand aura lieu le prochain festival de Berlin ?

* Quand a eu lieu le dernier festival de Deauville ?

* Quand étaient les vacances scolaires de Noël en 2002 ?

* Quand s’est déroulé le premier voyage de Chirac au Maroc ?

* Quand a eu lieu la première semaine du goût ?

* Quand s’est déroulé la dernière tournée de Mickael Jackson?

* Quand s’est déroulé le premier tournoi de Roland Garros ?

* Quand aura lieu le prochain tournoi de Wimbledon ?

* Quand a eu lieu la dernière coupe du monde de foot ?

* Quand auront lieu les soldes d’hiver ?

* Quand s’est déroulé la dernière coupe du monde de rugby ?

225

Annexe B. Corpus d’évaluation : questions temporelles

226

Annexe C

Corpus d’évaluation : questions

numériques

Ci-dessous les 30 questions du corpus d’évaluation pour lesquestions numériques (cf. chapitre 10).

Quel est le chiffre d’affaire de TOTAL ?

Quel est le montant du SMIC ?

Quel est le montant d’une allocation de recherche ?

Combien y a-t-il d’employés chez VEOLIA ?

Combien y a-t-il d’habitants en France ?

Combien y a-t-il de chômeurs en France ?

Combien y a-t-il de morts du Sida en France ?

Combien y a-t-il d’accidents de la route en France ?

Quel est le taux de mortalité infantile en France ?

Combien pèse la Tour Eiffel ?

Quelle est la température du Soleil ?

Quelle est la hauteur du Mont-Blanc ?

Quelle est la hauteur de la Tour Eiffel ?

Combien gagne un maître de conférences ?

Quelle est la durée du mandat présidentiel en France ?

A quelle distance Katrina se trouve-t-il des côtes américaines ?

Quelle est la taille moyenne d’un homme ?

A quelle température est l’eau de la Méditerrannée ?

Quelle est la température de service des vins ?

Combien pèse un bébé à la naissance ?

Combien y a-t-il de membres à l’ONU ?

Combien y a-t-il d’employés chez HP ?

227

Annexe C. Corpus d’évaluation : questions numériques

Quel est le nombre de cancer en France ?

A quel âge a-t-on le droit de voter en France ?

Quel est l’âge moyen du mariage en France ?

Quel âge a Jacques Chirac ?

Quel âge a la Terre ?

Quel est l’âge de la retraite ?

Quelle est la température en hiver à Paris ?

Quel est le montant du budget de l’éducation nationale ?

228

Annexe D

Implémentation du système

D.1 Implémentation

D.1.1 Interaction avec QRISTAL

Notre système présuppose que le moteur qui recherche les réponses potentielles sur le Web fournisse

pour chaque page Web candidate son URL et le "snippet" associé.

Nous avons utilisé le système question-réponse QRISTAL pour effectuer la tâche de recherche des

pages Web susceptibles de répondre à la question. Chaque question est donc soumise à QRISTAL et les

résultats (liste des URLs et "snippets") sont enregistrés dans un fichier au format HTML. C’est à partir

de ce fichier que travaille notre système.

D.1.2 Détails sur l’implémentation

Notre système est implémenté en Perl. Nous utilisons les modules :

– Tk pour réaliser l’interface graphique,

– HTTP pour se connecter aux site Web à partir de leur URL (pourles questions numériques). Une

fois connecté, le système télécharge le contenu des pages Web et enregistre le tout dans un fichier

qui est ensuite "nettoyé" (suppression des balises HTML, des scripts, etc.).

Réponses de type date.

Les programmes pour le traitement des réponses de typedatefont environ 1500 lignes. Ils traitent :

– le nettoyage des fichiers HTML fournis par QRISTAL : ce nettoyage est simple et rapide car

l’extraction des informations temporelles se fait directement dans les "snippets".

– l’intégration des dates.

– la génération des réponses à l’aide de schémas de génération.

229

Annexe D. Implémentation du système

La grammaire d’extraction en Prolog comporte 15 règles qui permettent d’extraire plusieurs formats

de date, par exemple :

– des dates ponctuelles :21 septembre 1989, 16-08-2006,etc.

– des intervalles temporels :du 12 avril 2005 au 18 mai 2006, entre le 2 janvier 1861 et le..., etc.

– des intervalles temporels avec phénomènes d’agrégation :du 18 au 20 septembre 1989, etc.

Réponses numériques.

Les programmes pour le traitement des réponses numériques font environ 1500 lignes dont :

– environ 450 lignes pour le téléchargement et le nettoyage des pages Web, ainsi que pour l’extrac-

tion,

– environ 750 lignes pour l’intégration des données numériques et la génération des réponses.

Ne sont pas implémentées :

– les fonctions delexicalisation qui permettent :

– de choisir un verbe de mouvement pour lexicaliser le mode devariation : par défaut, seuls les

verbesaugmenteretdiminuersont utilisés dans les explications.

– de réaliser la morphologie des verbes : pour le moment, les réponses qui sont générées n’utilisent

que des verbes conjugués au présent.

– les fonctions d’agrégationqui permettent de générer des réponses plus concises. Par exemple, au

lieu de générerl’âge moyen du mariage en France est de 28 ans pour les femmes et 30 ans pour

les hommes, notre système génére pour le moment la réponse suivante :L’âge moyen du mariage

en France est de 28 ans pour les femmes. L’âge moyen du mariageen France est de 30 ans pour

les hommes.

D.2 Performances

Nous donnons ici les temps d’exécution de chaque tâche pour chaque type de question.

Réponses de type date.

Pour 50 pages Web candidates au maximum : cf. tableau D.1.

230

D.2. Performances

Temps d’exécution en secondesTâches minimum maximumExtraction 0,53 0,80Intégration et génération 0,03 0,03Total 0,56 0,83

TAB . D.1 – Temps d’exécution pour le traitement des réponses de typedate

Réponses numériques.

Pour 50 pages Web candidates au maximum : cf. tableau D.2.

Pour le traitement des réponses numériques, comme il faut seconnecter aux sites Web pour en

télécharger le contenu, le temps d’exécution varie selon letemps nécessaire à la connexion. Le temps

de téléchargement des pages peut prendre plusieurs minutesen cas de problème de connexion aux sites

(nous avons mesuré ce temps à 4 minutes au maximum).

Tâches Temps d’exécution en secondesConnexion aux sites et téléchargement 3,30Extraction 1,45Intégration et génération 0,05Total 4,80

TAB . D.2 – Temps d’exécution pour le traitement des réponses numériques

231

Annexe D. Implémentation du système

232

Résumé

Aujourd’hui, le Web met à la disposition du grand public un très grand nombre de données et les

systèmes de recherche d’informations développés ces dernières années sont des outils pratiques pour qui

souhaite trouver une réponse à une question sur tout type de domaine. L’interrogation de ces moteurs de

recherche se fait sur la base de mots-clés et ceux-ci proposent à l’utilisateur un ensemble de liens vers

des pages Web et/ou des extraits de ces pages traitant du thème de la requête. En revanche, là où les

dictionnaires, encyclopédies et bases de données fournissent une réponse synthétique et cohérente, une

analyse rapide des réponses proposées par les moteurs montrent que celles-ci sont très souvent non per-

tinentes (car elles ne répondent pas à la question posée), incohérentes, etc. C’est donc à l’utilisateur qu’il

revient de trier et de rechercher au sein de ces pages la réponse à sa question. Cette démarche entraîne

une perte de temps considérable, sans pour autant avoir l’assurance de trouver une réponse correcte. Le

problème qui se pose alors est leproblème de la pertinence et de la cohérence des réponsesproposées

à l’utilisateur. Les systèmes question-réponse proposentune alternative à ces problèmes.

Pour cette thèse, nous nous plaçons dans le cadre des systèmes question-réponse coopératifs sur

le Web. Nos principaux objectifs sont de modéliser, concevoir et évaluer un système capable, à partir

d’une question en langue naturelle, de rechercher les réponses pertinentes sur le Web et de générer en

langue naturelle une réponse synthétique, même quand le moteur de recherche sélectionne plusieurs

réponses potentielles. Pour cela, il faut intégrer entre autres les attentes des utilisateurs et des techniques

de traitement de l’information. Travaillant en domaine ouvert, nous nous sommes plus particulièrement

intéressés à deux types de questions : les questions attendant des réponses temporelles (dates) et des

réponses numériques. Notre système a donc pour but :

– l’intégration d’informations provenant des différentesréponses potentielles à une question en uti-

lisant une base de connaissances et des connaissances directement extraites des pages Web. Ce

composant permet notamment de détecter les incohérences dedonnées et de prendre en compte

les attentes de l’utilisateur pour produire une réponse appropriée,

– la production en langue naturelle de réponses synthétiques et pertinentes vis-à-vis de l’utilisateur.

La coopérativité se situe à plusieurs niveaux : il faut produire des réponses courtes, intelligibles et

qui expriment le savoir-faire coopératif mis en oeuvre pourrésoudre les incohérences de données,

– la génération en langue de réponses et d’explications pertinentes en utilisant des techniques de

génération de langue naturelle.

Nous proposons également des méthodes d’évaluation adéquates pour évaluer le système :

– d’un point de vue technique en évaluant les performances dechacun des composants du système,

– d’un point de vue cognitif en confrontant les utilisateursaux réponses produites.

Mots-clés: système question-réponse, inconsistance de données, intégration de données, génération de

langue naturelle, évaluation.

234