systèmes de questions-réponses en domaine...

Université de Nantes

Rapport de Stage de Master 2 ATAL

Systèmes de Questions-Réponses enDomaine Ouvert

Auteur :Emmanuel Turbé

Responsable Laboratoire :Philippe Leray

Responsable Formation :Colin de la Higuera

7 juillet 2015

Table des matières

Remerciements 3

1 Introduction 4

2 Cadre de travail 52.1 Laboratoire d’Informatique de Nantes Atlantique (LINA) . . 52.2 Équipe Data User Knowledge (DUKe) . . . . . . . . . . . . . 52.3 CogniTalk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3 Problématique 7

4 Étude de l’art académique 84.1 Outils du traitement automatiques de la langue . . . . . . . . 8

4.1.1 Étiquetage morphosyntaxique . . . . . . . . . . . . . . 84.1.2 Analyse en dépendances . . . . . . . . . . . . . . . . . 84.1.3 Reconnaissance des entités nommées . . . . . . . . . . 94.1.4 Mesures de similarité . . . . . . . . . . . . . . . . . . . 10

4.2 Ingénierie des connaissances . . . . . . . . . . . . . . . . . . . 114.2.1 Ontologies . . . . . . . . . . . . . . . . . . . . . . . . . 114.2.2 Web Sémantique . . . . . . . . . . . . . . . . . . . . . 124.2.3 Bases de connaissances . . . . . . . . . . . . . . . . . . 13

4.3 Architecture des systèmes de questions-réponses sur des don-nées textuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.3.1 Analyse du type de réponse attendu . . . . . . . . . . 144.3.2 Liens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.4 Architecture des systèmes de questions-réponses sur des don-nées structurées . . . . . . . . . . . . . . . . . . . . . . . . . . 164.4.1 Analyse de la question . . . . . . . . . . . . . . . . . . 174.4.2 Segmentation de la question . . . . . . . . . . . . . . . 174.4.3 Détection des relations . . . . . . . . . . . . . . . . . . 194.4.4 Mapping des éléments de la question avec la base de

connaissances . . . . . . . . . . . . . . . . . . . . . . . 194.4.5 Résolution et requête . . . . . . . . . . . . . . . . . . . 20

4.5 Évaluations et Benchmarks . . . . . . . . . . . . . . . . . . . 204.5.1 Compétitions . . . . . . . . . . . . . . . . . . . . . . . 204.5.2 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . 214.5.3 Génération de Benchmark . . . . . . . . . . . . . . . . 22

1

5 Étude des systèmes existants 235.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235.2 Systèmes purement linguistique . . . . . . . . . . . . . . . . . 23

5.2.1 Squall2SPARQL . . . . . . . . . . . . . . . . . . . . . 235.2.2 Casia . . . . . . . . . . . . . . . . . . . . . . . . . . . 235.2.3 TBSL . . . . . . . . . . . . . . . . . . . . . . . . . . . 235.2.4 ISOFT . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5.3 Systèmes hybrides . . . . . . . . . . . . . . . . . . . . . . . . 245.3.1 DEANNA . . . . . . . . . . . . . . . . . . . . . . . . . 255.3.2 Xser . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255.3.3 gAnswer . . . . . . . . . . . . . . . . . . . . . . . . . . 255.3.4 Casia v2 . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5.4 Systèmes non linguistiques . . . . . . . . . . . . . . . . . . . . 26

6 Contributions 286.1 1er prototype de système de questions-réponses . . . . . . . . 28

6.1.1 Spécifications . . . . . . . . . . . . . . . . . . . . . . . 286.1.2 Conception . . . . . . . . . . . . . . . . . . . . . . . . 286.1.3 Bibliothèques logicielles utilisées . . . . . . . . . . . . 306.1.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . 316.1.5 Analyse des erreurs . . . . . . . . . . . . . . . . . . . . 32

6.2 Génération de questions . . . . . . . . . . . . . . . . . . . . . 336.2.1 Protocole de génération des questions . . . . . . . . . 336.2.2 Corpus Wikipedia . . . . . . . . . . . . . . . . . . . . 346.2.3 Algorithme de génération de questions . . . . . . . . . 346.2.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . 34

6.3 Réseaux Logiques de Markov . . . . . . . . . . . . . . . . . . 356.3.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . 356.3.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . 366.3.3 Expériences . . . . . . . . . . . . . . . . . . . . . . . . 36

6.4 2ème prototype : à partir de Réseaux Logiques de Markov (encours de développement) . . . . . . . . . . . . . . . . . . . . . 376.4.1 Approche . . . . . . . . . . . . . . . . . . . . . . . . . 376.4.2 Ressources de Mapping . . . . . . . . . . . . . . . . . 376.4.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . 38

7 Conclusions et perspectives 39

2

RemerciementsJe souhaite remercier toutes les personnes qui m’ont aidé et accompagné

durant ce stage.

Je remercie Stefan Knerr, fondateur de Cognitalk, pour l’opportunitéqu’il m’a donné de travailler sur un projet passionnant ainsi que pour tousles conseils et remarques qu’il a pu faire. Merci également à François-Marieet Benjamin de Cognitalk pour leur bonne humeur.

Je remercie également Philippe Leray, mon encadrant au laboratoire,pour son accompagnement lors de ce stage et son soutien.

Enfin j’adresse également mes remerciements à tous les membres del’équipe DUKe pour leur accueil.

3

1 Introduction

Depuis les débuts de l’informatique, un souhait récurrent est de pouvoirparler avec la machine. Cette vision apparaît dans la culture populaire quece soit dans la littérature, le cinéma ou les jeux vidéos entre autres. Avec parexemple Samantha dans Her de Spike Jonze ou avec Cortana dans les jeuxvidéos Halo. Mais de telles interfaces de communications avec la machinen’existent pas encore.

Récemment de nombreux projets industriels ont commencé à obtenirdes résultats intéressants en passant par les systèmes de questions-réponses.Parmi ces projets, nous retrouvons Watson d’IBM, Siri d’Apple et GoogleNow de Google par exemple. Mais il n’existe toujours pas d’interface conver-sationnelle.

Créer une interface conversationnelle est l’objectif de Cognitalk, unejeune start-up nantaise. Le stage que j’ai réalisé est en partenariat aveccelle-ci. Le stage a eu lieu de février à juillet 2015 et était un partenariatentre l’équipe DUKe du LINA et Cognitalk. Il avait pour thème principal lessystèmes de questions-réponses. Philippe Leray a été mon encadrant au seindu laboratoire et Colin de la Higuera mon tuteur de formation.

Le stage avait plusieurs objectifs. Le premier était de réaliser un état del’art sur les systèmes de questions-réponses. Le deuxième était de réaliserdes preuves de concepts de systèmes de questions-réponses. Enfin le der-nier objectif était de proposer un système qui pouvait être enrichi avec desconnaissances sur l’utilisateur.

Ce rapport est organisé comme suit. Premièrement le cadre de travail seraprésenté. Ensuite nous détaillerons les problématiques autours des systèmesde questions-réponses. En suite nous verrons l’état de l’art des systèmes dequestions-réponses. Après nous étudierons les systèmes existants s’appuyantsur des données structurées de manière détaillée. Enfin nous parlerons descontributions produites et nous conclurons.

4

2 Cadre de travail

Le stage se place dans le cadre d’une collaboration entre l’équipe DataUser Knowledge (DUKe) du Laboratoire d’Informatique de Nantes Atlan-tique (LINA) et la start-up Cognitalk.

2.1 Laboratoire d’Informatique de Nantes Atlantique (LINA)

Le laboratoire d’informatique de Nantes Atlantique est un laboratoire derecherche en informatique. Il est adossé à l’Université de Nantes, à l’écoledes Mines de Nantes ainsi qu’au CNRS. Une collaboration avec Inria existeégalement depuis 2012. La recherche y est focalisée autour de cinq thèmesscientifiques :

— Contraintes et optimisation : équipes OPTI et TASC— Science des données : équipes DUKe et GDD— Logiciels et systèmes répartis : équipes AeLos, ASCOLA, ATLAN-

MOD et GDD— Ressources et applications multilingues : équipe TALN— Bio-informatique : équipes ComBi et DUKe

2.2 Équipe Data User Knowledge (DUKe)

Le stage a eu lieu dans l’équipe Data User Knowledge (DUKe) du labo-ratoire d’informatique de Nantes Atlantique (LINA), dans leurs bureaux àPolytech Nantes, sous la supervision de Philippe Leray. L’équipe est spécia-lisée dans la science des données. La science des données recouvre les pro-blématiques d’acquisition, de stockage, d’interrogation et de découverte deconnaissances. L’équipe est composée de 17 permanents, 4 associés, 11 doc-torants et 6 ingénieurs. Phillipe Leray, mon encadrant, est spécialisé dans lesreprésentations graphiques probabilistes telles que les réseaux bayésiens etles PRM (Probabilistic Relational Models) par exemple. Les bureaux de cetteéquipe sont répartis entre la faculté des sciences et techniques et PolytechNantes.

2.3 CogniTalk

Cognitalk est une jeune start-up fondée en Octobre 2014 situé au HubCréatic à deux pas de Polytech. L’objectif de l’entreprise est de créer unenouvelle manière d’interagir avec la machine par le biais d’un agent conver-sationnel. Pour cela l’entreprise s’appuie sur des techniques de machine lear-

5

ning.

Elle a été fondée par Stefan Knerr, un spécialiste des réseaux de neu-rones, qui a déjà connu le succès avec sa précédente entreprise, MyScriptspécialisée dans les outils de reconnaissance de l’écriture manuscrite.

L’équipe à la fin de ce stage comportait quatre personnes :— Stefan Knerr, le fondateur ;— François-Marie Giraud, un ingénieur de recherche en machine learning

et traitement automatique du langage naturel qui a travaillé au LIP6 ;— Benjamin Maréchal, ingénieur de recherche qui a une double forma-

tion en mathématiques et machine learning ;— Jérémy Morvan également ingénieur de recherche.

6

3 Problématique

L’objectif de ce stage en collaboration entre le Lina et Cognitalk est defournir un état de l’art et des preuves de concepts autour des systèmes dequestions-réponses.

Un système de questions-réponses est un système qui pour une questionen langage naturel en entrée, répond à l’utilisateur avec la bonne réponse.Par exemple, à la question "Quelle est la capitale de la France" la réponseattendue est "Paris" voir la figure 1.

"Quelle est la capitale de la France"

Système de Questions Réponses

"Paris"

Figure 1 – Systèmes de questions-réponses

Le sujet est ancien [Green Jr et al., 1961] [Simmons et al., 1964]. Il a étéremis au goût du jour avec le projet IBM Watson[Ferrucci et al., 2010] et lessystèmes vocaux sur smartphone avec Siri et Google Now.

Dans le cadre de ce stage les questions posées au système seront sousla forme de texte, un module de reconnaissance vocale pouvant se branchersur le système. Les réponses seront trouvées dans une base de connaissancesstructurée. La langue traitée sera l’anglais.

Un système de questions-réponses permet à l’utilisateur d’interagir demanière naturelle avec l’ordinateur. Il permet également de gagner du tempspar rapport aux moteurs de cherche classique en déléguant à la machinela partie évaluation des documents restitués et la récupération du fragmentcontenant l’information.

7

4 Étude de l’art académique

Dans cette section nous ferons des rappels sur sur différents aspects dutraitement des langues et les bases de connaissances. Ensuite nous détaille-rons l’architecture des systèmes de questions-réponses, d’abord avec des don-nées textuelles comme ressources puis avec des données structurées.

4.1 Outils du traitement automatiques de la langue

4.1.1 Étiquetage morphosyntaxique

L’étiquetage morphosyntaxique est une tâche de linguistique qui consiste,dans un texte, à associer à chaque mot les informations grammaticales qui leconcerne. Les inforations grammaticales sont par exemple la partie du dis-cours (nom, verbe, . . . ), le genre, le nombre, . . . Comme on peut le voir avecl’exemple 4.1.

Exemple 4.1 "The cat jumps on the table." devient "The/Déterminantcat/Nom jumps/Verbe à la 3ème personne on/Préposition the/Déterminanttable/Nom."

Ce processus peut être réalisé par un programme de manière automa-tique. Pour ce faire, il existe deux familles de techniques, celle basées sur lesrègles et les approches stochastiques. De nombreux outils sont disponibles(avec différentes licences) comme par exemple Treetagger 1, Brill tagger 2,Stanford Core NLP 3, . . .

4.1.2 Analyse en dépendances

L’analyse en dépendances d’une phrase a pour but de trouver la structuredes relations entre les mots de celle-ci. L’idée derrière cette analyse est quechaque mot d’une phrase est relié à un autre par une relation de dépendance.Cette idée est issue des travaux de Mel’čuk [Mel’čuk et Polguere, 1987]. Lerésultat d’une analyse en dépendance est un graphe orienté dont les arcsportent le nom de la relation.

Exemple 4.2 "The cat jumps on the table"

1. http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/2. http://www.cs.cmu.edu/Groups/AI/areas/nlp/parsing/taggers/brill/0.html3. http://nlp.stanford.edu/software/corenlp.shtml

8

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

http://www.cs.cmu.edu/Groups/AI/areas/nlp/parsing/taggers/brill/0.html

http://nlp.stanford.edu/software/corenlp.shtml

The cat jumps on the table .

ROOT

det nsubjpobj

prep det

Figure 2 – Analyse en dépendance pour la phrase "The cat jumps on thetable"

L’exemple 4.2 montre l’analyse en dépendance pour la phrase "The catjumps on the table". Le verbe jump est la racine du graphe. Il a deux motsqui dépendent de lui "cat" avec la relation de sujet (nsubj) et "on" avecla relation de préposition. Le mot "table" dépend de "on" avec la relationobjet (pobj). Selon la variante d’analyse en dépendance, les relations avecles prépositions peuvent être portées par le verbe. On parle d’analyse en dé-pendance profonde.

L’analyse en dépendances repose sur des ressources linguistiques de hautniveau, où les mots sont représentés dans un dictionnaire par un ensemblede fonctions dont le nombre et le type de paramètres sont explicités.

4.1.3 Reconnaissance des entités nommées

La reconnaissance des entités nommées est une tâche du domaine del’extraction d’information. La tâche consiste à extraire dans les phrases, leséléments (mot ou groupe de mots) catégorisables dans des classes prédéfinies.Ces classes sont en général les suivantes :

— Personne— Organisation— Lieu— Date— Montant et quantité

L’exemple 4.3 montre le résultat d’une détection d’entités nommées sur laphrase "François Hollande is the 24th and current President of France, since2012".

Exemple 4.3 "François Hollande is the 24th and current Presidentof France, since 2012." devient après utilisation d’un détecteur d’entitésnommées : "François Hollande/Personne is the 24th/Ordinal and cur-rent/Date President of France/Lieu, since 2012/Date."

9

Il est également courant de créer des hiérarchies de classes avec, parexemple, pour les lieux une distinction entre les villes et les régions. Lessystèmes de question-réponse utilisent souvent la reconnaissance d’entitésnommées avec des hiérarchie de plusieurs dizaines de classes.

Pour aller plus loin que ce que font les détecteurs d’entités nommées,une action de désambiguïsation ajoute, en plus du type d’entités, le lien versla ressource Wikipedia correspondante. La difficulté ici est l’ambiguïté del’entité détectée.

L’exemple 4.4 issu de Wikipedia 4 montre bien cette difficulté. Il faut queMichael Jordan soit lié à la page du chercheur et non à celle du sportif. De lamême manière Berkeley représente l’université de Berkeley dans cette phraseet non la ville bien que ce ne soit pas entièrement faux.

Exemple 4.4 Michael Jordan/Personne is professor at Berkeley/Organisation.

4.1.4 Mesures de similarité

Les mesures de similarités vont calculer la proximité entre deux mots ougroupes de mots.

L’une des mesures les plus utilisées est celle du cosinus. Elle est basée surla représentation vectorielle des mots. Sa formule est visible dans l’équation1.

cos(θ) =

n∑i=1

Ai ×Bi√n∑

i=1A2

i ×√

n∑i=1

B2i

(1)

C’est le produit scalaire des vecteurs de chacun des mots. Si deux motsont les mêmes contexte le cosinus sera de 1, au contraire s’ils n’ont rien encommun le résultat sera 0.

Pour obtenir une représentation vectorielle des mots, une technique simple,basée sur le principe que l’on reconnaît un mot par son voisinage, est decompter les occurrences des voisins dans une fenêtre donnée dans un cor-pus. Une autre manière d’obtenir une représentation vectorielle est d’utiliser

4. http://en.wikipedia.org/wiki/Named-entity_recognition#Current_challenges_and_research

10

http://en.wikipedia.org/wiki/Named-entity_recognition#Current_challenges_and_research

http://en.wikipedia.org/wiki/Named-entity_recognition#Current_challenges_and_research

Word2vec 5. Word2vec est outil basé sur la représentation continue des sacde mots [Mikolov et al., 2013].

Une autre mesure très utilisée est la mesure Jaccard. Comme pour la me-sure cosinus, il faut entraîner des vecteurs sur un corpus. Pour comparer deuxvecteurs A et B voir la formule 2. Le résultat est donc le nombre d’élémentscommuns à A et B divisés par le nombre total d’éléments différents.

J(A,B) =|A ∩B||A ∪B|

(2)

Des mesures de similarités basées sur Wordnet existent également. Word-net 6 est une base de données lexicale développée par des linguistes de l’uni-versité de Princeton. Elle contient des hiérarchies de synsets qui est l’unitéde base de cette ressource. Un synset est un ensemble de mots synonymesavec la même classe grammaticale. La structure hiérarchique permet doncd’obtenir les hyperonymes et les hyponymes facilement. La branche la plusdense de Wordnet est celle des noms. Parmi les mesures de similarité, il y a

— [Hirst et St-Onge, 1998]— [Leacock et Chodorow, 1998]— [Banerjee et Pedersen, 2002]— [Wu et Palmer, 1994]— [Resnik, 1995]— [Jiang et Conrath, 1997]— [Lin, 1998]Toutes ces mesures sont testables sur WN4J Demo qui est un site dé-

veloppé par Hideki Shima. Le site fourni aussi le code source Java 7 utilisémais la version de démonstration comporte des corrections non disponiblesdans la bibliothèque à disposition.

4.2 Ingénierie des connaissances

4.2.1 Ontologies

En informatique, une ontologie sert à représenter les connaissances d’undomaine. Elle est représentée par un graphe qui se compose de plusieurséléments et caractéristiques :

5. https://code.google.com/p/word2vec/6. https://wordnet.princeton.edu7. https://code.google.com/p/ws4j/

11

http://ws4jdemo.appspot.com

https://code.google.com/p/word2vec/

https://wordnet.princeton.edu

https://code.google.com/p/ws4j/

— classes— propriétés— structure hiérarchique— relations sémantiques— instances— axiomesLes classes sont les éléments hiérarchiques. Par exemple la classe hu-

main est une sous-classe de mammifère. Le schéma de la figure 3 montre unexemple de structure de connaissances.

La population d’une ontologie est le fait d’ajouter de nouvelles instancesà celle-ci en gardant la structure des concepts déjà établie.

L’enrichissement d’une ontologie est l’ajout ou la modification des rela-tions, des propriétés et des concepts.

Anne Hidalgo Paris

PersonParti

Socialiste (France)

Mayor

Type Party

Figure 3 – Exemple de structure de connaissances

4.2.2 Web Sémantique

Le web sémantique [Berners-Lee et al., 2001] est un mouvement qui chercheà structurer les connaissances du web, afin que celles-ci soient accessiblespour différentes applications.

Pour cela, le web sémantique s’appuie sur les technologies de l’ingénieriedes connaissances, principalement sur les ontologies. Les connaissances sontorganisées en triples RDF dont la forme est sujet, prédicat, objet. Les basesde données sont interrogeables avec le langage de requêtes SPARQL. Parexemple dans la figure 3, un des triple serait Paris(sujet), Mayor(prédicat)et Anne Hidalgo (objet).

Tim Berners-Lee est à l’initiative de ce projet soutenu par le W3C.

12

4.2.3 Bases de connaissances

Il existe plusieurs bases de données sémantiques disponible sur le web. Lenoyau du web sémantique est dbpedia [Auer et al., 2007] qui a été construità partir des infobox de Wikipedia 8. Dbpedia, comme Wikipedia, a des res-sources dans plusieurs langues. En 2014, la base de donnée représentait unensemble de :

— 4,58 million entités— 3 milliards de triples RDF

En étant basée sur Wikipedia, Dbpedia est donc un projet participatif. Leprojet YAGO [Suchanek et al., 2007] est une extension de Dbpedia qui l’en-richie de 41,2 million données de classes.

Une autre grande base de donnée sémantique est Freebase 9. Elle est is-sue de la société Metaweb racheté par Google en 2010. Elle est utilisé parGoogle pour son Knowledge Graph 10. Et sert de base pour la constructionde son Knowledge Vault[Dong et al., 2014]. Initialement créée par une entre-prise, elle est maintenant enrichie de manière participative. Le 31/03/2015,la base est verrouillée en lecture seule et ne sera plus accessible dans sa formeactuelle le 30/06/2015. L’ensemble des données est transféré au projet Wi-kidata.

Wikidata est le dernier projet de la fondation Wikimedia. L’objectif deWikidata est de créer une base de connaissance qui va servir à l’enrichisse-ment de Wikipedia. Pour cela, les articles de Wikipedia intégreront des liensvers les données Wikidata. Cela permet de mettre à jour automatiquementles données des articles dans différentes langues sans avoir à éditer chacun deceux-ci à la main et donc avoir une plus grande rapidité dans la propagationde l’information. Wikidata est donc une base récente mais déjà riche grâceà sa fusion avec Freebase.

Il existe de nombreuses autres bases de connaissances, que ce soit dansle linked data avec par exemple la base LMDB spécialisé dans les films etmusicbrainz spécialisé dans la musique, . . .

8. https://www.wikipedia.org9. https://www.freebase.com

10. http://en.wikipedia.org/wiki/Knowledge_Graph

13

https://www.wikipedia.org

https://www.freebase.com

http://en.wikipedia.org/wiki/Knowledge_Graph

4.3 Architecture des systèmes de questions-réponses sur desdonnées textuelles

Dans cette section, nous nous intéresserons aux systèmes de questions-réponses dont les résultats sont extraits de documents textes, le plus souventissue du web. Seules les approches sur des domaines ouverts seront vu. Pourrappel, on considère que le domaine est ouvert s’il est possible de poser unequestion sur n’importe quel sujet. L’architecture de ce type de systèmes estde manière générale la suivante :

1. Analyse du type de réponse attendu

2. Génération de la requête pour la recherche de document

3. Recherche des documents pertinents

4. Recherche des passages pertinents

5. Extraction de la réponse

Un schéma de l’architecture est visible sur la figure 4.

4.3.1 Analyse du type de réponse attendu

Un des composants importants des systèmes de questions-réponses estcelui qui analyse le type de réponse attendu. Le type de réponse attendu est lerésultat d’une classification dans une taxonomie de type de réponses possible.Connaître le type de réponse attendu permet d’améliorer la recherche de laréponse et de valoriser des candidats à la fin du processus d’extraction de laréponse.

Exemple 4.5 Pour la question "qui a écrit le seigneur des anneaux ? ", letype de réponse attendu pourra être "une personne" ou si la taxonomie estplus précise "un auteur".

Li and Roth fournissent dans leur article [Li et Roth, 2002] une taxo-nomie à deux niveaux, le premier avec 6 classes principales et un secondqui comporte cinquante classes. Un dataset avec des questions labellisées estfourni pour l’apprentissage 11. Mais les systèmes de questions-réponses uti-lisent souvent plus de classes dans leurs taxonomies, en allant parfois jusqu’àplusieurs milliers de classes.

Pour identifier le type de réponse attendu, il existe trois approches pos-sibles.

11. http://cogcomp.cs.illinois.edu/Data/QA/QC/

14

http://cogcomp.cs.illinois.edu/Data/QA/QC/

Génération de la requête

IndexationRécupération

des documents

Récupération des passages

Detection du type de réponse

Génération de la réponse

Question en Langage Naturel

Documents

PassagesType de réponse

Réponse

Analyse de la question

Recherche d'informations

Système de Questions-réponses

Documents

Figure 4 – Architecture système de questions-réponses sur des documentstextuels

15

La première est par heuristiques, c’est à dire à l’aide de règles définie parun expert. Cette approche est donc coûteuse et difficilement évolutive. Maiselle permet une grande précision quand les règles sont utilisables mais n’estpas robuste.

La deuxième approche est d’utiliser de l’apprentissage automatique àl’aide de corpus annoté. Cette approche permet une meilleur couverture desdifférentes question possible mais est moins précis que l’approche par heu-ristique.

La dernière approche est celle qui donne les meilleurs résultats. C’est l’ap-proche hybride qui combine les deux approches précédentes. Des heuristiquessont créées pour être utilisées comme feature des algorithmes d’apprentissage.

4.3.2 Liens

Pour aller plus loin sur les systèmes de question-réponse basés sur des re-cherches textuelles, voir les articles [Pasca et Harabagiu, 2001] et [Ferrucci et al., 2010],ainsi que les articles liés à TREC QA 12

4.4 Architecture des systèmes de questions-réponses sur desdonnées structurées

De nombreux travaux ont émergé ces dernières années autours des sys-tèmes de question-réponse sur les bases de données de triples RDF, no-tamment grâce à la compétition QALD (Question Answering over LinkedData)[Unger et al., 2014].

L’objectif de ces systèmes est de profiter du mouvement web sémantiquepour obtenir des bases de connaissances riches et exploitables, avec des don-nées de qualité. L’utilisation d’une base de connaissance structuré permetde répondre à des questions complexes pour lesquelles il est difficile pour lesapproches basées sur des ressources textuelles de répondre.

L’architecture de ces systèmes est assez semblable entre les approches etse décompose de la manière suivante :

1. Analyse de la question

12. http://trec.nist.gov/data/qamain.html

16

http://trec.nist.gov/data/qamain.html

2. Segmentation de la question

3. Détection des relations

4. Mapping de la question avec la base de connaissances

5. Interrogation de la base

Pour plus de détails voir le schéma sur la Figure :5.

4.4.1 Analyse de la question

La première étape, comme pour les approches sur les documents textuels,consiste à analyser la question pour obtenir le type de réponse attendu. À ladifférence des systèmes de questions-réponses basés sur des documents tex-tuels, le type attendu peut être lié à l’ontologie de la base plutôt qu’à unetaxonomie créée spécifiquement sur cette tâche.

La phase d’analyse de la question permet également de déterminer queltype de requête SPARQL devra être utilisé pour interroger la base. Si unequestion attend une réponse booléenne alors une requête SPARQL de typeASK est nécessaire. Dans les autres cas, une requête SELECT sera utilisé.

4.4.2 Segmentation de la question

L’étape suivante consiste à segmenter la question pour en extraire desunités sémantiques. Plusieurs techniques sont utilisées pour cela.

La première consiste à utiliser un détecteur d’entités nommées qui per-met de trouver les entités nommées. Les entités nommées sont les élémentsles plus simple à associer à une ressource sémantique même s’il peut existerplusieurs candidats possible pour une entité nommée. Les détecteurs d’enti-tés nommées ne sont pas utilisés dans tous les système car il leur est reprochéun faible rappel, ce qui dans un contexte court comme dans les questions estpréjudiciable pour le reste de la résolution.

Pour l’identification des segments correspondants aux relations une ana-lyse sémantique utilisant les arbres de dépendances est souvent utilisée.

17

Segmentation

Identification des relations

Mapping

Conversion en Triples

Requête SPARQL

Detection du type de réponse

Traitement des candidats


Segments

Graphe de segments

Graphe d'éléments RDF

Triples RDF

Résultats requête

Type de réponse

Réponse

Analyse Structurelle

Interrogation de la base

Base de données

sémantiques

Système de Questions-réponses

Ressources externes

Figure 5 – Architecture système de questions-réponses sur des bases dedonnées sémantiques

18

4.4.3 Détection des relations

L’étape de détection des relation consiste à identifier dans la questioncomment les segments sont articulés.

Une relation peut être vu comme un triple de la forme :Anne Hidalgo , est maire de , Paris. Un ensemble de triples forme un

graphe de relations.Dans le cadre d’une question, la relation est incomplète et doit être résolu.

L’exemple 4.6 montre le résultat de la décomposition pour la question "Inwhich popular sport the father of Joakim Noah succeded ? "

Exemple 4.6 "In which popular sport the father of Joakim Noah succeded ?"

— X, is a, Sport— X, is, popular— Y, succeded in X,— Y, is father of, Joakim Noah

Pour identifier de telles relations, l’analyse en dépendance est un outilpuissant. Cependant il nécessite des ressources linguistiques et ne pourradonc pas être utilisé dans toutes les langues.

Pour éviter une analyse en dépendance, longue en temps de traitementet nécessitant des ressources spécifiques, une approche avec des diction-naires de relations comme avec PATTY [Nakashole et al., 2012] ou ReVerb[Fader et al., 2011] permet de réaliser une autre approche mais avec une pré-cision moindre.

4.4.4 Mapping des éléments de la question avec la base de connais-sances

Ensuite, il faut mapper les segments avec les ressources des bases deconnaissances. Les ressources sont les entités, classes et prédicats. En géné-ral chacune de ces ressources sont mappées avec des techniques différentes.L’identification des relations à l’étape précédente permet d’améliorer le map-ping.

L’approche la plus simple du mapping est celle qui utilise la comparaisondes chaînes de caractères de la question avec les labels des entités dans labase de données. Cette approche marche bien pour les entités nommées mais

19

beaucoup moins pour le mapping des relations

Il est également possible de constituer des dictionnaires de mapping (pourles entités et les prédicats) comme avec PATTY [Nakashole et al., 2012] parexemple, pour lequel le mapping des relations extraites est déjà réalisé avec225 prédicats de dbpedia. L’exemple de PATTY impose cependant de consti-tuer des dictionnaires de qualités pour éviter une trop faible précision et lagénération de bruits.

Pour le mapping des prédicats, il est courant qu’une relation soit ex-primée par un hyperonyme ou un hyponyme. Dans ce cas l’utilisation deWordnet pour le mapping permet d’obtenir de bons résultats.

L’utilisation des mesures de similarités permet aussi de réaliser les map-pings en cherchant les similarités les plus proches. Il faudra définir un seuilde similarité lors d’expérimentations.

4.4.5 Résolution et requête

Enfin la dernière étape consiste à créer les différents triples nécessairespour générer la requête SPARQL nécessaire à l’interrogation de la base dedonnées. Selon les stratégies employés précédemment, plusieurs candidatspeuvent exister pour chacune des étapes. Il faut donc mettre en place desstratégies d’élimination de candidats à chaque étape ou le faire de manièreglobale. Casia v2 [He et al., 2014] résout l’incertain en fin de processus grâceaux Markov Logic Network. DEANNA [Yahya et al., 2012] le fait avec del’optimisation linéaire en nombres entiers (Integer Linear Programming) à lafin aussi. Alors que dans Xser [Xu et al., 2014] l’opération d’élimination decandidats est réalisé à chaque étape.

4.5 Évaluations et Benchmarks

4.5.1 Compétitions

Le sujet des systèmes de questions-réponses sur domaine ouvert a donnélieu à l’organisation de nombreuses compétitions autour de ce sujet. Parmiles plus connues, on retrouve TREC QA qui a eu lieu de 1999 à 2007 quiévalue les systèmes sur des réponses basées sur des documents. Cette compé-tition faisait partie des campagnes TREC qui s’intéressent particulièrementà la recherche d’information.

20

Les compétitions basées sur les bases sémantiques sont plus récentes. Laprincipale est la compétition QALD qui a lieu depuis 2011. Elle est aujour-d’hui organisée dans le cadre de la campagne CLEF qui est aussi axée sur larecherche d’information. La dernière compétition QALD évaluée (QALD-4[Unger et al., 2014]) a eu lieu en 2014. La prochaine a lieu du 8 au 11 sep-tembre 2015 à Toulouse.

La tâche QALD est de répondre à des questions sur domaine ouvert en sebasant sur des bases de données sémantique le plus souvent sur dbpédia. Lesquestions sont multilingues mais peu de participant on essayé de répondreau questions autres que celles en anglais.

Les datasets de questions QALD sont disponibles au format XML [Unger, 2013][Unger, 2014].

4.5.2 Évaluation

Pour évaluer la qualité d’un système de questions-réponses sur des do-maines ouvert, il faut un nombre important de question et être capable d’éva-luer automatiquement les réponses générées. Il faut donc des données où sontfournies les questions et les réponses.

Pour l’évaluation des réponses, il y a quatre manières de procéder.

La première manière est l’évaluation par l’humain. L’opérateur indiquesi oui ou non la réponse est bonne et aussi si elle est cohérente.

Exemple 4.7 Question : Où se trouve Paris ? Réponse : en France

Si le système répond en Europe pour l’exemple 4.7 , la réponse est co-hérente bien que fausse vis-à-vis de l’attendu. Cette évaluation n’est pasréalisable à grande échelle. Mais dans un système avec échange avec l’utili-sateur, l’information sur la qualité de la réponse peut être récupéré. C’est lecas pour le système Evi 13 d’Amazon qui permet d’indiquer si la réponse estsatisfaisante ou pas.

Pour évaluer les systèmes de questions-réponses, la méthode automa-tique la plus simple est d’avoir un ensemble de questions et leurs réponses.Puis de lancer le systèmes sur ces questions et compter les bonnes réponses.

13. https://www.evi.com

21

https://www.evi.com

Cette technique d’évaluation a l’avantage de pouvoir tester le système surde grandes échelles de manière automatique. Mais les réponses partielles oucohérentes ne sont pas prises en compte.

Une troisième technique d’évaluation, pour les système qui répondentavec plusieurs candidats, est de calculer le rang d’apparition de la bonneréponse si elle est fournie par le système. Cette évaluation permet de voirl’amélioration globale des systèmes évalués et permet également d’identifierles cas les plus problématiques.

La dernière méthode d’évaluation, qui est également pour les systèmesà plusieurs candidats, est le MRR (Mean Reciprocal Rank) dont la formuleest la suivante :

MRR =1

|Q|

|Q|∑i=1

1

ranki

Où ranki est le rang de la bonne réponse parmi les candidats. Ce quidonne pour une bonne réponse en rang 1 MRR= 1. Pour une question dontla réponse est au rang 2 MRR= 0, 5. Dans la pratique au delà du rang 5 leMRR= 0. Cette évaluation permet d’avantager les systèmes dont la réponseest bien placée parmi les candidats.

4.5.3 Génération de Benchmark

Pour évaluer les systèmes de question-réponse, il est très utile de pou-voir produire des jeux de questions automatiquement. Michael Heilman s’estintéressé à ce sujet dans sa thèse [Heilman, 2011]. Il propose un outil 14 quià partir de textes, produit des questions de manière automatique. Les ques-tions produites sont fournies avec la réponse souhaitée.

La qualité des questions générées dépend en partie de la qualité du corpusde textes. Dans sa thèse Michael Heilman émet un doute sur la capacitéde son programme à générer des questions de bonne qualité à partir deWikipedia. En effet selon lui, le côté participatif de Wikipedia produit destextes parfois mal formés ou avec un style qui n’avantage pas les techniquesutilisées pour la génération de questions. Pour ses expérimentations, MichaelHeilman a utilisé principalement les textes de l’encyclopédie Britanica.

14. http://www.ark.cs.cmu.edu/mheilman/questions/

22

http://www.ark.cs.cmu.edu/mheilman/questions/

5 Étude des systèmes existants

5.1 Introduction

Différents systèmes de questions-réponses existent dans la littérature.Seuls les systèmes sur des données structurées sont étudiés dans cette section.On peut classer ces systèmes dans trois catégories :

1. les systèmes s’appuyant uniquement sur les ressources linguistiques ;2. les systèmes s’appuyant à la fois sur des ressources linguistiques et du

machine learning ;3. les systèmes s’appuyant uniquement sur des techniques de machine

learningLes techniques et outils utilisés par les différents systèmes sont détaillés

pour chaque étape (voir section 4.3) du système dans les tableaux 1 à 4.

Les performances des systèmes sont visibles dans le tableau 5.

5.2 Systèmes purement linguistique

Les systèmes purement linguistique se basent sur les outils du traitementautomatique de la langue. Les règles heuristiques y sont très utilisées.

5.2.1 Squall2SPARQL

Squall2SPARQL [Ferré, 2013] est un système où les questions sont refor-mulés en anglais contrôlé : le squall, le mapping vers les ressources séman-tiques est donné par l’utilisateur. L’approche se base sur les grammaires deMontague qui utilisent des concepts de la logique.

5.2.2 Casia

Casia [He et al., 2013] a une architecture simple qui utilise une architec-ture en pipeline pour résoudre la question posée.

5.2.3 TBSL

TBSL [Unger et al., 2012] utilise d’abord un dictionnaire de mots clés gé-nériques ("give me", "which", . . . ) pour ensuite à l’aide du parse tree choisirun template dont les slots sont remplis avec les éléments en langage naturel.Ensuite ces éléments sont mappés et enfin la meilleur requête exécutée. Avecles templates, TBSL peut gérer les conditions Filter et les agrégations.

23

Système Segmentation RemarqueSquall2SPARQL Grammaire de Montague questions reformulée

par l’utilisateurCasia détecteur d’entités nommées ;

mots clés fournis ;arbre de dépendances

TBSL détecteur d’entités nommées ;heuristiques à partir du POS Tag

ISOFT Templatesdétecteur d’entités nommées ;

mots clés fournis ;AIDA ; [Hoffart et al., 2011]

Arbre de dépendancesDEANNA Heuristiques ; plusieurs candidats

détecteur d’entités nomméesdictionnaire

Arbre de dépendancesXser Structured PerceptrongAnswer Arbre de dépendancesCasia v2 Heuristiques plusieurs candidats

à partir de la longueur etdu POS tag

Table 1 – Phase de segmentation des différents systèmes

5.2.4 ISOFT

ISOFT [Park et al., 2014] est une extension de TBSL où le mapping desressources et l’analyse de la question ont été modifiés.

5.3 Systèmes hybrides

Les systèmes hybrides utilise les outils du traitement des langues com-binés à des algorithmes d’apprentissage automatique. Cela permet de gérerl’incertain et de faire apparaître des patterns à partir des données d’appren-tissage.

24

Système Détection des relations RemarqueSquall2SPARQL Grammaire de MontagueCasia Arbre de dépendancesTBSL Templates construits à

partir du parse treeet d’heuristiques

ISOFT Templates construits àpartir de l’arbre de

dépendancesDEANNA Arbre de dépendancesXser Phrase DAG parsinggAnswer Arbre de dépendancesCasia v2 Arbre de dépendances

en feature

Table 2 – Phase de détection des relations des différents systèmes

5.3.1 DEANNA

Dans DEANNA [Yahya et al., 2012], l’originalité est l’utilisation d’Inte-ger linear programming pour la gestion des hypothèses lors de la résolutionde la question.

5.3.2 Xser

Le système Xser [Xu et al., 2014] segmente et calcule les relations entreles segments de manière indépendante de la base de connaissances. Ensuitele mapping est fait avec la base de connaissances choisie.

5.3.3 gAnswer

L’approche de gAnswer [Zou et al., 2014] est de considérer le problèmedu questions-réponses comme un problème de graph-matching. La questionest transformée en plusieurs graphes candidats. Le meilleur candidat estconsidéré comme étant la requête qui donne la réponse. Le système serait undes plus rapides en temps d’exécution.

5.3.4 Casia v2

Dans Casia v2 [He et al., 2014], toutes les incertitudes de chacune desétapes de la résolution de la question sont conservées jusqu’à la fin. C’est

25

Système Mapping RemarqueSquall2SPARQL fourni par l’utilisateur

lors de la reformulationCasia Matching

DictionnairesLevenshteinWordnet

HeuristiquesPATTY [Nakashole et al., 2012]

TBSL MatchingBOA [Gerber et Ngomo, 2011]

WordnetISOFT Dictionnaire

similarité ESAPATTY apporte peu d’améliorations

DEANNA dictionnaireXser wikipedia miner tool 15

dictionnaire de prédicatsPATTY

gAnswer dictionnaire de construit à partirparaphrases de PATTY et ReVerb

Casia v2 MatchingDictionnairesLevenshteinWordnet

Heuristiques

Table 3 – Phase de mapping des différents systèmes

alors que le Markov Logic Network est utilisé pour résoudre de manière jointetoutes les incertitudes.

5.4 Systèmes non linguistiques

Les systèmes non linguistique s’appuient uniquement sur les techniquesd’apprentissage automatique pour répondre aux questions.

L’article "Open Question Answering with Weakly Supervised Emmbed-ding Models" [Bordes et al., 2014] propose une approche pour réaliser unsystème de question-réponse à partir d’une base de connaissances. Ici la base

26

Système Résolution RemarqueSquall2SPARQL Traduction du langage

Squall en SPARQLCasia extraction de triples bidirectionnelleTBSL Score pour choisir

le meilleur templateISOFT Score pour choisir

le meilleur templateDEANNA Integer Linear ProgrammingXser Beam Search pour choisir

le meilleur mapping ;heuristiques pour la

conversion en SPARQLgAnswer Graph matchingCasia v2 Markov Logic Network

Table 4 – Phase de résolution des différents systèmes

Système Rappel Précision F-mesure ÉvaluationSquall2SPARQL 0.88 0.93 0.90 QALD 3Casia 0.36 0.35 0.36 QALD 3TBSL 0.61 0.63 0.62 QALD 1ISOFT 0.26 0.21 0.23 QALD 4DEANNA 0,37 0.50 0.43 QALD 1Xser 0.71 0.72 0.72 QALD 4gAnswer 0.37 0.37 0.37 QALD 4Casia v2 0.40 0.32 0.36 QALD 4

Table 5 – Performances des différents systèmes

utilisée est ReVerb [Fader et al., 2011].

L’objectif du système proposé est de fournir le triple qui correspond à laréponse de la question en langage naturel.

Pour l’apprentissage des embedding, une méthode pour générer automa-tiquement des triples en questions est proposé.

27

6 Contributions

6.1 1er prototype de système de questions-réponses

6.1.1 Spécifications

Le premier prototype de système de questions-réponses avait pour objec-tif de répondre à des questions simples. Une question simple est une questionqui commence par "What", "When, "Where" ou "Who" et qui ne contientpas de relations en cascade. Par exemple la question "Who is the daughterof Bill Clinton is married to ?" est une question avec des relations en cascade(daughter et married to). Une autre contrainte pour les questions était laprésence obligatoire d’une entité nommée dans la question. Pour répondre àla question, une approche par règles a été utilisée.

6.1.2 Conception

L’architecture retenue pour le prototype est visible sur la figure 6. L’ar-chitecture retenue est inspirée de celle du système CASIA v1 (voir section5.2.2).

Pour décrire le fonctionnement des différents composants, la question"What is the largest city in Australia" servira de fil conducteur.

D’abord la question en entrée est POS taggé avec Stanford Core NLP.Ensuite le résultat du POS tagging est utilisé pour détecter les entités nom-mées de la question. Pour cela les suites de mots dont le POS tag est "NNP"(nom propre au singulier) ou "NNPS" (nom propre pluriel) sont réunies.

Exemple 6.1 "What/WP is/VBZ the/DT largest/JJS city/NN in/INAustralia/NNP"

Le détecteur d’entités nommés fourni par Stanford Core NLP n’est pasutilisé car pendant les expérimentations, il avait un rappel trop faible. Toutesles suites de noms propres sont retenues, bien que la contrainte sur les ques-tion les limite à une par question.

Pour chaque entité nommée identifiée, les ressources dbpedia correspon-dantes sont recherchés. Pour cela, une recherche sur la valeur du prédicat"label" est effectuée. Cette opération est la plus longue du système, elle dureparfois plusieurs minutes. À l’issue de cette recherche s’il y a zéro candidatpour le mapping des entités nommées, le programme s’arrête.

28


Pos Tagging

Détection des Entités Nommées

Question Taggée

Mapping des Entités Nommées

Question avec les entités nommées identifiées

Détection des relations en langage

naturel

Création Arbre de

Dépendences

Arbre de dépendences

Mapping des

relationsRelations en langage naturel

Liste URI

Interrogation DBPedia

Tri des réponses

candidates

Détection Type de la réponseType de

réponse attendu

Triples candidats

candidats URI réponse

Entités Nommées

URIs Réponse

Figure 6 – Architecture du 1er prototype

29

Ensuite, les relations sont détectées. La phrase est convertie en arbre dedépendance. Les relations sont détectées dans l’arbre en partant de l’entiténommée la plus éloignée de la racine puis en allant jusqu’au "Wh" word quicommence la phrase. Chaque noeud de ce parcours est considéré comme unerelation. Comme avoir une seule relation est une contrainte sur les questions,le programme s’arrête s’il y a plus d’un noeud dans le chemin. À l’issue decette étape, la relation en langage naturel est identifié. L’arbre de dépen-dance de l’exemple 6.1 est visible sur la Figure 7. Dans l’exemple le cheminde la relation est What-city-Australia.

Maintenant c’est le module de mapping des relations qui commence.D’abord la relation étendue en langage naturel est calculé. Pour l’exemple6.1 cela signifie que de la relation "city", on passe à la relation "largest city".L’extension de relation se fait en prenant les mots de l’arbre des dépendancesqui sont liés au mot relation et qui ne sont pas dans le chemin entre l’entiténommée et le "Wh" word.

Avec cette relation étendue, on peut chercher le prédicat correspondant.La liste des candidats est la liste des prédicats dont l’URI de l’entité nom-mée est sujet. Puis on concatène les mots de la relation en langage naturelet s’il y a une correspondance alors le prédicat est sélectionnée et on passeà l’étape suivante. Sinon on regarde si la forme courte de la relation ("city"dans l’exemple) correspond. S’il n’y a toujours pas de prédicat correspondantalors on essaye avec le lemme de la relation courte. En l’absence de corres-pondance, on cherche un prédicat qui contient la forme courte de la relation.S’il n’y a toujours pas de correspondance alors on regarde si les synonymesou les hyperonymes de la relation permettent de définir un prédicat candidat.Enfin s’il n’y toujours pas de prédicat candidat la distance de Levenshteinest utilisé pour choisir un candidat. A l’issue de cette étape, un ou plusieursprédicats candidats sont sélectionnés

Dbpedia est interrogé pour chacun des candidats. Cela forme l’ensembledes réponses candidates. Le type de la question permet de trier les candidatsen favorisant ceux avec le type attendu. Le candidat au rang 1 est la réponsechoisie par le système.

6.1.3 Bibliothèques logicielles utilisées

Le prototype est codé en Java et utilise Maven pour la gestion des dé-pendances. La version de Java utilisée est Java 7. Pour toutes les parties

30

What is the largest city in Australia .

ROOT

cop

nsubj

det

amod

prep in

Figure 7 – Arbre de dépendances de la question : "What is the largest cityin Australia ?"

traitement du langage, Stanford Core NLP 16 (version 3.4.1) est utilisé. L’in-terrogation des bases de données sémantiques (via SPARQL endpoint) estréalisé avec Apache Jena 17 (version 2.12.1). Pour l’exploitation de wordnet,la librairie JWI 18 (MIT Java Wordnet Interface en version 2.2.3) qui est uti-lisée. Pour différentes opérations sur les chaines de caractères la bibliothèqueApache Commons Lang 19 (en version 3.3.2).

6.1.4 Résultats

Trois versions de ce premier prototype ont été développées. La premièrequi utilisait le dictionnaire de PATTY pour le mapping de relation, a donnédes résultats très médiocres et n’a pas été évalué. La deuxième version uti-lisait toutes les règles décrites précédemment pour constituer une liste map-ping de prédicats. La dernière version se concentre sur la priorité donnéesaux règles afin d’avoir moins de candidats pour les réponses. Une modifica-tion de l’utilisation de Dbpedia pour le mapping des entités nommées a aussiété mis en place pour cette version.

Dans la suite v1 signifiera la deuxième version du prototype et v2 latroisième.

Version NB questions R NB de réponses P@1 P@allv1 54 33, 3 28 64, 3 78, 6v2 54 38, 9 26 80, 8 80, 8

Table 6 – Résultats des différentes version du 1er prototype, avec les préci-sions au rang 1 et à tout rang

16. http://nlp.stanford.edu/software/corenlp.shtml17. https://jena.apache.org18. http://projects.csail.mit.edu/jwi/19. https://commons.apache.org/proper/commons-lang/

31

http://nlp.stanford.edu/software/corenlp.shtml

https://jena.apache.org

http://projects.csail.mit.edu/jwi/

https://commons.apache.org/proper/commons-lang/

Les résultats de la table 6 correspondent aux questions de train de QALD4, 200 questions filtrées pour ne garder que celles qui commencent par "who","when", "what" et "where".

6.1.5 Analyse des erreurs

Erreur (par fréquence d’apparition) NB exempleQuestion complexe 8 Who produced films

starring Natalie Portman ?Mauvaise identification entité nommée 6 Who composed the music

for Harold and Maude ?Mapping de relation non trouvé 6 When did Michael Jackson die ?Pas d’entité nommée 4 What is the longest river ?Priorité des prédicats pour la réponse 4 What is the birth name of Angela Merkel ?Mauvais mapping entité nommée 4 Who was the father of Queen Elizabeth II ?Mauvais mapping relation 3 What is the second

highest mountain on Earth ?Sens relation 1 Who produces Orangina ?Total sans réponses 26Total réponses fausses 10Total 36

Table 7 – Différents types d’erreurs de la v1

Les principales erreurs viennent de la complexité des questions, de l’iden-tification des entités nommées et du mapping des relations.

Pour la version 2, les corrections ont principalement porté sur l’ordre descandidats de réponses. Ce qui a eu pour résultat d’augmenter la précisiondes réponses et diminuer le nombre de candidats par questions.

Les erreurs sont toujours liées à la complexité des questions, à la détectiondes entités nommées et au mapping des relations. Les entités nommées quine sont pas bien détectées sont celles qui contiennent plusieurs mots avec desnom communs. Le mapping des relations est difficile quand il s’agit de fairecorrespondre un verbe et un nom. Par exemple, "die" n’est pas mappé avecle prédicat "deathCause".

32

Erreur (par fréquence d’apparition) NB exempleMapping de relation non trouvé 8 Who is the owner

of Universal Studios ?Mauvaise identification de l’entité nommée 7 Who painted The Storm

on the Sea of Galilee ?Question complexe 6 Who is the daughter of Ingrid

Bergman married to ?Pas d’entité nommée 4 Who is the Formula 1 race driver

with the most races ?Relation non trouvée 1 What is the second highest

mountain on Earth ?Boucle mapping entité nommée 1 Who was called Scarface ?Sens relation 1 Who produces Orangina ?Mapping entité nommée non trouvé 1 What is the highest place of the Urals ?Total sans réponses 27Total réponses fausses 5Total 32

Table 8 – Différents types d’erreurs de la v2

6.2 Génération de questions

Pour obtenir plus de questions, afin d’évaluer le système de questions-réponses, nous avons généré des questions à partir des travaux de [Heilman, 2011]et de son outil 20 . Ces travaux avaient pour objectif de générer automati-quement des questions factuelles à partir de textes dans un contexte éducatifafin de faciliter le travail des enseignants.

6.2.1 Protocole de génération des questions

La génération des questions nécessite d’avoir des textes qui permettrontde générer des questions pour chacun d’entre eux. Afin d’avoir un maximumde données factuelles, des données encyclopédiques sont recommandées. Heil-man utilise dans sa thèse des données de Wikipedia et de l’encyclopédie Bri-tanica. Pour l’expérience Wikipedia a été choisi comme corpus pour fournirles textes. Après nettoyage des textes, les questions sont générées puis fil-trées en deux temps. La première fois automatiquement et une deuxième foismanuellement.

20. http://www.ark.cs.cmu.edu/mheilman/questions/

33

http://www.ark.cs.cmu.edu/mheilman/questions/

6.2.2 Corpus Wikipedia

Wikipedia étant une encyclopédie en ligne, elle contient de nombreusesinformations factuelles qui permettront de générer les questions. Des archivesde Wikipedia sont librement disponibles 21. Les données sont fournies auformat wiki, elles ont donc été, dans un premier temps, nettoyé pour obtenirdes données à exploiter. Wikipedia Extractor 22 a été utilisé pour cette tâche.Le dump est ainsi converti en un ensemble de fichiers xml contenant despages de Wikipedia. Un script supplémentaire a été écrit afin d’avoir unfichier texte par page.

6.2.3 Algorithme de génération de questions

La génération de question se base la structure des phrases. L’algorithmeest constitué des étapes suivantes pour chaque phrases :

1. Reformulation des phrases

2. Création de questions candidates

3. Tri des questions générées

La reformulation des phrases se fait par extraction de fragments dans lesphrases complexes pour obtenir des phrases plus simples.

Ensuite pour la création des questions, l’arbre de dépendance syntaxiquede la phrase est utilisé pour obtenir la structure de la phrase. Après super-sense tagger permet d’identifier les éléments afin de choisir le type de questionà générer (à partir du Wh-word). Supersense tagger (discriminative hiddenMarkov model) est un logiciel de reconnaissance des entités nommées. AR-Kref coreference system sert à la résolution des coréférences pendant l’analysedes phrases.

Enfin des règles sur la structure de l’arbre permet de générer la question.

2000 documents ont été choisis aléatoirement parmi les articles Wikipediapour générer les questions.

6.2.4 Résultats

Les questions générées sont filtrées en deux temps afin d’obtenir des ques-tions de qualité. Le premier filtre est automatique et enlève les questions dont

21. https://dumps.wikimedia.org22. http://medialab.di.unipi.it/wiki/Wikipedia_Extractor

34

https://dumps.wikimedia.org

http://medialab.di.unipi.it/wiki/Wikipedia_Extractor

les réponses sont composées de plus de 5 mots. Mais aussi les questions quidépassent plus de 10 mots. Ces deux premiers critères de filtre permettent deretirer les questions qui sont le plus susceptibles d’être erronées sémantique-ment ou grammaticalement. Ce premier filtre permet de réduire de 213.519à 48.298 questions.

Le deuxième filtre consiste à retenir les questions pertinentes. Pour celaune approche manuelle et collaborative est envisagée. Un fichier google-docsest partagé entre les différents collaborateurs avec les questions et les ré-ponses.

Pour évaluer le nombre de questions pertinentes, 100 questions ont étéchoisi aléatoirement et évaluées manuellement. Le résultat est de 8% de ques-tions pertinentes. Ce score pourrait être amélioré avec de meilleurs heuris-tiques de nettoyage (suppressions des questions/réponses contenant des pro-noms, vérification de la présence d’une entité nommée, . . . ) ou en utilisantun autre corpus comme par exemple simple english Wikipedia.

Les questions générées sont très souvent dépendantes du contexte (docu-ment) dont elles sont issues. Ce qui implique un nombre important de rejets.Les thèmes des questions sont très variés du fait du choix aléatoire des ar-ticles sélectionnés. Une meilleure sélection (par thème ou centre d’intérêts)des articles pour la génération de questions pourrait permettre de créer desquestions plus en phase avec ce que l’utilisateur pourrait demander.

6.3 Réseaux Logiques de Markov

6.3.1 Objectifs

Après le premier prototype qui a servi pour comprendre le problème,l’objectif était de réaliser un nouveau prototype pouvant résoudre une par-tie des problèmes observés. Nous voulions aussi une approche qui pourraitintégrer des connaissances sur l’utilisateur.

Pour cela nous avons choisi d’adopter la même approche que CASIAv2[He et al., 2014]. Dans cette approche, l’incertain, présent dans chacunedes étapes pour répondre à la question, est géré et maintenu jusqu’à la findu processus pour être résolu de manière unifiée avec un réseau logique deMarkov (Markov Logic Network) [Richardson et Domingos, 2006].

35

Nous avons donc étudié les réseaux logiques de markov (ou Markov LogicNetwork, MLN). Pour cela nous avons monté un groupe de travail autour decette problématique. Il était composé de chercheurs, de doctorants et de sta-giaires de l’équipe DUKe. Romain Rincé, un autre étudiant du master ATALen stage, faisait parti de ce groupe. Les objectifs de chacun étaient différent,l’idée avec ce groupe était d’étudier le fonctionnement de ces réseaux. Pourcela nous nous sommes appuyés sur les cours 23 de l’université de CarnegieMellon et le logiciel Alchemy 24.

6.3.2 Principe

Les réseaux logiques de Markov combinent la logique du premier ordreet les probabilités. On y exprime des formules logiques, qui peuvent être ap-prises, afin de constituer une base de connaissances. Ce qui est intéressantavec ce modèle est la possibilité de pouvoir violer des contraintes logique. Cecas de figure se traduit par une probabilité faible.

Ces formules sont ensuite transformées en un graphe non-orienté pourlequel des poids sont calculés pour chaque clique. Le graphe est créé à par-tir des formules et des constantes on parle alors de ground Markov Network.Pour chaque pair de formules où une constante est commune à deux formuleson créer un arc.

6.3.3 Expériences

Nous avons commencé nos expériences en étudiant la programmationlogique inductive. La programmation logique inductive est une approche del’apprentissage automatique qui cherche à apprendre les règles logique à par-tir d’une base de connaissances et d’exemples positifs et négatifs. Nous avonsutilisé le logiciel Aleph 25.

Après cela nous avons commencé à expérimenter l’inférence à partir desexemples du tutoriel d’Alchemy 26. L’inférence nous a permis par la suite de

23. http://homes.cs.washington.edu/~pedrod/803/24. http://alchemy.cs.washington.edu25. http://www.cs.ox.ac.uk/activities/machlearn/Aleph/aleph.html26. http://alchemy.cs.washington.edu/tutorial/

36

http://homes.cs.washington.edu/~pedrod/803/

http://alchemy.cs.washington.edu

http://www.cs.ox.ac.uk/activities/machlearn/Aleph/aleph.html

http://alchemy.cs.washington.edu/tutorial/

vérifier les résultats de l’apprentissage des poids et de la structure.

Après l’inférence, nous avons étudié l’apprentissage des poids. Afin depouvoir comparer les résultats avec d’autres algorithmes d’apprentissage,nous avons d’abord créé des réseaux bayésiens sur lesquels un échantillonnagea été réalisé. En même temps nous avons transformé les réseaux bayésiensen bases de connaissances logique. Nous avons alors appris les probabilitésdes différents réseaux bayésiens et des MLN avec les données générées. Nosexpériences successives ont montré que les MLN arrivent bien à apprendreles probabilités. L’apprentissage des poids peut être discriminatif ou généra-tif.

Enfin les dernières expérimentations que nous avons effectué concernentl’apprentissage de structure. L’article [Kok et Domingos, 2005] décrit l’ap-prentissage de structure des MLN. L’apprentissage se rapproche de la pro-grammation logique inductive.

6.4 2ème prototype : à partir de Réseaux Logiques de Markov(en cours de développement)

6.4.1 Approche

L’approche se déroule en 5 étapes.1. Segmentation de la phrase à partir de critères basés sur le POS tag

et de la longueur du segment ;2. Mapping des différents segments à partir des dictionnaires ;3. Extraction des données pour le MLN, avec l’utilisation du POS tag,

de l’analyse en dépendance, des informations liées au mapping de labase ;

4. Calcul de la combinaison la plus probable avec le MLN ;5. Conversion en requête SPARQL.

6.4.2 Ressources de Mapping

Une ressource importante du système est l’ensemble des fichiers de map-pings. Il y a trois fichiers de Mapping, un pour les classes, un autre pour lesentités et un dernier pour les relations. Les deux premiers sont relativementsimple à construire à partir de dbpedia mais le fichier de mapping des rela-tions est beaucoup plus compliqué à établir.

37

Pour la création de ce fichier, il faut avoir un corpus de relations enlangage naturel comme ceux de PATTY [Nakashole et al., 2012] et ReVerb[Fader et al., 2011], qu’il faut ensuite mettre en correspondance avec les don-née de Dbpedia. La difficulté est de trouver le prédicat qui correspond réel-lement à la relation en langage naturel. Pour cela les concepteurs de CASIAV2 s’appuient sur une technique qu’ils ont développé et décrit dans un autrearticle [Liu et al., 2013]. L’idée est dans un premier temps de faire corres-pondre les entités de la relation en langage naturel avec les nœuds de labase de connaissance. Puis il faut mettre en correspondance le prédicat dutriple avec la relation en langage naturel. Pour filtrer et améliorer les résultatune analyse linguistique basée sur les stem et sémantique à base d’ESA 27

est réalisé. Sans ce filtrage l’approche est trop naïve et donne de mauvaisrésultats.

6.4.3 Résultats

Le prototype est toujours en cours de réalisation. Mais les résultats deCASIA V2 montre que le modèle est intéressant. L’utilisation des Réseaux lo-giques de Markov permettra par la suite d’intégrer un modèle de l’utilisateurgrâce au formalisme souple. Cependant les auteurs de CASIA V2 pointentdu doigt le manque de questions disponibles pour l’entraînement du modèle.

27. https://en.wikipedia.org/wiki/Explicit_semantic_analysis

38

https://en.wikipedia.org/wiki/Explicit_semantic_analysis

7 Conclusions et perspectives

Nous avons vu avec l’état de l’art qu’il existe de nombreuses approchespour s’attaquer au problème des systèmes de questions-réponses. Nous avonségalement mis en place un système simple qui nous a permis de voir que l’undes obstacles pour la réalisation de ces systèmes est le manque de questionspour leur évaluation. Ceci nous a poussé à chercher une solution afin de créerautomatiquement les questions. Ensuite nous avons vu les réseaux logiquesde Markov qui devrait permettre de développer un dernier prototype doitnous permettre de franchir une autre étape dans la résolution de la question.

Au-delà de ce qui a été réalisé pendant ce stage, plusieurs obstacles res-tent à franchir. Le premier est réfléchir aux questions plus complexes avecdes négations et compositions par exemple. Un autre défi intéressant seraitde voir comment un système basé sur des données structurées peut-être ren-forcé avec de la recherche sur des données non structurées.

Pour résumer, le sujet est encore très ouvert et toujours très intéressant.Ce qui devrait être le cas pour un moment.

39

Références

[Auer et al., 2007] Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cy-ganiak, R. et Ives, Z. (2007). Dbpedia : A nucleus for a web of open data.Springer.

[Banerjee et Pedersen, 2002] Banerjee, S. et Pedersen, T. (2002). Anadapted lesk algorithm for word sense disambiguation using wordnet. InComputational linguistics and intelligent text processing, pages 136–145.Springer.

[Berners-Lee et al., 2001] Berners-Lee, T., Hendler, J., Lassila, O.et al. (2001). The semantic web. Scientific american, 284(5):28–37.

[Bordes et al., 2014] Bordes, A., Weston, J. et Usunier, N. (2014). Openquestion answering with weakly supervised embedding models. In Ma-chine Learning and Knowledge Discovery in Databases, pages 165–180.Springer.

[Dong et al., 2014] Dong, X., Gabrilovich, E., Heitz, G., Horn, W.,Lao, N., Murphy, K., Strohmann, T., Sun, S. et Zhang, W. (2014).Knowledge vault : A web-scale approach to probabilistic knowledge fusion.In Proceedings of the 20th ACM SIGKDD international conference onKnowledge discovery and data mining, pages 601–610. ACM.

[Fader et al., 2011] Fader, A., Soderland, S. et Etzioni, O. (2011). Iden-tifying relations for open information extraction. In Proceedings of theConference on Empirical Methods in Natural Language Processing, pages1535–1545. Association for Computational Linguistics.

[Ferré, 2013] Ferré, S. (2013). squall2sparql : a translator from controlledenglish to full sparql 1.1. In Work. Multilingual Question Answering overLinked Data (QALD-3).

[Ferrucci et al., 2010] Ferrucci, D., Brown, E., Chu-Carroll, J., Fan,J., Gondek, D., Kalyanpur, A. A., Lally, A., Murdock, J. W., Ny-berg, E., Prager, J. et al. (2010). Building watson : An overview of thedeepqa project. AI magazine, 31(3):59–79.

[Gerber et Ngomo, 2011] Gerber, D. et Ngomo, A.-C. N. (2011). Boots-trapping the linked data web. In 1st Workshop on Web Scale KnowledgeExtraction@ ISWC, volume 2011.

[Green Jr et al., 1961] Green Jr, B. F., Wolf, A. K., Chomsky, C. etLaughery, K. (1961). Baseball : an automatic question-answerer. InPapers presented at the May 9-11, 1961, western joint IRE-AIEE-ACMcomputer conference, pages 219–224. ACM.

40

[He et al., 2013] He, S., Liu, S., Chen, Y., Zhou, G., Liu, K. et Zhao, J.(2013). Casia@ qald-3 : A question answering system over linked data.Proceedings of the Question Answering over Linked Data lab (QALD-3)at CLEF.

[He et al., 2014] He, S., Zhang, Y., Liu, K. et Zhao, J. (2014). Casia@v2 : A mln-based question answering system over linked data.

[Heilman, 2011] Heilman, M. (2011). Automatic factual question generationfrom text. Thèse de doctorat, Carnegie Mellon University.

[Hirst et St-Onge, 1998] Hirst, G. et St-Onge, D. (1998). Lexical chainsas representations of context for the detection and correction of malapro-pisms. WordNet : An electronic lexical database, 305:305–332.

[Hoffart et al., 2011] Hoffart, J., Yosef, M. A., Bordino, I., Fürste-nau, H., Pinkal, M., Spaniol, M., Taneva, B., Thater, S. et Wei-kum, G. (2011). Robust disambiguation of named entities in text. InProceedings of the Conference on Empirical Methods in Natural LanguageProcessing, pages 782–792. Association for Computational Linguistics.

[Jiang et Conrath, 1997] Jiang, J. J. et Conrath, D. W. (1997). Semanticsimilarity based on corpus statistics and lexical taxonomy. arXiv preprintcmp-lg/9709008.

[Kok et Domingos, 2005] Kok, S. et Domingos, P. (2005). Learning thestructure of markov logic networks. In Proceedings of the 22nd interna-tional conference on Machine learning, pages 441–448. ACM.

[Leacock et Chodorow, 1998] Leacock, C. et Chodorow, M. (1998).Combining local context and wordnet similarity for word sense identifi-cation. WordNet : An electronic lexical database, 49(2):265–283.

[Li et Roth, 2002] Li, X. et Roth, D. (2002). Learning question classi-fiers. In Proceedings of the 19th international conference on Computationallinguistics-Volume 1, pages 1–7. Association for Computational Linguis-tics.

[Lin, 1998] Lin, D. (1998). An information-theoretic definition of similarity.In ICML, volume 98, pages 296–304.

[Liu et al., 2013] Liu, F., He, S., Liu, S., Zhou, G., Liu, K. et Zhao, J.(2013). Open relation mapping based on instances and semantics expan-sion. In Information Retrieval Technology, pages 320–331. Springer.

[Mel’čuk et Polguere, 1987] Mel’čuk, I. A. et Polguere, A. (1987). A for-mal lexicon in the meaning-text theory :(or how to do lexica with words).Computational linguistics, 13(3-4):261–275.

41

[Mikolov et al., 2013] Mikolov, T., Sutskever, I., Chen, K., Corrado,G. S. et Dean, J. (2013). Distributed representations of words and phrasesand their compositionality. In Advances in Neural Information ProcessingSystems, pages 3111–3119.

[Nakashole et al., 2012] Nakashole, N., Weikum, G. et Suchanek, F.(2012). Patty : a taxonomy of relational patterns with semantic types.In Proceedings of the 2012 Joint Conference on Empirical Methods in Na-tural Language Processing and Computational Natural Language Learning,pages 1135–1145. Association for Computational Linguistics.

[Park et al., 2014] Park, S., Shim, H. et Lee, G. G. (2014). Isoft at qald-4 : Semantic similarity-based question answering system over linked data.CLEF.

[Pasca et Harabagiu, 2001] Pasca, M. A. et Harabagiu, S. M. (2001).High performance question/answering. In Proceedings of the 24th an-nual international ACM SIGIR conference on Research and developmentin information retrieval, pages 366–374. ACM.

[Resnik, 1995] Resnik, P. (1995). Using information content to evaluatesemantic similarity in a taxonomy. arXiv preprint cmp-lg/9511007.

[Richardson et Domingos, 2006] Richardson, M. et Domingos, P. (2006).Markov logic networks. Machine learning, 62(1-2):107–136.

[Simmons et al., 1964] Simmons, R. F., Klein, S. et McConlogue, K.(1964). Indexing and dependency logic for answering english questions.American Documentation, 15(3):196–204.

[Suchanek et al., 2007] Suchanek, F. M., Kasneci, G. et Weikum, G.(2007). Yago : a core of semantic knowledge. In Proceedings of the 16thinternational conference on World Wide Web, pages 697–706. ACM.

[Unger, 2013] Unger, C. (2013). Multilingual question answering over lin-ked data : Qald-3 dataset.

[Unger, 2014] Unger, C. (2014). Multilingual question answering over lin-ked data : Qald-4 dataset.

[Unger et al., 2012] Unger, C., Bühmann, L., Lehmann, J.,Ngonga Ngomo, A.-C., Gerber, D. et Cimiano, P. (2012). Template-based question answering over rdf data. In Proceedings of the 21stinternational conference on World Wide Web, pages 639–648. ACM.

[Unger et al., 2014] Unger, C., Forascu, C., Lopez, V., Ngomo, A.-C. N., Cabrio, E., Cimiano, P. et Walter, S. (2014). Question answe-ring over linked data (qald-4). In Working Notes for CLEF 2014 Confe-rence.

42

[Wu et Palmer, 1994] Wu, Z. et Palmer, M. (1994). Verbs semantics andlexical selection. In Proceedings of the 32nd annual meeting on Associationfor Computational Linguistics, pages 133–138. Association for Computa-tional Linguistics.

[Xu et al., 2014] Xu, K., Feng, Y. et Zhao, D. (2014). Xser@ qald-4 :Answering natural language questions via phrasal semantic parsing.

[Yahya et al., 2012] Yahya, M., Berberich, K., Elbassuoni, S., Rama-nath, M., Tresp, V. et Weikum, G. (2012). Deep answers for naturallyasked questions on the web of data. In Proceedings of the 21st internatio-nal conference companion on World Wide Web, pages 445–449. ACM.

[Zou et al., 2014] Zou, L., Huang, R., Wang, H., Yu, J. X., He, W. etZhao, D. (2014). Natural language question answering over rdf : a graphdata driven approach. In Proceedings of the 2014 ACM SIGMOD inter-national conference on Management of data, pages 313–324. ACM.

43