Méthode de modélisation et d’extraction des informations géographiques contenues dans des textes
Van Tien NGUYENMauro GAIO
Université de Pau et des Pays de l’Adour
RTE2011, 16 mai 2011, Chambéry
Introduction
Récits de voyage
• Contexte : projet ANR GEONTO• Objectif : Enrichir une ontologie
topographique existante
Traitement automatique
(Notre travail)
…
Ontologie géographique de l’IGN
2
…
Termes candidats
BD Topo BD carto
Plan d’exposé
• Problématique & état de l’art• Proposition d’un modèle• Chaîne de traitement automatique• Expérimentation & évaluation• Conclusion
3
Problématique
[...] Après avoir contemplé, avec une admiration mêlée d’effroi, la charpente altière des
Monts-Maudits, nous songeâmes bientôt à descendre sur le territoire aride au
sud de la région d’Aragon. Le temps était menaçant : de légers brouillards parcouraient les hauteurs, et précédaient des nuages d’une teinte grisâtre, qui roulaient vers nous, venant de l’ouest des Pyrénées, un orage s’amoncelait : il ne tarda pas à éclater. Ayant renvoyé nos chevaux et payé le tribut accoutumé à la complaisance des carabineros (douaniers) espagnols, nos guides chargèrent nos provisions sur leurs épaules, et nous descendîmes, assez lestement, vers le pied de la Maladetta, laissant à notre droite les roches calcaires de la Pèna-Blanca. Arrivés au fond de la vallée du Plan-des-Etangs, qui est plus élevée que sa voisine, la vallée latérale de l’hospice de Bagnères, de 446 mètres, nous laissâmes derrière nous une cabane habitée pendant l’été par des bergers espagnols, pour remonter, par un plan rocailleux, jusqu’au gouffre de Tourmon, qui absorbe les eaux d’un torrent rapide, descendant de la partie orientale du glacier de la Maladetta [...].
Un exemple sur des termes à extraire
Comment filtrer les termes ?
4
Représentation formelle des concepts spatiaux dans la langue
• Entités nommées géographiques
• Connecteurs spatiaux
• Verbes de mouvement
• Représentation de la connaissance
5
État de l’art (1)
État de l’art (2)
6
Concepts spatiaux La localisation dans l'espace (entité concrète, repère
spatial) (Borillo 1998, Vandeloise 1986) : • « Vallée d’Ossau »
• « Roches calcaires de la Pèna-Blanca »
• Mais « jambon de Bayonne » ou « maire de Chambéry » ?
Relations spatiales:• Relations topologiques : adjacence à, à l'intérieur de, … (Egenhofer
& R.D. (1991))
• Relations directionnelles : au sud de, au nord de, …(Ligozat (1998))
• Relations métriques : à 10 km de, à 10mn d'ici…
État de l’art (3)
7
Expression du déplacement Verbes de mouvement (Boons (1987), Laur (1991), Sarda (2000)) :
• Verbes initiaux : quitter, partir, sortir, s’échapper, s’éloigner, etc.• Verbes finaux : arriver à, atteindre, entrer dans, regagner, etc.• Verbes médians : traverser, descendre, franchir, parcourir,
passer par, se déplacer dans, etc. Verbes de perception (déplacement virtuel, mouvement du regard)
Problème plus général des entités nommées•Nom de personne, Nom d'entreprise, Nom de Lieu, …•Ressources de Nom de lieux, les gazetteers : Geonames, BDNyme, Word Gazetteer, GEOnet Names Server (GNS), etc.
Représentation de la connaissance
• Le modèle générique des Relations n-aire du W3C – J'ai remonté la vallée en me promenant jusqu'à Luz.
– Je vais me rendre à la ville de Pau en passant par Dax.
– Nous prenons le chemin du port de la Picade, en passant devant le trou du Toro.
• Cas particulier des relations n-aires (triplet VPT)– J’ai traversé le gave de Pau
– Nous regagnâmes nos logements respectifs à Bagnères-de-Luchon
– Nous sommes arrivés au sud de la vallée du Plan-des-Etangs
– Nous songeâmes bientôt à descendre sur le territoire aride au sud de la région d’Aragon
État de l’art (4)
8
Proposition d’un modèleTriplet VPT (Verbe, Préposition, Toponyme)
Comment marquer les triplets VPT afin d’extraire des informations géographiques ?
9
(*) : Composant pourra figurer de zéro à plusieurs fois dans le modèle VPT.
Chaîne de traitement• Objectif:
– Marquer les triplets VPT– Extraire des termes ayant une connotation géographique
• Methode:– Patterns lexico-syntaxiques définis par des grammaires hors contextes– Diverses ressources lexicales
10
Chaîne de traitement
Grammaire hors contexteDéfinition
– L’ensemble des règles qui permettent de remplacer plusieurs entités consécutives par une seule de plus haut niveau
label(X) –> label1(X1), label2(X2), ...., labeln(Xn)
Notre grammaire• Marquage des groupes de nom commun (4 cas) :
– groupeNomCommun(G) --> nom(N) + adjectif(A) (territoire aride) (territoire) (aride)
• Marquage des groupes de nom propre (14 cas) :– groupePropre(GP) --> nomPropre(NP) (Aragon) (Aragon)– groupePropre(GP) –> nomPropre(NP1), de, nomPropre(NP2) (Mont de Marsan) (Mont) (de) (Marsan)
• Marquage des toponymes (10 cas) : toponyme(T) –> groupeNC(G1), indirection(I), groupeNC(G2), de, nomToponymique(NT).(territoire aride (territoire aride) (au sud de) (région) (Aragon) au sud de la région d’Aragon)
12
Marquage des VPT
13
1 cas typique parmi 15 cas traités :
VPT(verbe :V...pre :P...toponyme :T) → Verbe(V), Preposition(P), Toponyme(T). (descendre) (sur)
Quelques cas complexe bien marqués•Je suis parti à cheval pour Gavarnie à 7 heures, cas où se trouvent également exprimés le temps et la manière de se déplacer ;
•J’ai remonté à pied la vallée d’Ossau jusqu’à Laruns, cas où le Toponyme est composé de plusieurs noms toponymiques ;
•Je partis en conséquence pour Bagnères de Luchon une seconde fois et, passant par le Tourmalet, un beau village près de la Hourquette d’Arreau et un autre au sud de la belle vallée de Louron, cas où sont impliqués plusieurs VPT dans une même phrase.
« descendre sur le territoire aride au sud de la région d’Aragon »
(territoire aride au sud de la région d’Aragon)
Ressources utiliséesGazetteer
• BDNyme (http ://www.ign.fr) : 44315 noms de lieu
• Geonames (http ://geonames.org) : 118301 noms de lieu
Verbe de déplacement|perception
• 47 verbes de déplacement à partir des travaux de (Talmy (2000), Boons (1987), Laur (1991), Sarda (2000))
• 50 verbes de perception (selon notre obersvation des corpus)
Ontologie/thésaurus
• Ontologie de l’IGN
• Thésaurus RAMEAU de la BnF
14
Un paragraphe étiqueté
15
Expérimentation(1)
16
Logiciel : Linguastream, Java, TreeTagger
Corpus : 12 récits de voyage numérisés et fournis par la médiathèque de Pau
Résultats: 1390 triplets VPT marqués283 termes extraits dont 178 validés par expertsLa précision :
Type de verbe Nb de termes validés a (*)
Nb de termes extraits b (*)
Précision(a/b)
Verbe de déplacement 627 775 0,81
Verbe de perception 178 229 0,78
Tous 809 1004 0,81
Verbe de perception apporte un gain
(*) : Les termes peuvent être identiques pour les triplets VPT différents
Expérimentation(3)Des verbes plus fréquents dans les corpus
18
Bruit
La polysémie du verbe : « […] j’ai quitté le confort de la vie de Bordeaux »
L’inexactitude de la sortie de l’analyseur morphologique : « Il serai devenu un peu fier vis-à-vis de ses camarades d’Arrens[...] »
19
Terme Nombre de fois extrait
camarades 1
direction 1
jour 1
minutes 1
vie 2
maire 2
profondeur 2
suite 2
marbière 1
enfance 1
Silence Les gazetteers incomplets :
•"...nous grimpons sur le plateau d’Esquierry"
La structure verbale passive : •"...le pic de Néthou , n’a été encore gravi par personne... "
Erreur d’étiquetage de l’analyseur morphologique : •"...Arrivés au fond de la vallée du Plandes-Etangs, ... "
Aucune indication ne permet de filtrer le syntagme à extraire : •"Pour ce qui est des variations du niveau du gouffre, il y a, en effet, une crue et une baisse..."
Des triplets VPT implicites : •"Jusqu’à cette ville, nous avons longé la Garonne".
20
Conclusion & perspective
21
Un modèle opérationnel permettant d’extraire et de représenter des concepts spatiaux
Notre méthode offre les avantages suivants :Modulaire, et extensible : chaque élément du modèle est marqué par un moduleCapacité à traiter des configurations complexes
Autres applications du modèle VPTReconnaissance d’entités nommées géographiques
Perspective : les autres Relations n-aireJe vais me rendre à la ville de Pau en passant par Dax.Nous prenons le chemin du port de la Picade, en passant devant le trou du Toro.J'ai remonté la vallée en me promenant jusqu'à Luz.
22
Merci de votre attention!