comment vous servir de la force de vos balisages xml-tei x ml a ware i ndexing & r etrieval a...

Post on 04-Apr-2015

103 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Comment vous servir de la force de vos balisages XML-TEI

http://xaira.sf.net

XMLAwareIndexing &RetrievalArchitecture

Pourquoi numériser un texte?

Pour enrichir un texte ou pour le remplacer?

Pour aider la recherche, la formation, ou l'enseignement?

Pour quel public? Pour faire

quelque chose de nouveau?

des choses anciennes d'une manière plus

efficace?

Du point de vue académique, la numérisation offre…

L'intégration des ressources diverses textes, commentaires, sources, variations… multimédia, manuscrits, transcriptions, metadata…

La préservation des ressources les média s'envolent, les données restent "multiplication beyond the reach of accident"

Un vaste élargissement d'accessibilité des ressources Quantitative et qualitatitive

Du point de vue informatique, la numérisation offre…

toute une gamme de problèmes techniques

une raison d’ être: la conservation du patrimoine et de la culture contemporaine

des outils bien compris et pratiques la semiotique le linguistique l'encodage

Xaira: motivation recherches intelligentes dans les textes

XML

axées sur la linguistique

fondées sur des technologies puissantes telles unicode web object oriented

“intelligentes”?

appui sur l'encodage XML recherches delimitées création des sous-corpus présentation user-defined

et la linguistique?

chaines de caractères signifiantes

concordance KWIC classique

collocations statistiques

on s'interesse plus à l'exploration des patterns d'usage qu'aux sujets traités

on s'interesse aux metadonnées associées

concordance classique Defamiliarizes and decontextualizes the

components of a text Facilitates analysis of

Lexis, syntax, and lexical patterns Co-occurrence, collocation, colligation

Informed by metadata categorization and acculated interpretation

A way of reading a text in its context as a means of discovering its primings

for example, “getting over”...

de SARA a XAIRA… SARA (SGML-Aware Retrieval Application) etait

un outil specifique au British National Corpus XAIRA (XML-Aware Indexing and Retrieval

Architecture) est une boite a outils Open Source server, indexer, protocol Logiciels clients Windows/PHP A telecharger http://www. xaira.org ou

http://xaira.sf.net

Tout corpus XML: n'importe la taille, n'importe la langue

D'abord, il faut un corpus…

un ensemble de documents XML bien-formés schéma facultatif – mais si présent enforce TEI encodage facultatif – mais fortement conseillé!

capabilites liés au balisage mais n'impose pas de système

Ensuite, on construit des indexes

indexer: plateforme independent utilité rassemble et valide les fichiers du corpus construit les indexes informations stockées dans un corpus

Header utilisation de balises où trouver les clés comment construire les références descriptions balises, polices, etc...

xairatools: Windows utilité avec un “wizard”

comment baliser des propriétés linguistiques?

... little fishes ....

.. <w pos=”NPL” lemma=”fish”>fishes</w>

<w> <pos>NPL</pos> <lemma>fish</lemma> <form>fishes</form></w>

.. <w pos=”NPL” lemma=”fish” form=”fishes”/>

What goes in the index?

tokenization implicit, following Unicode rules (locale-sensitive) explicit, following mark up supports lexical features (eg collocation)

lemmatization and POS tags special case of "additional key" mechanism generalized to provide fast context-specific

searches

tag indexes attribute values and codebooks

viva Unicode!

tout est stocké en Unicode ce qui evite un tas d'ennuis (pe, la tokenization,

case-folding, line-breaking, character normalization, glyph composition)

restent quelques inconvénients pour visualiser, il faut une police Unicode pour saisir, il faut un clavier approprie (mais c'est pareil pour tous)

pour les exigeants, on peut modifier les regles Unicode…

Target queries What is the most frequent noun in this corpus? Find a random sample of 100 instances of "fish"

followed by "chips" within 4 words Find sentences beginning with a conjunction. Show all inflected forms of the name "Winston". Show sentences which begin with "well" and end with

a question mark. How often and in what contexts is the word "nature"

used in different kinds of writing? Which verbs collocate significantly with "bosom" at

different periods of history? Do men use colour vocabulary differently from

women?

Plusieurs interfaces

Xairo est un Object Model accessible a plusieurs niveaux directement, d'un langue “haut niveau”, tel C#, java, php

via SOAP en “service web”

via XMLRPC

Toute interrogation s'exprime dans un langue d'enquete XML (CQL2)

Corpus Query Language Simple XML vocabulary for searching

word, punctuation mark, substring word + secondary keys (e.g. POS) XML start- or end-tag, plus attributes Unicode-compliant regular expressions

Facilities include usual Boolean operations sequence, disjunction, join negation, gaps scoped searching

Special lexical features

CQL2 more formally

CQL is a pattern matching language

Returns manipulable streams of matching locations in a corpus

CQL query components simple: <form>, <addKey>, <lemma>,

<element>, <pattern> complex: <seq>, <and>, <or>

matching may be literal or regexp

par exemple

<form>fish</form>

retourne les locations de ce forme

<lemma scheme=”x”>fish</lemma>

retourne les locations des formes lemmatisés fish dans la schema X

<addKey name=”POS”>VB</addKey>

retourne les locations des formes ayant un clé POS de valeur VB

Element vs pattern queries -1

element query recherche occurrences d'un element

independemment de sa location limitations exprimées par valeurs attributs

pattern query recherche n'importe quoi dans un context

spécifié avec Xpath

Element vs pattern queries -2

<pattern match=”book[@n=Acts]”><form>Paul</form></pattern>

<element name=”book”> <attribute name=”n”>acts</attribute></element>

<element name=”book”> <attribute name=”n”>acts</attribute></element>

combinations -1

<seq>: sequence ordonnée (potentiellement avec <gap>s)

<seq> <form>fish</form> <gap max=”2”/> <form>chips</form></seq>

combinations -2

<and>: operateur d'union

<or>: operateur de disjonction

<or><seq><gap/><form>fish</form></seq><seq><gap/><form>chips</form></seq></or>

<and> <form>fish</form> <addkey name=”pos”>VERB</addkey></and>

on cache tout cela derriere un logiciel client biensur...Word and lemma query

User-configurable display plain, XML, user-defined stylesheets

Texts, Results, Browse windows

Results can be exported in XML

“visual interface” for complex queries

example word query

Sample stylesheet display

Building complex queriesvisual interface

scope node defines where to look an XML element by span

query nodes define what to look for word, phrase, addkey, pattern, XML

link types define sequence in which query node targets should occur next, one-way, two-way

Sentences beginning with conjunctions

What is XAIRA's niche? Web search engines

patchy and unknowable coverage designed to recover content, not word forms hard to cite, harder to process

XML display engines expensive, geared to reader not searcher focus on presentation rather than content

As a back end for your next generation web application

Interfaces available now Full-featured Windows client

can be run standalone or as interface to Windows, Unix, or Mac OSX server

includes simple corpus building utility

Cross-platform SOAP interface Simple PHP and Java clients Server and indexer

Xpath engine

Using Xaira as a back end

PHP interface supports all calls to the Xaira object model suitable for any web programmer platform independent

For example...

Frequently Asked Questions

est-ce que ça marche sur Mac?est-ce que ça marche avec toute sorte

de balisage?ça coute combien?

où est la doc?

....?

top related