comment vous servir de la force de vos balisages xml-tei x ml a ware i ndexing & r etrieval a...
TRANSCRIPT
Comment vous servir de la force de vos balisages XML-TEI
http://xaira.sf.net
XMLAwareIndexing &RetrievalArchitecture
Pourquoi numériser un texte?
Pour enrichir un texte ou pour le remplacer?
Pour aider la recherche, la formation, ou l'enseignement?
Pour quel public? Pour faire
quelque chose de nouveau?
des choses anciennes d'une manière plus
efficace?
Du point de vue académique, la numérisation offre…
L'intégration des ressources diverses textes, commentaires, sources, variations… multimédia, manuscrits, transcriptions, metadata…
La préservation des ressources les média s'envolent, les données restent "multiplication beyond the reach of accident"
Un vaste élargissement d'accessibilité des ressources Quantitative et qualitatitive
Du point de vue informatique, la numérisation offre…
toute une gamme de problèmes techniques
une raison d’ être: la conservation du patrimoine et de la culture contemporaine
des outils bien compris et pratiques la semiotique le linguistique l'encodage
Xaira: motivation recherches intelligentes dans les textes
XML
axées sur la linguistique
fondées sur des technologies puissantes telles unicode web object oriented
“intelligentes”?
appui sur l'encodage XML recherches delimitées création des sous-corpus présentation user-defined
et la linguistique?
chaines de caractères signifiantes
concordance KWIC classique
collocations statistiques
on s'interesse plus à l'exploration des patterns d'usage qu'aux sujets traités
on s'interesse aux metadonnées associées
concordance classique Defamiliarizes and decontextualizes the
components of a text Facilitates analysis of
Lexis, syntax, and lexical patterns Co-occurrence, collocation, colligation
Informed by metadata categorization and acculated interpretation
A way of reading a text in its context as a means of discovering its primings
for example, “getting over”...
de SARA a XAIRA… SARA (SGML-Aware Retrieval Application) etait
un outil specifique au British National Corpus XAIRA (XML-Aware Indexing and Retrieval
Architecture) est une boite a outils Open Source server, indexer, protocol Logiciels clients Windows/PHP A telecharger http://www. xaira.org ou
http://xaira.sf.net
Tout corpus XML: n'importe la taille, n'importe la langue
D'abord, il faut un corpus…
un ensemble de documents XML bien-formés schéma facultatif – mais si présent enforce TEI encodage facultatif – mais fortement conseillé!
capabilites liés au balisage mais n'impose pas de système
Ensuite, on construit des indexes
indexer: plateforme independent utilité rassemble et valide les fichiers du corpus construit les indexes informations stockées dans un corpus
Header utilisation de balises où trouver les clés comment construire les références descriptions balises, polices, etc...
xairatools: Windows utilité avec un “wizard”
comment baliser des propriétés linguistiques?
... little fishes ....
.. <w pos=”NPL” lemma=”fish”>fishes</w>
<w> <pos>NPL</pos> <lemma>fish</lemma> <form>fishes</form></w>
.. <w pos=”NPL” lemma=”fish” form=”fishes”/>
What goes in the index?
tokenization implicit, following Unicode rules (locale-sensitive) explicit, following mark up supports lexical features (eg collocation)
lemmatization and POS tags special case of "additional key" mechanism generalized to provide fast context-specific
searches
tag indexes attribute values and codebooks
viva Unicode!
tout est stocké en Unicode ce qui evite un tas d'ennuis (pe, la tokenization,
case-folding, line-breaking, character normalization, glyph composition)
restent quelques inconvénients pour visualiser, il faut une police Unicode pour saisir, il faut un clavier approprie (mais c'est pareil pour tous)
pour les exigeants, on peut modifier les regles Unicode…
Target queries What is the most frequent noun in this corpus? Find a random sample of 100 instances of "fish"
followed by "chips" within 4 words Find sentences beginning with a conjunction. Show all inflected forms of the name "Winston". Show sentences which begin with "well" and end with
a question mark. How often and in what contexts is the word "nature"
used in different kinds of writing? Which verbs collocate significantly with "bosom" at
different periods of history? Do men use colour vocabulary differently from
women?
Plusieurs interfaces
Xairo est un Object Model accessible a plusieurs niveaux directement, d'un langue “haut niveau”, tel C#, java, php
via SOAP en “service web”
via XMLRPC
Toute interrogation s'exprime dans un langue d'enquete XML (CQL2)
Corpus Query Language Simple XML vocabulary for searching
word, punctuation mark, substring word + secondary keys (e.g. POS) XML start- or end-tag, plus attributes Unicode-compliant regular expressions
Facilities include usual Boolean operations sequence, disjunction, join negation, gaps scoped searching
Special lexical features
CQL2 more formally
CQL is a pattern matching language
Returns manipulable streams of matching locations in a corpus
CQL query components simple: <form>, <addKey>, <lemma>,
<element>, <pattern> complex: <seq>, <and>, <or>
matching may be literal or regexp
par exemple
<form>fish</form>
retourne les locations de ce forme
<lemma scheme=”x”>fish</lemma>
retourne les locations des formes lemmatisés fish dans la schema X
<addKey name=”POS”>VB</addKey>
retourne les locations des formes ayant un clé POS de valeur VB
Element vs pattern queries -1
element query recherche occurrences d'un element
independemment de sa location limitations exprimées par valeurs attributs
pattern query recherche n'importe quoi dans un context
spécifié avec Xpath
Element vs pattern queries -2
<pattern match=”book[@n=Acts]”><form>Paul</form></pattern>
<element name=”book”> <attribute name=”n”>acts</attribute></element>
<element name=”book”> <attribute name=”n”>acts</attribute></element>
combinations -1
<seq>: sequence ordonnée (potentiellement avec <gap>s)
<seq> <form>fish</form> <gap max=”2”/> <form>chips</form></seq>
combinations -2
<and>: operateur d'union
<or>: operateur de disjonction
<or><seq><gap/><form>fish</form></seq><seq><gap/><form>chips</form></seq></or>
<and> <form>fish</form> <addkey name=”pos”>VERB</addkey></and>
on cache tout cela derriere un logiciel client biensur...Word and lemma query
User-configurable display plain, XML, user-defined stylesheets
Texts, Results, Browse windows
Results can be exported in XML
“visual interface” for complex queries
example word query
Sample stylesheet display
Building complex queriesvisual interface
scope node defines where to look an XML element by span
query nodes define what to look for word, phrase, addkey, pattern, XML
link types define sequence in which query node targets should occur next, one-way, two-way
Sentences beginning with conjunctions
What is XAIRA's niche? Web search engines
patchy and unknowable coverage designed to recover content, not word forms hard to cite, harder to process
XML display engines expensive, geared to reader not searcher focus on presentation rather than content
As a back end for your next generation web application
Interfaces available now Full-featured Windows client
can be run standalone or as interface to Windows, Unix, or Mac OSX server
includes simple corpus building utility
Cross-platform SOAP interface Simple PHP and Java clients Server and indexer
Xpath engine
Using Xaira as a back end
PHP interface supports all calls to the Xaira object model suitable for any web programmer platform independent
For example...
Frequently Asked Questions
est-ce que ça marche sur Mac?est-ce que ça marche avec toute sorte
de balisage?ça coute combien?
où est la doc?
....?