yu-ting huang ue tal le 10/01/2006

12
1 Premier bilan de l’utilisation de LinguaStream 2.0.0 pour le repérage de la cohésion nom-verbe Yu-Ting HUANG UE TAL Le 10/01/2006

Upload: kemp

Post on 19-Jan-2016

34 views

Category:

Documents


0 download

DESCRIPTION

Premier bilan de l ’ utilisation de LinguaStream 2.0.0 pour le rep é rage de la coh é sion nom-verbe. Yu-Ting HUANG UE TAL Le 10/01/2006. Objectifs. Evaluer LinguaStream2.0.0 dans le cadre du repérage de GN et GV pour étudier une proximité sémantique - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Yu-Ting HUANG UE TAL Le 10/01/2006

1

Premier bilan de l’utilisation de LinguaStream 2.0.0 pour le repérage

de la cohésion nom-verbe

Yu-Ting HUANG

UE TAL

Le 10/01/2006

Page 2: Yu-Ting HUANG UE TAL Le 10/01/2006

2

Objectifs

1. Evaluer LinguaStream2.0.0 dans le cadre du repérage de GN et GV pour étudier une proximité sémantique réduction de la durée des études / réduire la durée études

(au lycée) -> variantes morphologiques augmenter les taux d’intérêt / hausse de taux d’intérêt

-> variantes synonymiques marché international du bois / acheter le bois chez d'autres

-> chaîne cohésive {marché, acheter}

2. Présenter le premier bilan de l’observation des données

Page 3: Yu-Ting HUANG UE TAL Le 10/01/2006

3

Points de départ

Données : 10 ans de le Monde constitués en aval de l’analyse de Syntex et calculées par Upery (Bourigault 2003) selon un critère distributionnel (vndoc.mdb)

BdD permet de visualiser tous les paragraphes d'apparition de tous les couples

<p>GN [N de ARG] et GV [V obj ARG] <p>

dont les ARG sont identiques.

Page 4: Yu-Ting HUANG UE TAL Le 10/01/2006

4

Extraits du fichier vndoc.mdb, base de données utilisée

Page 5: Yu-Ting HUANG UE TAL Le 10/01/2006

5

1. Pourquoi LinguaStream?

enrichissement incrémental des documents électroniques,

facilite la conception et l’évaluation de chaînes de traitements complexes tout en requérant des compétences informatiques minimales

Page 6: Yu-Ting HUANG UE TAL Le 10/01/2006

6

1. Démarche à suivre

1. 10 ans de le Monde xmlisé selon les caractéristiques de la plate-forme

2. Construire un lexique pour l’ensemble de noms recteurs et l’ensemble de verbes recteurs. « Aligner » les deux lexiques.

3. Faire une expression régulière pour trouver puis surligner les couples nom-verbe :

{anchor:start, type:paragraph} <voisins> (!{type:paragraph})+ {type:nom} /as $x(!{type:paragraph})+ {type:verbe} /as $x (!{type:paragraph})+ </voisins> /sem {id:"$x"} {anchor:end, type:paragraph}

Page 7: Yu-Ting HUANG UE TAL Le 10/01/2006

7

Extrait du fichier LinguaStream sur lequel nous avons travaillé

Page 8: Yu-Ting HUANG UE TAL Le 10/01/2006

8

1. Difficultés rencontréesMais…

1. Taille de corpus

2. Résultats surgénéralisés et non satisfaisants

3. Manque du formalisme DSDL (Discourse Structure Description Language) permettant d’exprimer des contraintes au niveau discursif.

Page 9: Yu-Ting HUANG UE TAL Le 10/01/2006

9

2. Premier bilan de l’observation des données

Les 23 couples les plus fréquents : les couples qui partagent au moins 100 paragraphes Chaque couple -> 10 paragraphes

14 couples morphologiquement liés, 6 couples en contexte immédiat, 1 couple non morphologique (hausse/augmenter), 1 couple marginal (nombre/compter), 1 couple erroné (coupe/couper dans la Coupe du Monde)

Dans le cas des couples les plus fréquents, la plupart des parents distributionnels sont des parents morphologiques.

Page 10: Yu-Ting HUANG UE TAL Le 10/01/2006

10

Résultat de l’analyse manuelle des 23 couples les plus fréquents

11

146

1

Morphologique lié

contexte immédiat

non morphologique

marginal

erroné

Page 11: Yu-Ting HUANG UE TAL Le 10/01/2006

11

Perspectives

Mieux manipuler l’outil un autre moyen pour repérer des couples

distributionnels

Étendre l’observation sur des couples moyennement fréquents voisins distributionnels -> construire des chaînes de

cohésion?

Page 12: Yu-Ting HUANG UE TAL Le 10/01/2006

12

Références

Bourigault D. (2002) « Upery : un outil d'analyse distributionnelle étendue pour la construction d’ontologies à partir de corpus », Actes de la 9ème conférence annuelle sur le Traitement Automatique des Langues (TALN 2002), Nancy, pp. 75-84

Lyons J. (1980), Sémantique linguistique, Larousse, Langue et langage, 496 p. Morris, J. & Hirst G. (1991), “Lexical cohesion computed by thesaural relations

as an indicator of the structure of text” in Computational Linguistics 17 (pp. 21-48) http://acl.ldc.upenn.edu/J/J91/J91-1002.pdf

Teich, E & Fankhauser, P. (2005) ” Exploring Lexical Patterns in Text: Lexical Cohesion Analysis withWordNet” in Interdisciplinary Studies on Information Structure 02 (pp.129–145), Dipper, S., M. Götze and M. Stede (eds.): Heterogeneity in Focus: Creating and Using Linguistic Databases http://www.sfb632.unipotsdam.de/publications/isis02_7teich-fankhauser.pdf

Vergez-Couret M. (2006) Apprendre Linguastream par l’exemple : Annoter les marqueurs linguistiques de la relation d’élaboration (en cours de réalisation)

Widlöcher A., Bilhaut F (2005) « La plate-forme LinguaStream : Un outil d’exploration linguistique sur corpus », TALN juin 2005, pp. 517-522

LinguaStream http://www.linguastream.org