adverbiaux temporels et expressions référentielles comme ... · pdf file«...

6
23 Sophie Piérard & Yves Bestgen « Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif ? » Schedae, 2006, prépublication n° 3, (fascicule n° 1, p. 23-28). Schedae, 2006 Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif ? Sophie Piérard & Yves Bestgen 1 Université catholique de Louvain Place Cardinal Mercier, 10; 1348 Louvain-la-Neuve – Belgique [email protected] Résumé : Cette recherche essaye d’éclaircir une question initiée par une recherche de Vonk et al. (1992) sur l’utilisation simultanée ou non de deux types de marqueurs de la segmentation : les expres- sions temporelles et les anaphores nominales. Par une analyse de corpus, nous montrons que ces deux types d’expressions apparaissent simultanément et permettent de confirmer l’intérêt des recherches de détection automatique des ruptures thématiques basées sur le cumul d’indices. Mots-clés : adverbiaux temporels, expressions référentielles, nom propre, marqueur de la structure. Abstract : This research tries to answer a question initiated by Vonk et al. (1992) on the simultaneous use or not of two types of segmentation markers : temporal expressions and nominal anaphora. A corpus analysis shows that these two types of expressions appear simultaneously to highlight a paragraph shift. This observations confirm the interest of automatic text segmentation procedures that are based on the coccurrence of indices. Keywords : temporal adverbials, referential expressions, proper name, segmentation markers. De nombreux moyens linguistiques sont à la disposition de l’auteur d’un texte pour signaler les ruptures thématiques. Il s’agit par exemple des adverbiaux temporels et des expressions référentielles (Charolles 1997, Laignelet 2004). D’une manière générale, nos Prépublication n° 3 Fascicule n° 1 1. Yves Bestgen est chercheur qualifié du Fonds national de la recherche scientifique (FNRS). Cette recher- che est financée par une « Action de Recherche concertée » du Gouvernement de la Communauté fran- çaise de Belgique.

Upload: vannga

Post on 06-Feb-2018

216 views

Category:

Documents


1 download

TRANSCRIPT

23

Sophie Piérard & Yves Bestgen« Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif ? »

Schedae

, 2006, prépublication n°3, (fascicule n°1, p. 23-28).

Schedae

,

2006

Adverbiaux temporelset expressions référentiellescomme marqueurs de segmentation : emploi simultané ou exclusif ?

Sophie Piérard & Yves Bestgen

1

Université catholique de Louvain

Place Cardinal Mercier, 10 ; 1348 Louvain-la-Neuve – Belgique

[email protected]

Résumé :

Cette recherche essaye d’éclaircir une question initiée par une recherche de Vonk

et al.

(1992)

sur l’utilisation simultanée ou non de deux types de marqueurs de la segmentation : les expres-

sions temporelles et les anaphores nominales. Par une analyse de corpus, nous montrons que ces

deux types d’expressions apparaissent simultanément et permettent de confirmer l’intérêt des

recherches de détection automatique des ruptures thématiques basées sur le cumul d’indices.

Mots-clés : adverbiaux temporels, expressions référentielles, nom propre, marqueur de la

structure.

Abstract :

This research tries to answer a question initiated by Vonk et al. (1992) on the simultaneous use or

not of two types of segmentation markers : temporal expressions and nominal anaphora. A corpus

analysis shows that these two types of expressions appear simultaneously to highlight a paragraph

shift. This observations confirm the interest of automatic text segmentation procedures that are

based on the coccurrence of indices.

Keywords : temporal adverbials, referential expressions, proper name, segmentation

markers.

De nombreux moyens linguistiques sont à la disposition de l’auteur d’un texte pour

signaler les ruptures thématiques. Il s’agit par exemple des adverbiaux temporels et des

expressions référentielles (Charolles 1997, Laignelet 2004). D’une manière générale, nos

Prépublication n° 3 Fascicule n° 1

1. Yves Bestgen est chercheur qualifié du Fonds national de la recherche scientifique (FNRS). Cette recher-che est financée par une « Action de Recherche concertée » du Gouvernement de la Communauté fran-çaise de Belgique.

24

Schedae

,

2006, prépublication n°3, (fascicule n°1, p. 23-28).

travaux visent à étudier l’emploi de ces marqueurs dans de grands corpus de textes (Piérard &

Bestgen 2005). Sont-ils bien associés à des ruptures thématiques ? Certaines expressions

sont-elles de meilleurs signaux ? Pour identifier les ruptures de thème, nous employons un

indice qui traduit, au moins partiellement, les intentions de l’auteur d’un texte : les change-

ments de paragraphe (Hofmann 1989, Longacre 1979). Nous utiliserons dans cette recher-

che une technique d’analyse qui fait l’objet d’un regain d’intérêt (Hoey 2005).

En plus de répondre à ces questions, la présente étude vise un objectif plus spécifique :

étudier les relations entre deux types de marqueurs de la segmentation d’un texte : les adver-

biaux temporels et les expressions référentielles (nom propre, pronom, nom avec détermi-

nant indéfini, défini, démonstratif et possessif de la 3

e

personne). La question principale à

laquelle nous voulons répondre trouve son origine dans une recherche de Vonk

et al.

(1992).

Ces auteurs s’intéressent au rôle des expressions référentielles comme marqueurs de la struc-

ture. En effet, selon ceux-ci, une expression référentielle plus spécifique que nécessaire

indique un changement de thème. Des expressions, telles que le pronom personnel, sont

utilisées dans des situations de continuité de thème. Par contre, des expressions nominales

(comme « Jacky » mais aussi « le pharmacien »), lorsqu’elles sont utilisées alors que l’acces-

sibilité à l’antécédent est forte, indiquent une transition vers une nouvelle unité du discours.

Les expressions nominales sont donc des signaux de changement de thème lorsqu’elles

sont employées alors que le contexte ne le nécessite pas (Fox 1984). Dans une de leurs

expériences, Vonk

et al.

(1992) ont demandé à leurs participants d’écrire une suite à de

courtes histoires de deux lignes mettant en scène un personnage. Dans l’une des conditions

expérimentales, les chercheurs imposaient aux participants d’écrire une suite en rupture ou

en continuité thématique par rapport au début du texte. Ils ont observé que les ruptures

de thème étaient liées à l’emploi d’anaphores plus spécifiques que nécessaire, c’est-à-dire

d’anaphores nominales. De plus, ils ont observé que lorsqu’il y a un changement de thème

dans une narration, l’auteur a tendance à employer soit une expression temporelle en début

de phrase et un pronom soit un nom seul. Ils expliquent cette observation en soutenant que

la présence d’un marqueur temporel de la segmentation réduit les chances d’observer une

expression référentielle plus spécifique que nécessaire. Ils concluent donc qu’il n’y a pas

d’emploi simultané de ces deux dispositifs qui indiquent un changement de thème.

Ces résultats ont été obtenus au travers d’une tâche relativement artificielle (imposer

aux participants de produire des suites en continuité ou en rupture thématique). Dans la

présente recherche, nous voulons déterminer si ce même emploi exclusif de ces deux types

de marqueurs peut être mis en évidence par une analyse de corpus.

Le corpus

Le corpus qui a été utilisé est composé de textes littéraires extraits des bases ABU,

Intratext et Wordthèque. Il contient 67 romans (du XIX

e

et XX

e

siècle) et approximativement

4 300 000 mots. Les textes ont été découpés en phrases et lemmatisés au moyen du pro-

gramme TreeTagger de Schmid (1994). Nous avons retiré du corpus les paragraphes qui

contenaient des dialogues afin de focaliser les analyses sur l’emploi des indicateurs de la

structure du discours écrit.

Expressions temporelles et paragraphe

Dans un premier temps, nous avons employé une procédure d’extraction d’expressions

régulières pour sélectionner de manière automatique les phrases contenant une expression

temporelle comme une date (le 4 janvier), une partie de journée (dès le matin), une indica-

tion d’heure (vers midi), un délai (une heure/semaine/année plus tard), etc. Au total, les

25

Schedae

,

2006, prépublication n°3, (fascicule n°1, p. 23-28).

phrases sélectionnées représentent 3 % des phrases de notre corpus. Nous avons classé ces

phrases selon que l’expression temporelle est présente au début, au milieu ou en fin de

phrase. Ensuite, nous nous sommes intéressés au positionnement de ces phrases dans les

paragraphes. Afin d’avoir un point de référence, nous avons calculé le pourcentage de

chance qu’a une phrase, contenant ou non une expression temporelle, d’arriver en tête de

paragraphe : ce pourcentage est de 26 %

2

. Lorsqu’une phrase contient une expression tem-

porelle, elle apparaît dans 38 % des cas en tête de paragraphe. Ce pourcentage masque

une grande disparité selon la position qu’occupe l’expression temporelle dans la phrase :

51 % des phrases introduites par une expression temporelle sont en début de paragraphe

contre 37 % pour les phrases qui se terminent par ce genre d’expressions et 31 % lorsque

l’expression est au milieu de la phrase. Cette observation confirme l’importance de la posi-

tion initiale dans la phrase pour qu’une expression temporelle signale efficacement un chan-

gement thématique (Costermans & Bestgen 1991, Charolles 1997, Virtanen 1992).

Nous avons également observé des différences entre les types d’expressions tempo-

relles présentes en début de phrase. En effet, certains types de marqueurs apparaissent

beaucoup plus souvent en tête de paragraphe (Chi

2

(7) = 31.704, p < 0.0001), comme nous

pouvons le constater dans le tableau ci-dessous.

3

Expressions référentielles et paragraphe

Dans un second temps, nous nous sommes intéressés aux expressions référentielles

présentes dans tous le corpus. Nous avons déterminé, au moyen d’une série d’heuristiques

syntaxiques, quel était le sujet du premier verbe conjugué de chacune des phrases. Puis,

nous avons observé si les phrases dont le sujet est un syntagme avec un article indéfini, un

déterminant possessif, etc. étaient plus souvent en tête de paragraphe ou pas.

Les phrases

dont le sujet est un nom propre ont 38 % de chances d’apparaître en début de paragraphe

(contre 26 %, quelle que soit le sujet de la phrase). Les pronoms, à titre de comparaison,

ont 21 % de chances d’apparaître en tête de paragraphe (Chi

2

(1) = 1437.2, p < 0.0001).

Nous avons effectué ces mêmes calculs sur un sous ensemble de notre corpus, à savoir,

sur les phrases contenant une expression temporelle. Pour chaque position de l’expression

temporelle dans la phrase (début, milieu, fin), nous avons également observé comment se

distribuaient les phrases selon leur sujet grammatical.

Comme on peut le voir dans le tableau, seul le nom propre est plus souvent le sujet

d’une phrase en tête de paragraphe. Les sujets grammaticaux d’autres catégories appa-

raissent plus souvent dans les phrases qui ne sont pas en tête de paragraphe, et ce, de

2. Cette valeur correspond à des paragraphes d’en moyenne 3,84 phrases.

Exemples des types d’expressions temporelles Nombre de phrases en tête de paragraphe

Nombre de phrases non en tête de

paragraphe

« le 1

er

juillet »… 41 19

« le lendemain »… 150 87

« le soir », « l’avant-midi »… 200 214

« vers 14 heures »… 79 88

« une heure après », « deux jours après »… 89 114

« une heure/jour/mois plus tard »… 20 31

« en 1975 »,… 7 11

« en été »

3

… 2 2

3. Comme cette catégorie rassemble peu d’occurrences, nous avons également calculé le Chi

2

sans celle-ci ;le Chi

2

reste toujours aussi significatif : Chi

2

(6) = 31.703, p < 0.0001.

26

Schedae

,

2006, prépublication n°3, (fascicule n°1, p. 23-28).

manière statistiquement significative (Chi

2

(6) = 114.627, p = 0.001). Le nom propre fonc-

tionne donc comme un marqueur de la structure. Cette constatation rejoint les observa-

tions de Hofmann (1989) et de Schnedecker (1997) pour lesquels l’« unité paragraphique »

coïncide avec d’autres traits linguistiques dont les syntagmes nominaux. Ceux-ci apparais-

sent aux points de fracture du texte.

4

Expressions temporelles et expressions référentielles

La dernière analyse vise à répondre à notre question spécifique : l’emploi de marqueurs

temporels en tête de paragraphe réduit-il l’apparition d’expressions référentielles plus spé-

cifiques comme un nom propre par rapport à un pronom. Selon cette thèse, on devrait obser-

ver moins de noms propres sujets et plus de pronoms sujets lorsque l’expression temporelle

est en tête de phrase et en tête de paragraphe ne vont pas dans ce sens. Lorsque le mar-

queur temporel est en tête de phrase, on observe 175 noms propres sujets de phrases en

tête de paragraphe et 87 noms propres sujets de phrases qui ne sont pas en tête de para-

graphe. D’autre part, on observe 127 pronoms sujets de phrases en tête de paragraphe et

192 pronoms sujets de phrases qui ne sont pas en tête de paragraphe (Chi

2

(1) = 41.96, p

< 0.0001). En poussant plus loin l’analyse, on remarque également que le nom propre pré-

sent dans une phrase débutant par un marqueur temporel, est dans 58 % des cas une reprise

d’un nom propre cité dans les 10 phrases qui précédent. Il apparaît que l’utilisation d’un type

de marqueurs de rupture comme les adverbiaux temporels n’empêche pas l’utilisation d’autres

types de marques comme une expression référentielle plus spécifique, tel le nom propre,

contrairement à l’idée avancée par Vonk

et al.

(1992). Ce résultat est en accord avec les

observations faites par Hofmann (1989) et Schnedecker (1997). Les indices de segmentation

textuelle, comme la marque de paragraphe, induisent le lecteur à conclure le traitement d’un

bloc d’information et à en initialiser un nouveau. Ce nouveau bloc peut débuter par diffé-

rents types d’expressions et parmi celles-ci, nous pouvons citer les marqueurs temporels.

Cette opération implique une accessibilité moins importante des entités contenues dans le

paragraphe qui vient d’être clôturé. Il est donc nécessaire d’utiliser des marqueurs de plus

faible accessibilité, comme les noms propres.

Conclusion

Cette recherche avait pour objectif d’étudier l’emploi simultané ou exclusif de deux types

d’expression qui signalent une rupture thématique, à savoir les expressions temporelles et

Catégorie grammaticale du sujet du premier verbe conjugué d’une phrase contenant une expression temporelle

Nombre de phrases en tête de paragraphe contenant l’expression

Nombre de phrases qui ne sont pas en tête de paragraphe contenant l’expression

Déterminant défini + syntagme nominal 247 404

Déterminant démonstratif + syntagme nominal 30 56

Déterminant possessif + syntagme nominal 20 47

Déterminant indéfini + syntagme nominal 65 113

Nom propre 368 299

Pronom personnel 307 712

Autre

4

271 492

Total 1308 2123

4. Cette catégorie reprend les sujets grammaticaux qui ne sont pas repris dans les autres catégories, commepar exemple, le « on » impersonnel.

27

Schedae

,

2006, prépublication n°3, (fascicule n°1, p. 23-28).

les anaphores nominales. Nous avons analysé, au moyen de procédures automatiques, un

corpus de textes littéraires. Nos résultats plaident pour une utilisation combinée de ces deux

types d’indices. Le caractère additif de ce type d’expressions dans le marquage de la seg-

mentation d’un texte confirme l’intérêt de développer de procédures d’identification des

ruptures basées sur l’accumulation d’indices.

Bibliographie

C

HAROLLES

M. (1997), « L’encadrement du discours – univers, champs, domaines et espaces »,

Cahier de

recherche linguistique

, 6, p. 1-73.

C

OSTERMANS

J. & B

ESTGEN

Y. (1991), « The role of temporal markers in the segmentation of narrative

discourse »,

Cahiers de Psychologie Cognitive

, 11, p. 349-370.

F

OX

B.A. (1984), « Anaphora in popular written English narratives », in

Coherence and grounding in

discourse,

R.S. Tomlin (éd.), 11 (Typological studies in language), Amsterdam, Benjamins.

H

OEY

M. (2005),

Lexical priming : a new theory of words and language

, Londres, Routledge.

H

OFMANN

T.R. (1989), « Paragraphs, & anaphora »,

Journal of Pragmatics

, 13, p. 239-250.

L

AIGNELET

M. (2004),

Les titres et les cadres de discours temporels

, Mémoire de DEA en Sciences du

langage, Université de Toulouse 2 – Le Mirail, 196 pages (dactyl.).

L

ONGACRE

R. E. (1979), « The paragraph as a grammatical unit », in

Syntax and Semantics, 12 (Discourse

and Syntax)

, T. Givón (éd.), New York, Academic Press, p. 115-134.

P

IÉRARD

S. & B

ESTGEN

Y. (2005), « Deux indices pour l’étude des marqueurs de la continuité thématique

dans de grands corpus », Communication présentée aux

4

es

journées de Linguistique de Corpus

,

Université de Bretagne-Sud, Septembre 2005.

S

CHMID

H. (1994), « Probabilistic Part-of-speech tagging using decision trees », in

Proceedings of

International Conference on New Methods in Language Processing

.

S

CHNEDECKER

C. (1997),

Nom propre et chaînes de référence

, Paris, Klincksieck.

V

IRTANEN

T. (1992),

Discourse functions of adverbial placement in English

, Åbo, Åbo Akademi University

Press.

V

ONK

W., H

USTINX

L.G. & S

IMONS

W.H. (1992), « The use of referential expressions in structuring

discourse »,

Language and cognitive processes

, 7, 3/4, p. 301-333.

28

Schedae

,

2006, prépublication n°3, (fascicule n°1, p. 23-28).