prosodie et anaphore dans le discours en anglais et en

UNIVERSITE AIX-MARSEILLE I – Université de Provence

U.F.R. LACS – Formation doctorale Langage et Parole

N° attribué par la bibliothèque : |__|__|__|__|__|__|__|__|__|__|

THESE pour obtenir le grade de

DOCTEUR DE L’UNIVERSITE AIX-MARSEILLE I

présentée et soutenue publiquement le 4 décembre 2004 par

Cyril Auran

Prosodie et anaphore dans le discours en anglais et en français :

cohésion et attribution référentielle

en un volume accompagné de deux CD-ROM

sous la direction de

Monsieur Daniel HIRST

Directeur de Recherche, CNRS, UMR 6057

Laboratoire Parole et Langage - Université de Provence

JURY

Madame Anne Wichmann, Professeur à l’Université Central Lancashire (Rapporteur)

Monsieur Jacques Durand, Professeur à l’Université de Toulouse 2 – Le Mirail (Rapporteur)

Monsieur Albert Di Cristo, Professeur à l’Université de Provence

Monsieur Daniel Hirst, Directeur de Recherche CNRS, LPL, Université de Provence

Monsieur Renaud Méry, Professeur à l’Université de Provence

A ma grand-tante, qui aurait tant aimé « voir ça »

A mes parents

A Thi

REMERCIEMENTS

Je tiens, parmi toutes les personnes qui ont pu contribuer à l’aboutissement de ce travail de

thèse, à remercier tout particulièrement

Anne Wichmann et Jacques Durand, qui ont accepté d’être non seulement membres de mon

jury, mais aussi rapporteurs, en dépit du surplus de travail que cela implique ;

Mes maîtres,

Renaud Méry, avec qui j’ai fait parmi mes premières armes linguistiques, pour la

pertinence aigüe de ses remarques linguistiques, de ses goûts musicaux, et de son humour ;

Albert Di Cristo, dont la verve, le charisme et la gentillesse sont en grande partie

responsables de ma poursuite d’études prosodiques ;

et bien sûr Daniel Hirst, second membre des duettistes aixois de la prosodie, pour la

subtile adresse avec laquelle il a su écouter, diriger et motiver l’étudiant indiscipliné que je

sais être, parfois…

Mes collègues,

Membres du groupe EPGA (Sophie, Laetitia et Marion), que nos études d’anglistique

nous ont permis de rencontrer sous la houlette bienveillante de Daniel Hirst ;

Membres du noyau dur du groupe ProDiGE (Alain, Annie, Catherine, Cristel,

Monique et Roxane), pour le caractère si stimulant de notre travail collaboratif ;

Membres du LPL (et notamment Alain, Bernard, Carine, Christian, Isabelle, Joël,

Louis et Robert), pour les discussions que nous avons eues et leur aide de tous les

instants (surtout les plus cruciaux) ;

Mes sujets, pour l’abnégation avec laquelle ils ont prêté leur corps à la science ;

Mes amis,

Amis du LPL (et notamment Caroline, Cyril et Pit), pour m’avoir aidé et supporté non

seulement au labo, mais aussi en dehors ;

Amis d’ailleurs (Dorothée, Fabien, Lorie, Luc, Pascal, Pierre et Toni), pour nos

soirées philosophiques et celles qui le furent moins ;

Ami de toujours, Sébastien, pour avoir été toujours là quand il le fallait ;

Mes parents, qui ont fait bien plus que ce qui était possible pour que j’en sois ici aujourd’hui ;

Et ma compagne, Thi, qui m’a porté à bout de coeur, supporté même lorsque j’étais

insupportable, aimé même lorsque j’étais détestable.

CONVENTIONS

Nous ferons deux remarques concernant la citation des œuvres dans ce travail de thèse. La

première remarque est relative au fait que, pour des raisons de lisibilité, nous avons

arbitrairement (et conventionnellement) choisi de ne pas citer tous les co-auteurs d’un travail

dès lors que celui-ci impliquait plus de deux collaborateurs ; l’œuvre apparaît alors dans le

texte sous la forme « 1er auteur et al. DATE ».

La seconde remarque est relative à une convention particulière concernant le nombre

grammatical associé aux œuvres citées. Notre démarche a consisté à mentionner l’œuvre en

tant qu’entité propre, en quelque sorte « indépendante » du nombre de ses auteurs. Ainsi,

malgré le fait qu’un travail ait été co-écrit par deux collaborateurs ou plus, nous lui associons

le nombre grammatical singulier, ce qui conduit à des constructions telles que « Moeschler &

Reboul (1994 : p. 361-372) propose … ».

SOMMAIRE GENERAL Introduction .............................................................................................................................1

1 Anaphore, discours et prosodie ......................................................................................4 1.1 Délimitation du phénomène anaphorique................................................................4

1.1.1 Anaphore : conception traditionnelle et Théorie du Liage ...............................4 1.1.2 Anaphore : conception discursive.....................................................................6

1.2 Indéterminations multiples ......................................................................................7 2 Données et méthodes ......................................................................................................8

2.1 Différents types de données linguistiques ...............................................................8 2.1.1 Données construites et données authentiques...................................................8 2.1.2 La notion de spontanéité.................................................................................10

2.2 Méthodes d’analyse ...............................................................................................10 3 Objectifs et plan de la thèse..........................................................................................11

Partie 1 - Approches classiques de l’anaphore.............................................. 15 Chapitre 1 - Anaphore et référence .....................................................................................17

1 Langage et fonction référentielle..................................................................................19 2 Différentes conceptions de la référence........................................................................20

2.1 L’école Terministe et la référence .........................................................................21 2.2 Sens, dénotation et représentation chez Frege.......................................................24

2.2.1 Sens et dénotation...........................................................................................24 2.2.2 Représentation ................................................................................................25 2.2.3 Le sens : un concept discuté ...........................................................................25 2.2.4 Frege et l’héritage des Terministes.................................................................26

2.3 Le positivisme logique et le tournant pragmatique ...............................................26 2.3.1 Concepts fondamentaux du positivisme logique ............................................26 2.3.2 Le tournant pragmatique.................................................................................27 2.3.3 Synthèse..........................................................................................................35

2.4 L’approche cognitiviste .........................................................................................36 2.4.1 Le « premier » Wittgenstein et la théorie de l’image .....................................36 2.4.2 Le concept de « modèle mental » ...................................................................37 2.4.3 Entités cognitives et entités du « monde réel » ..............................................38 2.4.4 Synthèse..........................................................................................................39

3 Le cas de l’anaphore au sein de la thématique de la référence.....................................40 4 Synthèse générale .........................................................................................................42

Chapitre 2 - Eclairages sur l’anaphore en linguistique .....................................................45

1 Anaphore et incomplétude............................................................................................48 1.1 La théorie milnérienne de la référence ..................................................................48 1.2 L’anaphore dans le cadre de la théorie milnérienne ..............................................50

1.2.1 L’anaphore pronominale.................................................................................50 1.2.2 L’anaphore nominale......................................................................................52

1.3 Synthèse.................................................................................................................54 2 Deixis, indexicalité et anaphore ...................................................................................56

2.1 La deixis : définition liminaire ..............................................................................57 2.2 Deixis et indexicalité (Q1).....................................................................................60 2.3 Deixis et anaphore an tant que phénomènes indexicaux (Q2)...............................63

2.3.1 Approche chronologique ................................................................................64

Sommaire général

2.3.2 Approche abstractionniste.............................................................................. 71 2.4 Synthèse ................................................................................................................ 74

3 Principaux problèmes des descriptions classiques....................................................... 75 3.1 La théorie milnérienne .......................................................................................... 75

3.1.1 Saturation sémantique .................................................................................... 75 3.1.2 L’anaphore pronominale : coréférence et reprise .......................................... 76

3.2 Deixis et anaphore................................................................................................. 79 3.2.1 Typologie des formes indexicales.................................................................. 80 3.2.2 Typologie des usages indexicaux................................................................... 82

4 Synthèse générale......................................................................................................... 84 Partie 2 - Discours et anaphore....................................................................... 87 Chapitre 3 - Approches du discours.................................................................................... 89

1 De la phrase au discours............................................................................................... 92 1.1 Linguistique textuelle : la transition linguistique stricte....................................... 93 1.2 L’approche fonctionnaliste ................................................................................... 94

1.2.1 Aspects relationnels ....................................................................................... 94 1.2.2 Aspects informationnels................................................................................. 96

1.3 La charnière informationnelle............................................................................... 97 1.4 Cohérence, texte et discours ............................................................................... 101 1.5 Synthèse .............................................................................................................. 103

2 Le discours multidimensionnel .................................................................................. 103 2.1 Attention, intentions et structure du discours...................................................... 104

2.1.1 La structure linguistique............................................................................... 105 2.1.2 La structure intentionnelle ........................................................................... 105 2.1.3 L’état attentionnel ........................................................................................ 107

2.2 Un modèle hétérarchique du discours................................................................. 110 2.2.1 Influences ..................................................................................................... 111 2.2.2 Structure du modèle ..................................................................................... 113

2.3 Synthèse .............................................................................................................. 117 3 Un object « discours » ?............................................................................................. 118

3.1 Quel objet « discours » ?..................................................................................... 118 3.1.1 Discours vs. texte ......................................................................................... 118 3.1.2 Discours et cohérence .................................................................................. 121

3.2 A-t-on besoin d’un objet « discours » ? .............................................................. 127 3.2.1 RT et la cognition......................................................................................... 127 3.2.2 RT et la communication............................................................................... 128 3.2.3 RT et la compréhension ............................................................................... 129 3.2.4 Synthèse ....................................................................................................... 130

4 Synthèse générale....................................................................................................... 130 Chapitre 4 - Anaphore et discours : Solutions, nouveaux problèmes et changement de perspective ...................................................................................................................... 133

1 Anaphore et discours : solutions et nouveaux problèmes …..................................... 136 1.1 Anaphore et deixis : pour une approche discursive ............................................ 136

1.1.1 Anaphore et deixis : rappel de la distinction classique ................................ 136 1.1.2 Typologie des usages référentiels : une approche discursive ...................... 138 1.1.3 Solutions discursives.................................................................................... 141 1.1.4 Synthèse ....................................................................................................... 148

Sommaire général

1.2 Autonomie référentielle, coréférence et reprise ..................................................149 1.2.1 Le concept d’autonomie référentielle ...........................................................149 1.2.2 L’anaphore pronominale : coréférence et reprise .........................................153

1.3 Synthèse...............................................................................................................156 2 Anaphore pronominale et discours .............................................................................156

2.1 Fonctionnement référentiel des expressions indexicales : généralités ................157 2.1.1 Expressions définies .....................................................................................157 2.1.2 Expressions démonstratives..........................................................................158 2.1.3 Expressions pronominales ............................................................................159

2.2 Anaphore pronominale et discours ......................................................................161 2.2.1 Référence et responsabilité partagée ............................................................161 2.2.2 Typologies attentionnelles............................................................................163 2.2.3 La Théorie du Centrage : un modèle de l’anaphore discursive ....................167

2.3 Interdépendance de l’anaphore et du discours.....................................................177 2.4 Synthèse...............................................................................................................181

3 Synthèse générale .......................................................................................................181 Partie 3 - Approches de la prosodie.............................................................. 183 Chapitre 5 - Conceptions prosodiques fondamentales.....................................................187

1 Prosodie : première approche .....................................................................................189 1.1 Prosodie et pragmatique : destins parallèles........................................................190

1.1.1 Guerre … ......................................................................................................190 1.1.2 … et paix ......................................................................................................193 1.1.3 Développements récents et perspectives ......................................................195

1.2 Suprasegmental, intonation : point terminologique.............................................196 1.2.1 Suprasegmental.............................................................................................197 1.2.2 Intonation et prosodie ...................................................................................198

1.3 Synthèse...............................................................................................................200 2 Le macro-système prosodique ....................................................................................201

2.1 Niveaux de représentation ...................................................................................202 2.1.1 Niveaux de représentation et niveaux d’analyse ..........................................202 2.1.2 Modalité directe............................................................................................204 2.1.3 Modalité indirecte.........................................................................................207

2.2 Multiplicité des paramètres et des dimensions prosodiques................................210 2.2.1 Prosodie multi-paramétrique ........................................................................210 2.2.2 Prosodie multi-dimensionnelle .....................................................................214

2.3 Espace spectral ....................................................................................................220 2.3.1 Statut linguistique.........................................................................................220 2.3.2 Vers une intégration linguistique partielle ...................................................222

2.4 Ordre métrique et accent......................................................................................225 2.4.1 L’accent : « stress » et « accent » .................................................................225 2.4.2 L’ordre métrique comme interface cognitive de haut niveau.......................228

2.4 Synthèse...............................................................................................................229 3 Structure(s) et représentation(s) Prosodique(s) ..........................................................230

3.1 Représentations prosodiques : la cas de l’espace fréquentiel ..............................230 3.1.1 Cadre général................................................................................................231 3.1.2 Représentation phonétique : l’algorithme MOMEL.....................................231 3.1.3 Représentation phonologique de surface......................................................233

3.2 Extensions et applications : ProZed ....................................................................237

Sommaire général

3.2.1 Extension à d’autres espaces prosodiques ................................................... 237 3.2.2 L’environnement applicatif ProZed ............................................................. 238

3.3 Structure(s) prosodiques de l’anglais.................................................................. 239 3.3.1 Unités prosodiques....................................................................................... 239 3.3.2 Phonologie profonde et phonologie de surface............................................ 240 3.3.3 Statut phonologique de l’emphase ............................................................... 243

3.4 Synthèse .............................................................................................................. 245 4 Synthèse générale....................................................................................................... 246

Chapitre 6 - Prosodie et discours....................................................................................... 249

1 Fonctions et formes : la quête du sens prosodique .................................................... 252 1.1 Usages prosodiques............................................................................................. 252 1.2 Fonctions prosodiques et linguistique................................................................. 254

1.2.1 Catégorisation linguistique et discrétude ..................................................... 254 1.2.2 Pour une pragmatisation du sens prosodique............................................... 256

1.3 Organisation des fonctions prosodiques ............................................................. 257 1.3.1 Catégories prosodiques fonctionnelles......................................................... 257 1.3.2 Primitives prosodiques fonctionnelles ......................................................... 258

1.4 Synthèse .............................................................................................................. 260 2 Accentuation et anaphore discursive.......................................................................... 261

2.1 Anaphore pronominale discursive : quelques rappels......................................... 261 2.1.1 Anaphore pronominale discursive et faisceaux d’indices............................ 261 2.1.2 Anaphore pronominale discursive et statut attentionnel des référents......... 262

2.3 Anaphore pronominale discursive et accentuation ............................................. 263 2.3.1 Prosodie et information.................................................................................... 263 2.3.2 Interprétation des anaphores pronominales accentuées ................................... 265 2.3 Synthèse .............................................................................................................. 272

3 Prosodie et structure discursive.................................................................................. 273 3.1 Organisation prosodique : indépendance partielle par rapport à la syntaxe ....... 274

3.1.1 Prosodie et syntaxe : conceptions divergentes............................................. 275 3.1.2 Prosodie bipartite et indépendance relative avec la syntaxe ........................ 277

3.2 Prosodie et segmentation discursive ................................................................... 282 3.2.1Niveau de l’unité intonative.......................................................................... 282 3.2.2 Structure prosodique au-delà de l’unité intonative ...................................... 283 3.2.3 Structure prosodique et approche conversationnelle ................................... 285

3.3 Marques prosodiques de l’organisation discursive ............................................. 286 3.3.1 Prosodie et marquage de l’organisation discursive...................................... 286 3.3.2 Marquage de la discontinuité discursive...................................................... 288 3.3.3 Marquage de la continuité discursive........................................................... 297

3.4 Synthèse .............................................................................................................. 304 4 Synthèse générale....................................................................................................... 305

Résumé des concepts clés et hypothèses............................................................................ 309

Sommaire général

Partie 4 - Approche expérimentale des relations prosodie-anaphore....... 315 Chapitre 7 - Constitution de la base de données Aix-MARSEC .....................................319

1 Aix-MARSEC : un corpus, une base de données, un projet.......................................322 1.1 Le corpus .............................................................................................................322 1.2 La base de données ..............................................................................................322 1.3 Le projet...............................................................................................................323 1.4 Synthèse...............................................................................................................324

2 Aix-MARSEC : les origines .......................................................................................325 2.1 De SEC à MARSEC............................................................................................325

2.1.1 Le Spoken English Corpus ...........................................................................325 2.1.2 Le corpus MARSEC.....................................................................................328

2.2 Traitements préliminaires ....................................................................................329 2.2.1 Homogénéisation : correspondance texte-audio...........................................329 2.2.2 Première approche de l’alignement ..............................................................329

3 Les traitements spécifiques.........................................................................................330 3.1 Phonétisation .......................................................................................................330

3.1.1 Différentes approches ...................................................................................330 3.1.2 Principes de phonétisation Aix-MARSEC ...................................................332 3.1.3 Traitements spécifiques ................................................................................333 3.1.4 Problèmes spécifiques ..................................................................................335

3.2 Optimisation par règles d’élision.........................................................................335 3.2.1 Condition d’application des règles ...............................................................336 3.2.3 Règles d’élision ............................................................................................338 3.2.4 Évaluation des règles d’élision.....................................................................342

3.3 Alignement du corpus Aix-MARSEC.................................................................344 3.3.1 Méthodes d’alignement ................................................................................344 3.3.2 Evaluation.....................................................................................................345

3.4 Autres niveaux d’analyse.....................................................................................349 3.4.1 Unités syllabiques.........................................................................................350 3.4.2 Unités rythmiques.........................................................................................350 3.4.3 Annotation fréquentielle ...............................................................................351

4 Synthèse générale .......................................................................................................351 Chapitre 8 - Aspects de production et analyse de corpus ................................................355

1 Hypothèses et cahier des charges expérimental .........................................................358 1.1 Approche interactive de l’onset et de l’anaphore ................................................358 1.2 Cahier des charges expérimental .........................................................................360 1.3 Synthèse...............................................................................................................360

2 Protocole expérimental ...............................................................................................361 2.1 Extraction des données ........................................................................................361

2.1.1 Avantages et limites des extractions manuelle et automatique ....................361 2.1.2 Protocole adopté ...........................................................................................363

2.2 Echantillonnage ...................................................................................................366 2.3 Normalisation ......................................................................................................373

2.3.1 Transformation logarithmique......................................................................373 2.3.2 Procédure de normalisation ..........................................................................375

3 Résultats et discussion................................................................................................379 3.1 Résultats ..............................................................................................................379

3.1.1 Valeur fréquentielle d’onset et structure prosodico-discursive ....................379

Sommaire général

3.1.2 Valeur fréquentielle d’onset et anaphore pronominale ................................ 383 3.2 Discussion ........................................................................................................... 386

3.2.1 Conceptions de l’onset ................................................................................. 386 3.2.2 Discussion de nos résultats .......................................................................... 388

4 Synthèse générale....................................................................................................... 392 Chapitre 9 - Aspects perceptifs des interactions anaphore-onset................................... 397

1 Formulation des hypothèses....................................................................................... 400 1.1 Hypothèses générales.......................................................................................... 400

1.1.1 Asymétrie des rôles de production et de perception .................................... 400 1.1.2 Onset et anaphore chez l’interlocuteur : premières hypothèses................... 402

1.2 Revue des méthodes et de quelques résultats antérieurs..................................... 403 1.2.1 Anaphore et méthodes expérimentales de la psycholinguistique................. 403 1.2.2 Quelques résultats ........................................................................................ 406

1.3 Hypothèses de travail .......................................................................................... 407 2 Protocole expérimental : éléments communs............................................................. 409

2.1 Phase préparatoire ............................................................................................... 409 2.1.1 Enregistrement et numérisation ................................................................... 409 2.1.2 Manipulations............................................................................................... 410 2.1.3 Préparation des scripts d’expérimentation ................................................... 410

2.2 Exécution des expérimentations.......................................................................... 411 2.2.1 Environnement ............................................................................................. 411 2.2.2 PERCEVAL................................................................................................. 411

2.3 Récupération et traitement des résultats.............................................................. 411 3 Expérimentations ....................................................................................................... 412

3.1 Première phase d’expérimentation...................................................................... 412 3.1.1 Hypothèses traitées ...................................................................................... 412 3.1.2 Protocole expérimental ................................................................................ 413

3.2 Seconde phase d’expérimentation....................................................................... 420 3.2.1 Hypothèse expérimentale............................................................................. 420 3.2.2 Protocole expérimental ................................................................................ 420

3.3 Discussion ........................................................................................................... 429 4 Synthèse générale....................................................................................................... 433

Conclusion ........................................................................................................................... 435 Index des figures ................................................................................................................. 441 Index des tableaux............................................................................................................... 445 Index des exemples.............................................................................................................. 447 Index des auteurs ................................................................................................................ 451 Bibliographie ....................................................................................................................... 455 Annexe 1 : Aix-MARSEC..................................................................................................CD1 Annexe 2 : Tables et stimuli ..............................................................................................CD2

Introduction

Introduction

2

Introduction : Sommaire

1 Anaphore, discours et prosodie...................................................................... 4 1.1 Délimitation du phénomène anaphorique ...................................................................... 4

1.1.1 Anaphore : conception traditionnelle et Théorie du Liage ...................................... 4 1.1.2 Anaphore : conception discursive ............................................................................ 6

1.2 Indéterminations multiples .............................................................................................. 7 2 Données et méthodes ....................................................................................... 8 2.1 Différents types de données linguistiques ....................................................................... 8

2.1.1 Données construites et données authentiques .......................................................... 8 2.1.2 La notion de spontanéité ........................................................................................ 10

2.2 Méthodes d’analyse......................................................................................................... 10 3 Plan de la thèse .............................................................................................. 11

Introduction

3

Mêler dans le titre de cette thèse les termes « anaphore » et « prosodie » constitue une

double prise de risque vis-à-vis de nos lecteurs libres (par opposition aux membres de notre

jury, plus… contraints). D’une part, en effet, parler d’anaphore revient en définitive à

évoquer, une fois de plus, l’un des thèmes peut être les plus étudiés de la linguistique ; en ce

sens, nul doute qu’une certaine lassitude par anticipation risque d’étreindre les lecteurs de ce

titre … D’autre part, la prosodie constitue sans doute l’un des objets d’étude les plus

populaires à l’heure actuelle, tant et si bien que des chercheurs tels que Janet Fodor

reconnaissent que leur discipline ne peut plus « y échapper » ; le risque est alors dans ce cadre

de donner l’impression que ce travail de thèse n’est qu’une soumission opportuniste à la

« prosodimania » décrite par Albert Di Cristo.

Nous espérons montrer dans le reste de ce travail que ces réticences sont injustifiées. En

effet, nous tenterons d’aborder la thématique de l’anaphore d’une manière (toutes proportions

gardées) relativement peu répandue, au sein d’un double renversement de point de vue par

rapport à la conception traditionnelle du phénomène ; nous proposerons ainsi de ne plus

concevoir l’anaphore comme une marque déficiente, un problème à « résoudre », mais plutôt

comme une marque robuste de cohésion (nous préférerons le terme « continuité ») unie à la

dynamique du discours par une relation de dépendance mutuelle. Notre approche de la

prosodie trouvera quant à elle sa source dans notre intention de fournir un cadre

terminologique et conceptuel élargi, destiné à accueillir des éléments et organiser de manière

plus systématique des paramètres souvent séparés ou regroupés selon nous à tort.

De manière plus précise, nous tenterons d’analyser les interactions complexes qui

unissent (comme nous allons le proposer) certains phénomènes prosodiques à l’anaphore, plus

particulièrement en relation avec le marquage de la continuité discursive ; nous ne traiterons

donc pas spécifiquement de la réalisation prosodique des formes anaphoriques (notamment

par l’accentuation), mais plutôt de la contribution de chaque domaine au discours ainsi que de

leurs influences mutuelles à plus grande échelle.

Face à l’apparente ambition de tant d’intentions, nous souhaitons insister sur le fait que

ce travail de thèse ne constitue qu’une contribution tout au mieux modeste et parcellaire aux

champs d’étude auxquels elle se rattache (prosodie et pragmatique discursive) ; la limitation

(malheureusement inévitable) de nos analyses expérimentales à quelques phénomènes

restreints et ponctuels sera sans doute la preuve la plus flagrante de la portée limitée de ce

travail.

Introduction

4

Après ces indispensables remarques, nous souhaitons à présent inviter le lecteur (qu’il

soit libre ou contraint) à nous suivre dans cette introduction au cours de laquelle nous

préciserons certains aspects conceptuels et méthodologiques fondamentaux et présenterons le

plan de cette thèse.

Plus précisément, nous organiserons cette introduction en trois sections principales.

Dans la première, nous aborderons certains des aspects plus théoriques concernant la

définition de notre objet d’étude et du cadre dans lequel nous souhaitons l’aborder : nous

opposerons ainsi notamment l’anaphore de discours à l’anaphore telle que peut la concevoir la

syntaxe générative tout en soulignant l’indétermination multiple qui touche les disciplines

dans lesquelles nous situerons notre démarche.

Dans la seconde section, nous nous attacherons plus particulièrement à la présentation et

à la justification de nos choix concernant la nature des données analysées et les méthodes

employées pour analyser ces dernières. Nous soulignerons cependant quelques aspects

théoriques relatifs au concept de spontanéité et tenterons d’en proposer une caractérisation

multidimensionnelle.

Nous terminerons cette introduction, finalement, par la présentation de nos objectifs et

du plan de cette thèse.

1 Anaphore, discours et prosodie

1.1 Délimitation du phénomène anaphorique

Comme nous aurons l’occasion de le préciser de manière bien plus détaillée dans le

reste de ce travail, l’anaphore peut être abordée de nombreux points de vue différents. Parmi

ces points de vue, celui de la syntaxe constitue sans doute l’un des plus influents, notamment

avec la Théorie du Liage proposée dans Chomsky 1981.

1.1.1 Anaphore : conception traditionnelle et Théorie du Liage

La Théorie du Liage repose majoritairement sur une conception de l’anaphore que nous

qualifierons de « traditionnelle » dans le chapitre 2 de cette thèse. Dans ce cadre, nous

retiendrons pour l’instant que l’anaphore implique une unité (l’expression anaphorique) dont

l’interprétation dépend d’une autre unité du cotexte, généralement appelée « antécédent » ;

plus particulièrement cette relation est présentée comme un phénomène de coréférence par

lequel l’antécédent et l’expression anaphorique « réfèrent » (nous reviendrons sur cette

Introduction

5

conception) toutes deux au même objet du monde ; ainsi, dans l’exemple 1 ci-dessous, on dira

typiquement que « Paul » est l’antécédent de « he » et que ces deux expressions coréfèrent à

l’individu Paul.

Ex (1) Pauli thinks hei shouldn’t have voted for Gerry Wallace Briar.

En syntaxe, cette coréférence est marquée par l’utilisation d’indices identiques pour les

unités qui coréfèrent (cf. l’indice i dans notre exemple 1) : on parlera alors de coindexation.

La Théorie du Liage a pour objectif principal de décrire la distribution

• des expressions réfléchies (« herself ») ou réciproques (« each other »), appelées

« anaphores » (« anaphors » en anglais), qui sont nécessairement dépendantes d’une

portion du cotexte ;

• des expressions potentiellement dépendantes d’une portion du cotexte, appelées

« pronoms » ou plutôt « pronominaux » (« pronominals » ; par exemple « he »), c'est-

à-dire en termes chomskyens les pronoms qui ne sont pas des « anaphores » ;

• des expressions qui peuvent référer seules, ou « expressions référentielles »

(« R(eferring)-expressions »), comme les syntagmes nominaux à texte lexicale.

Le concept de liage, plus particulièrement, correspond à ce que nous venons d’appeler

la coindexation entre deux éléments α et β tels que α « c-commande » β, c'est-à-dire que α ne

contient pas β et que le premier nœud branchant qui domine α domine aussi (directement ou

pas) β. On dira ainsi qu’une expression est « liée » lorsqu’elle est coindexée avec et c-

commandée par son antécédent.

La Théorie du Liage propose les trois principes suivants pour rendre compte des

configurations bien formées :

• Principe A : les anaphores (« anaphors ») doivent être liées dans leur catégorie

gouvernante ;

• Principe B : les pronominaux (« pronominals ») doivent être libres dans leur catégorie

gouvernante ;

• Principe C : les expressions référentielles doivent être libres.

Nous n’entrerons pas ici dans le détail de cette théorie (notamment concernant le

concept de « catégorie gouvernante » en relation avec la projection) mais proposons

d’observer les trois exemples suivants afin de mieux les comprendre :

Introduction

6

Ex (2) a. Pauli told Johnj that Billk couldn’t vote for himself*i/*j/k.

b. Pauli a dit à Jeanj que Bertrandk ne pouvait pas voter pour lui-même*i/*j/k.

Ex (3) a. Pauli told Johnj that Billk couldn’t vote for himi/j/*k.

b. Pauli a dit à Jeanj que Bertrandk ne pouvait pas voter pour luii/j/*k.

Ex (4) a. Pauli told Johnj that hei/j/*k couldn’t vote for Billk.

b. Pauli a dit à Jeanj qu’il i/j/*k ne pouvait pas voter pour Bertrandk.

L’exemple 2 est un exemple d’application du principe A : l’anaphore (au sens

chomskyen) « himself », étant c-commandé par « Bill », il ne peut coréférer, et donc être lié

qu’avec ce dernier. L’exemple 3 implique le pronominal « him » qui, en vertu du principe B,

ne peut pas être lié (et donc coréférer) avec « Bill » ; la coréférence avec « Paul » ou « John »

est en revanche possible. L’exemple 4 finalement, démontre notamment le principe C par le

fait que « Bill », c-commandé par « he », ne peut être lié à (et donc coréférer avec) ce dernier.

1.1.2 Anaphore : conception discursive

La conception que nous souhaitons adopter ici pourra être qualifiée de « discursive ».

Bien que les deux premières parties de cette thèse soit consacrées à l’explicitation de cette

approche, nous pouvons d’ores et déjà préciser que nous n’adopterons pas la terminologie

chomskyenne et que nous ne nous limiterons pas aux concepts et aux types de données de la

conception « traditionnelle » ou de la Théorie du Liage. Evoquons en quelques mots les

différences fondamentales de la conception discursive de l’anaphore avec chacun de ces deux

courants de pensée.

Nous avons vu que la conception traditionnelle implique que l’expression anaphorique

coréfère avec son « antécédent » ; l’approche discursive, a contrario, se positionnant dans un

cadre cognitif et pas simplement textuel, traitera des anaphores dites « sans antécédent », des

anaphores « associatives » et « évolutives » et nous permettra de remettre en cause les

concepts même d’antécédent et de coréférence comme définitoires de l’anaphore.

L’approche discursive, de plus est généralement perçue comme impliquant des relations

au-delà des frontières de la phrase ; bien que cela soit souvent vrai, ce fait n’est pas

indispensable à l’approche discursive (cf. par exemple Reboul & Moeschler 1998 ou Cornish

1999), qui peut aussi fort bien expliquer par des principes propres certains phénomènes

Introduction

7

phrastiques. Ainsi, dans notre exemple 2, si le principe B de la Théorie du Liage explique

l’impossibilité pour « him » de « référer » à Bill, il ne dit rien de ses relations avec Paul ou

John, qui sont deux antécédents syntaxiquement acceptables ; l’approche discursive, a

contrario, prenant en compte des éléments tels que les connaissances d’arrière plan ou la

saillance cognitive d’un référent pourra expliquer pourquoi, selon le contexte, « him » peut

désigner l’un ou l’autre de ces individus.

Nous retiendrons donc principalement de cette section que notre approche ne s’inscrit

pas dans le cadre syntaxique de la Théorie du Liage, dont elle n’adopte ni la terminologie ni

les concepts. Les relations de la conception discursive et de la conception traditionnelle seront

quant à elles l’objet des deux premières parties de cette thèse.

1.2 Indéterminations multiples

Un second aspect qu’il nous semble important de noter concerne l’indétermination

multiple qui caractérise notre thématique. En effet notre approche de l’anaphore implique à la

fois des aspects pragmatiques, discursifs et prosodiques, phénomènes aux frontières (et

parfois même au contenu) difficiles à délimiter. Nous reviendrons sur ces aspects plus loin

dans ce travail (cf. chapitres 1, 3 et 5 notamment), mais il paraît crucial de remarquer que la

pragmatique, l’analyse du discours et la prosodie, récemment (plus ou moins) intégrées dans

le cadre d’une linguistique élargie, restent délicates à définir de manière robuste. Ainsi, la

pragmatique occupe encore parfois, de nos jours, une position malaisée par rapport à un

sémantique croissante ; l’analyse du discours se trouve prise entre l’analyse de la conversation

et la pragmatique traditionnelle, sans qu’aucune ligne de démarcation puisse être tracée à

coup sûr ; la prosodie, finalement, oscille entre fonctionnement linguistique (au niveau du

mot, de la phrase, voire du discours) et expression paralinguistique des attitudes et des

émotions. On le voit, notre thèse, tentant de croiser ces différents champs du savoir

linguistique (au sens le plus large du terme), court le risque de se diluer dans cette

indétermination multiple de son cadre.

Notre travail, nous le regrettons, n’apportera pas de solution définitive à ces problèmes

définitoires ; nous tenterons cependant de poser de manière plus précise nos conceptions

notamment des concepts fondamentaux de discours (chapitre 3), d’anaphore (chapitre 4) et de

prosodie (chapitres 5 et 6) dans l’objectif particulier d’en délimiter l’extension.

A un niveau plus local, étant donnée l’inévitable absence de consensus concernant les

phénomènes traités au sein de ces disciplines, il est à parier que les concepts que nous

Introduction

8

évoquerons auraient pu être classés et analysés d’une manière fort différente de celle que nous

aurons privilégiée : tel concept informationnel aurait peut être trouvé une expression plus

précise dans le cadre d’une macro-syntaxe, tel autre, relatif au « downstep », aurait pu être

mieux modélisé dans le cadre d’une approche métrique-autosegmentale, etc. Néanmoins, nous

avons tenté, dans la mesure du possible, de détailler les concepts et les méthodes employées et

de justifier notre démarche tout en précisant, lorsque cela s’avérait nécessaire, la fragilité

(encore plus marquée qu’ailleurs) de nos propositions.

Notons finalement qu’en parallèle avec ces problèmes épistémologiques et de choix

d’école ou de courant de pensée, d’autres question fondamentales se posent concernant le

choix des données et des méthodes destinées à les traiter. C’est en conséquence vers

l’évocation de cette thématique parallèle que nous allons nous tourner à présent.

2 Données et méthodes

2.1 Différents types de données linguistiques

2.1.1 Données construites et données authentiques

Les études linguistiques ont généralement recours à des données que l’on peut classer

en deux catégories. La première catégorie recouvre les données dites « construites », c'est-à-

dire produites par le chercheur dans le cadre de la validation et / ou de l’invalidation de ses

hypothèses ou de celles d’un autre. Ce type de démarche, qui a longtemps caractérisé la

méthode linguistique repose en définitive sur le concept de « compétence », qui a trouvé l’une

de ses expressions les plus abouties dans le cadre de la théorie chomskyenne (par opposition à

la « performance ») : dans ce cadre, le linguiste, en tant que locuteur de la langue étudiée, est

supposé avoir intégré les critères formels sur lesquels repose le jugement d’acceptabilité qu’il

pourra formuler face à une phrase. L’un des problèmes majeurs de ce type de démarche est lié

au fait que le concept d’acceptabilité n’est pas binaire mais gradient (une phrase peut être

jugée plus acceptable qu’une autre), mais surtout au fait qu’un désaccord peut voir le jour

entre différents juges.

Introduction

9

Une manière de contourner cet écueil consiste à recourir à des données « authentiques »,

terme que nous utiliserons pour caractériser les productions langagières non construites par le

linguiste dans le cadre de son analyse et produites avec un objectif communicatif1.

On pourra dès lors considérer deux positions. La première s’apparente au courant

interactionniste de l’analyse de la conversation et propose l’analyse détaillée d’interactions

généralement enregistrées et retranscrites ; la question de la validité des données est alors

mise en relation avec d’éventuelles corrections du locuteur ainsi que les différentes formes de

validation effectuées par les interlocuteurs dans le déroulement de l’interaction : on parlera

alors de validité communicationnelle ou interactionnelle. La précision des observations

fournies par ce type de méthode se gagne cependant souvent au détriment du volume des

données traitées, ce qui pose le problème du localisme des observations, parfois plus

considérées comme des études de cas que comme de véritables analyses généralisables.

La seconde position consiste à recourir à des masses importantes de données regroupées

en un « corpus » dont la taille peut varier dans de grandes proportions selon le mode

d’expression (oral ou écrit). Dans ce cadre, une solution au problème de la représentativité des

données consiste alors à considérer que la fréquence élevée d’occurrence d’un type de

construction, détachée du comportement d’un nombre limité d’individus, constitue une

mesure objective de son acceptabilité : on parlera alors de validité statistique. La contrepartie

à cette ampleur des volumes traités est souvent liée à une granularité d’analyse moins fine,

négligeant potentiellement les disfluences (volontairement ou involontairement « omises » par

les transcripteurs) et les (in)validations interactives des interlocuteurs et posant le problème de

l’homogénéité des transcriptions lorsque de nombreux transcripteurs sont impliqués par

exemple dans le traitement d’un grand corpus oral.

Remarquons tout de même comme le suggère Culioli 1990 que les données

authentiques (ou pas) récupérées par le linguistique ne constituent que des données brutes que

celui-ci devra nécessairement travailler, voire « faire travailler sur elles-mêmes » (ibid. : p.

18) afin d’en tirer une formalisation satisfaisante. Notons aussi, finalement, qu’il est aussi

important d’avoir conscience du fait que même les données authentiques semblent présenter

des degrés divers de représentativité de ce qu’est supposé être l’expression la plus naturelle du

1 Le choix de ce terme et de son acception provient de nos travaux concernant le projet Aix-MARSEC (cf.

chapitres 7 et 8) au sein du groupe EPGA (« English Prosody Group of Aix ») et notamment des suggestions de

Daniel Hirst.

Introduction

10

langage ; on insiste alors généralement dans ce contexte sur un critère de spontanéité, notion

délicate vers laquelle nous nous tournons maintenant.

2.1.2 La notion de spontanéité

Le concept de spontanéité implique en fait plusieurs dimensions. En effet, la spontanéité

est souvent enfermée dans une opposition binaire entre modes de production primaires de la

parole (lecture oralisée d’un texte écrit / « scripted » vs. production sans support écrit /

« unscripted ») ; comme le souligne à juste titre Di Cristo 2000, des types de production telles

que la lecture non préparée ou la récitation d’un texte appris sans support écrit, constituent

autant de cas qui nous encouragent à abandonner ce type de vision au profit de considérations

plus graduelles relatives à une « échelle de spontanéité » (Di Cristo 2000 : p. 191).

Il s’avère cependant que ce passage de la binarité à la gradience, s’il constitue

certainement une proposition intéressante, reste néanmoins uniquement lié aux aspects de

production. A l’évidence, les aspects perceptifs de la parole (notamment prosodiques cf. Di

Cristo 2000 : p. 193) sont eux aussi fondamentaux dans sa catégorisation, de même que son

intelligibilité, la familiarité entre les interlocuteurs, ou encore le niveau social de ces derniers

(cf. Eskenazi 1993). Tous les facteurs influençant la parole, en définitive, semblent jouer un

rôle dans cette caractérisation multidimensionnelle de la spontanéité qui rejoint la thématique

de la stylistique. Il paraît dès lors difficile de pouvoir définir un degré donné de spontanéité

pour un échantillon de parole sans une connaissance exhaustive de tous ces paramètres,

situation rare dans la pratique…

Incapable d’éclairer ce débat qui dépasse amplement le cadre de cette thèse, nous nous

contenterons donc dans la suite de ce travail de la distinction plus consensuelle que nous

avons proposée entre données construites et données authentiques . Nous utiliserons en fait

ces deux types de données dans la partie expérimentale de nos travaux, réservant les données

authentiques d’Aix-MARSEC à notre analyse des aspects de production, et construisant les

exemples utilisés dans le cadre des tests de perception que nous avons mis en œuvre.

2.2 Méthodes d’analyse

Comme nous l’avons rapidement évoqué plus haut, deux démarches compatibles (voire

même complémentaires) semblent se dessiner dans le cadre de l’analyse de données

authentiques. La méthodologie d’inspiration interactionniste, typique de l’analyse de la

conversation, insiste sur le détail linguistique et en révèle généralement l’importance

Introduction

11

fondamentale. La linguistique de corpus, malgré le fait que cette catégorie regroupe nombre

d’approches différentes, pourra, dès lors qu’elle implique un grand nombre de données, être

considérée comme parfois moins soucieuse des détails contextuels et cotextuels qui

fournissent à chaque occurrence sa spécificité.

Les outils (semi-)automatiques utilisables dans le cadre de l’exploitation des grands

corpus semblent offrir à cette seconde méthodologie une souplesse d’utilisation fort

appréciable : les annotations formelles et les observations peuvent être systématisées et les

hypothèses testées relativement rapidement, ce qui favorise l’alternance entre théorie et

observation qui caractérise la démarche majoritairement hypothético-déductive de la

recherche contemporaine.

Comme nous aurons l’occasion de le souligner plus loin dans cette thèse,

l’automatisation de l’extraction des données linguistiques est cependant fort limitée

concernant les aspects fonctionnels du langage (tels que la reconnaissance des accents et des

frontières pour ne mentionner que des aspects prosodiques).

Etant donnés tous ces points, il semble donc indispensable, si l’objectif est de fournir

une description aussi précise que possible des données linguistiques, de conjuguer l’étude fine

d’inspiration interactionniste et l’analyse plus aisément généralisable de masses importantes

de données ; dans ce cadre, de plus, les aspects formels pourront être le domaine réservé de

l’extraction automatique, laissant au linguiste la charge de la reconnaissance et de l’annotation

des faits plus fonctionnels.

Si nous avons tâché d’appliquer cette méthodologie dans le cadre de nos analyses (cf.

notamment chapitres 7, 8 et 9), force est de constater que l’analyse de détail semble quelque

peu négligée pour l’heure. Nous espérons pouvoir pallier cette lacune dans un futur proche,

armé des résultats de nos premières analyses.

3 Objectifs et plan de la thèse

Ayant commencé à poser quelques unes des conceptions fondamentales qui serviront de

cadre à ce travail, il nous semble à présent opportun de détailler les objectifs et la structure de

cette thèse.

Notre objectif scientifique général consiste à proposer à la fois un travail théorique de

conceptualisation et un ensemble d’éléments expérimentaux en faveur d’une vision

massivement interactive de l’interaction langagière. Dans ce cadre, notamment pour des

Introduction

12

raisons de temps et de place, nous avons choisi de focaliser plus particulièrement notre

attention sur le marquage de la cohésion par l’anaphore et par la prosodie et sur l’interaction

de ces éléments. Malgré cette réduction de notre champ d’investigation, un travail important

de synthèse et d’analyse de concepts et de travaux antérieurs nous semble primordial. En

effet, les concepts fondamentaux d’anaphore, de discours et de prosodie, comme nous l’avons

évoqué plus haut, ne suscitent aucun consensus généralisé et ne vont pas de soi : en

conséquence, la partie plus théorique de cette thèse (chapitres 1 à 6) a pour objectif non

seulement de faire un « état de l’art » partiel de ces thématiques, mais aussi de nous permettre

d’expliciter nos conceptions personnelles. La partie plus expérimentale (chapitres 7 à 9), nous

permettra d’illustrer nos prises de position théoriques en focalisant notre attention sur les

relations unissant anaphore et valeur d’attaque (ou « onset ») des unités intonatives dans le

cadre de l’analyse d’un corpus d’anglais et d’un ensemble de tests de perception en français.

La partie théorique et la partie expérimentale entrent dans une relation d’interdépendance :

l’état de l’art critique que nous proposons permet la formulation plus personnelle de concepts

et d’hypothèses dont un sous-ensemble est testé dans la partie expérimentale, ouvrant ensuite

la voie à une réévaluation théorique. Nous nous situons ainsi totalement dans le cadre d’une

heuristique hypothético-déductive par laquelle nous souhaitons faire dialoguer les

considérations théoriques et les résultats de l’expérimentation qui en découle.

Nous avons souhaité donner avec cette thèse un compte-rendu détaillé et honnête de la

démarche scientifique que nous avons choisi de suivre durant ces années de doctorat. Ce

choix explique le style plutôt narratif employé lors de la partie expérimentale, inhabituel dans

la littérature contemporaine, plus prosaïque ; ce faisant, nous espérons fournir au lecteur un

aperçu de la constitution dynamique de notre recherche, avec non seulement ses réflexions

épistémologiques mais aussi ses moments de doute et d’hésitation. Il va de soi qu’une

publication de ces travaux adopterait un format plus conforme aux normes communément

acceptées.

Dans ce contexte, la structure d’ensemble de cette thèse implique quatre parties

principales. La première partie, « Approches classiques de l’anaphore », comportera deux

chapitres destinés à affiner le contexte historico-conceptuel et la vision classique de la

thématique de l’anaphore. Nous consacrerons ainsi le chapitre 1 à une évocation dynamique

de la thématique plus générale de la référence en linguistique, et soulignerons la place de

l’anaphore dans ce cadre. Ce contexte nous permettra de mieux situer l’approche

Introduction

13

antécédentiste de l’anaphore détaillée dans le chapitre 2, que nous clorons sur une évocation

des problèmes majeurs posés par cette approche.

La seconde partie, intitulée « Discours et anaphore », s’ouvrira (chapitre 3) sur une

présentation dynamique du concept de discours, résultat d’une évolution conceptuelle depuis

l’unité phrase et via le concept de texte. Nous soulignerons aussi la multidimensionnalité

inhérente au concept de discours avant de nous interroger sur la pertinence de sa conception

en tant qu’unité linguistique. Nous proposerons finalement notre propre définition de ce

concept, destinée à être reprise et affinée par la suite. Le second chapitre de cette partie

(chapitre 4), constituera la réponse discursive aux problèmes de la description traditionnelle

de l’anaphore présentée chapitre 2. Nous proposerons notamment un double changement de

perspective par lequel l’anaphore ne serait plus une unité problématique « en creux » et à

résoudre, mais plutôt un procédé de gestion du discours uni à ce dernier dans une relation de

dépendance mutuelle.

La troisième partie, « Approches de la prosodie », constituera la dernière partie

d’orientation majoritairement théorique de ce travail de thèse. Elle aussi organisée en deux

chapitres, elle s’attachera dans un premier temps (chapitre 5) à la description de l’intégration

relativement récente de la prosodie au sein de la linguistique, avant de traiter de manière plus

spécifique de son organisation en tant que macro-système multi-paramétrique et de la

thématique de sa représentation. Le chapitre 6 traitera quant à lui du rôle plus spécifique de la

prosodie dans le discours, notamment en relation avec le phénomène d’accentuation des

pronoms personnels anaphoriques et avec le marquage de la structure discursive par des

faisceaux complexes de paramètres.

La quatrième et dernière partie de cette thèse, « Approche expérimentale des relations

prosodie-anaphore », mettra en commun nombre d’observations effectuées dans les parties

précédentes et proposera une illustration empirique sous la forme d’une analyse des

interactions entre prosodie et anaphore dans le marquage de la (dis)continuité discursive. Plus

précisément, le chapitre 7 présentera les origines d’Aix-MARSEC ainsi que les traitements

effectués dans le cadre de la phonétisation et de l’alignement de ce corpus d’anglais

britannique. Le chapitre 8 détaillera ensuite les analyses que nous avons menées à partir de ce

corpus, notamment concernant les interactions entre onset et anaphore pronominale

inaccentuée. Le chapitre 9, finalement, terminera cette partie expérimentale par une analyse

perceptive des phénomènes mis en évidence dans le chapitre précédent et, tout en confirmant

certaines des hypothèses proposées, posera les jalons d’études futures.

15

Partie 1 :

Approches classiques de l’anaphore

Partie 1 – Approches classiques de l’anaphore

16

L’anaphore, nous l’avons mentionné en introduction, représente certainement l’un des

chantiers favoris de la linguistique au sens large. En effet, les études abondent non seulement

dans les domaines propres ou assimilables à la linguistique (morpho-syntaxe, sémantique,

pragmatique), mais aussi dans de nombreux domaines connexes (philosophie du langage,

logique, psycho-linguistique, traitement automatique des langues, …).

L’objectif de cette première partie sera de replacer le concept d’anaphore au sein de

quelques domaines et approches théoriques qui s’y sont intéressés. Notre démarche n’a

aucune ambition à l’exhaustivité (comment pourrait-il en être autrement en ce domaine

foisonnant) mais trouve sa motivation dans la volonté d’identifier le concept de manière à la

fois plus précise et progressive.

Nous recadrerons ainsi tout d’abord (chapitre 1) le concept d’anaphore au sein de la

thématique générale de la référence ; nous adopterons dans ce cadre une démarche historico-

conceptuelle qui, tout en faisant d’inévitables impasses, a pour objectif de donner un aperçu

de la dynamique de la thématique de la référence, et par là même, peut être de la linguistique

dans son ensemble.

Le second chapitre de cette partie sera ensuite pour nous l’occasion de recentrer notre

analyse sur les problématiques plus spécifiques qui englobent l’anaphore ou l’opposent à

d’autres concepts au sein d’approches dont l’orientation est plus strictement linguistique.

Nous aborderons dans ce cadre le phénomène anaphorique du point de vue de sa conception

antécédentiste traditionnelle et par rapport au concept de deixis au sein de la classe des

indexicaux.

17

Chapitre 1

Anaphore et référence

18

Chapitre 1 : Sommaire

1 Langage et fonction référentielle ................................................................. 19 2 Différentes conceptions de la référence....................................................... 20 2.1 L’école Terministe et la référence ................................................................................. 21 2.2 Sens, dénotation et représentation chez Frege ............................................................. 24

2.2.1 Sens et dénotation .................................................................................................. 24 2.2.2 Représentation........................................................................................................ 25 2.2.3 Le sens : un concept discuté................................................................................... 25 2.2.4 Frege et l’héritage des Terministes ........................................................................ 26

2.3 Le positivisme logique et le tournant pragmatique...................................................... 26 2.3.1 Concepts fondamentaux du positivisme logique ................................................... 26 2.3.2 Le tournant pragmatique ........................................................................................ 27 2.3.3 Synthèse ................................................................................................................. 35

2.4 L’approche cognitiviste .................................................................................................. 36 2.4.1 Le « premier » Wittgenstein et la théorie de l’image............................................. 36 2.4.2 Le concept de « modèle mental »........................................................................... 37 2.4.3 Entités cognitives et entités du « monde réel »...................................................... 38 2.4.4 Synthèse ................................................................................................................. 39

3 Le cas de l’anaphore au sein de la thématique de la référence................. 40 4 Synthèse générale .......................................................................................... 42

Chapitre 1 : Anaphore et référence

19

Dans le présent chapitre, il nous semble opportun, à la fois historiquement et

conceptuellement, de consacrer la première partie de la mise en perspective que nous

proposons à quelques éclairages concernant la place de l’anaphore au sein de la problématique

générale de la référence. Dans cette optique, nous aborderons quelques unes des principales

approches appartenant aux domaines de la logique et de la philosophie du langage et tenterons

de les mettre en relation avec certaines approches sémiologiques et linguistiques au sens

large.

Ce chapitre est organisé en trois principales sections suivies d’une synthèse. La

première section a pour objectif de situer de manière schématique la thématique de la

référence au sein de la réflexion linguistique au sens large ; montrant notamment l’importance

attribuée à la référence dans les théories générales du langage que nous évoquerons.

La seconde section constitue le cœur du chapitre : nous nous proposons de donner un

aperçu chronologique de quelques conceptions liées à la thématique de la référence dans

l’objectif de montrer l’évolution subtile du concept, par ajouts, modifications, rejets et

redécouvertes successifs, depuis les philosophes et grammairiens du Moyen Age jusqu’aux

approches cognitivistes récentes.

La troisième section, finalement, constitue en définitive la justification de l’existence

même de ce chapitre ; nous y expliciterons le lien, trivial selon certains, qui unit la thématique

de l’anaphore à celle de la référence, posant par là même les fondations sur lesquelles le reste

de ce travail reposera.

1 Langage et fonction référentielle

La thématique de la référence occupe une position privilégiée au sein de la réflexion

linguistique au sens large (cf. Charolles 2002 : p. 1). En effet, longtemps considérée comme la

fonction fondamentale (voire parfois l’unique fonction) du langage, la fonction référentielle,

semble représenter un élément consensuel inévitable. On la retrouve, pour ne citer que

quelques exemples :

• dans l’opposition entre les fonctions représentative et expressive chez Bühler 1934 ;

• parmi les fonctions référentielle, émotive, poétique, phatique, métalinguistique et

conative de Jakobson 1960 ;


20

• et dans les dichotomies idéationnel / interpersonnel chez Halliday 1970 et

transactionnel / interactionnel chez Brown & Yule 1983.

On pourrait considérer avec certains des auteurs cités ci-dessus que deux pôles

fonctionnels majeurs semblent coexister dans le cadre de la dimension communicative du

langage2. On aurait ainsi d’une part une fonction langagière centrée sur le transfert

d’informations sur le monde entre les individus impliqués dans la communication (fonctions

« représentative », « référentielle », « idéationnelle » ou encore « transactionnelle » pour les

auteurs cités ci-dessus), et d’autre part un pôle fonctionnel organisé autour de la relation

communicative elle-même et de l’expression des états psychiques des individus qui y

participent (fonctions « expressive », « émotive », « phatique », « conative »,

« interpersonnelle » ou « interactionnelle »)3.

La place accordée à l’étude de cette fonction référentielle du langage, cependant, varie

entre deux extrêmes bien représentés par le débat opposant, dès le milieu du XX siècle,

le positivisme logique et la pragmatique de John Austin4. Ainsi, même si la pragmatique

bénéficie aujourd’hui d’un statut de poids au sein des sciences du langage (cf. Verschueren

1999 pour une « revue des troupes »), nombreux sont ceux qui prônent une vision plus stricte

de la linguistique, organisée autour de la fonction référentielle du langage (cf. la « fonction

désignative » de Milner 1982, 1989).

2 Différentes conceptions de la référence

Il est bien évident que la problématique de la référence a toujours été (et reste) centrale

en philosophie en général et en philosophie du langage en particulier ; il n’est pas étonnant,

alors, qu’on la retrouve aussi abondamment traitée en linguistique (notamment en sémantique

et en pragmatique).

Nous accepterons comme point de départ de notre analyse la conception selon laquelle

la référence est cette propriété par laquelle certaines unités linguistiques désignent certains

2 On remarquera que des oppositions ternaires existent aussi (cf. Halliday 1973 ou Vion 1992), mais peuvent

parfois être hiérarchisées ou réduites ; c’est le cas pour la fonction « textuelle » de Halliday 1973, considérée

comme moins « fondamentale » (cf. Apothéloz 1995 : p. 136).

3 On se réfèrera utilement à Lyons 1977/1978b pour un aperçu de la terminologie relative à ces approches.

4 On pensera notamment aux William James Lectures (cf. Austin, 1962/1970).


21

objets du monde. C’est cette conception que l’on retrouve de manière sous-jacente par

exemple dans l’affirmation de John Searle :

« La question fondamentale de la philosophie du langage a toujours été de comprendre comment le

langage entre en relation avec le réel » (Searle 1985 : p. 236)

De manière plus explicite, on pourra s’appuyer sur la proposition de définition de

Lyons :

« The relationship which holds between words and things is the relationship of reference: words

refer to things. » (Lyons 1968 : p. 404)

Notre objectif n’est pas de retracer ici l’historique exhaustif du concept depuis les

travaux platoniciens jusqu’à la « théorie des mondes possibles » de Kripke 1982 en passant

par Aristote, Locke, Kant et tant d’autres qui s’y sont intéressés… Nous pensons cependant

qu’il peut être opportun de faire une analyse de certaines des approches qui permettent selon

nous de mieux comprendre l’importance et les difficultés de la thématique de la référence en

relation avec l’anaphore en linguistique contemporaine.

Une distinction opérée dans nombre d’études linguistiques de la référence consiste à

opposer le concept de référence à ceux de dénotation, de signification, de sens, etc. Dans

l’espoir d’éclaircir ces oppositions, nous proposons de faire référence aux travaux médiévaux

des Terministes avant d’analyser les propositions de Frege afin de préciser les conceptions sur

lesquelles se sont fondés les travaux ultérieurs en philosophie du langage, en logique et en

linguistique. Nous mentionnerons notamment les travaux de l’école du positivisme logique

(fondée sur certains des concepts de Frege et du premier Wittgenstein) avant de décrire le

tournant pragmatique de la « philosophie du langage ordinaire » (le second Wittgenstein,

Grice, Austin, Searle, …).

2.1 L’école Terministe et la référence

Les Terministes (Guillaume de Sherwood, Pierre d’Espagne, Albert de Saxe, Guillaume

d’Ockham, …) s’intéressent dès le XIIème siècle aux rapports qui unissent le langage au

monde. Plus particulièrement, et c’est ce qui leur a valu leur appellation, leur réflexion se

focalise sur l’inventaire des propriétés des termes (cf. Böhner 1952 pour une analyse

détaillée).

Dans les années 1240, Guillaume de Sherwood dénombre ainsi quatre propriétés (la

signification, la supposition, la copulation et l’appellation) dans ses « Introductiones in

Logicam » :


22

« Quattuor sunt proprietates termini quas ad presens intendimus diversificare ... Et sunt hes

proprietates significatio, suppositio, copulatio et appellatio » (Guillaume de Sherwood 1937 : pp.

74-75)

Comme le montre par exemple les travaux de Pierre d’Espagne et de Lambert d’Auxerre

(qui dénombrent eux cinq propriétés), l’opposition entre la signification et la supposition

devient rapidement fondamentale ; il est pour les auteurs de première importance d’analyser la

signification d’un terme en tant que propriété sur laquelle sont fondées les autres propriétés et

de montrer en quoi elle se différencie de la supposition :

« Multa autem sunt proprietates termini, scilicet: suppositio, appellatio, restrictio, distributio [ed.:

distinctio] et relatio ... sed quia significatio est sicut perfectio termini et proprietates termini supra

significationem fundantur, ideo in principio ad evidentiam sequentium videndum est quid sit

termini significatio et in quo differt a suppositione » (Lambert d’Auxerre 1971 : p. 205)

Avant de nous intéresser à une définition possible du concept de signification, il est

important de noter qu’elle est perçue comme première à deux titres :

• D’une part, « il y a signification dans chaque mot ou partie du discours alors qu’il n’y

a supposition que dans un nom, un pronom ou un mot substantif » (Guillaume de

Sherwood 1966 : chapitre V ; notre traduction de l’anglais). La signification est donc

une propriété commune à tous les termes, statut consensuel qu’elle est la seule à

posséder.

• D’autre part, elle ne dépend pas, contrairement aux autres propriétés, de sa production

effective. La signification est donc « antérieure » aux autres propriétés, et notamment

à la supposition : « Differt autem significatio a suppositione in hoc, quod prior est

significatio quam suppositio" (Lambert d’Auxerre, Logica Lamberti : p. 206).

De manière schématique, on pourra considérer que la signification est un rapport

unissant les mots aux représentations intellectuelles, aux concepts, qui leur correspondent : le

mot « chaud », par exemple, est ainsi relié par signification au concept de chaleur.

Les Terministes ont été les héritiers d’un débat déjà vif sous Aristote à propos de la

nature exacte du « significatum », objet de la signification. Deux conceptions se sont ainsi

opposées :

• Les partisans d’une approche aristotélicienne stricte considéraient que les termes

signifiaient uniquement des concepts mentaux (Boèce parlera de « passiones animae »

ou « affections de l’âme »).


23

• D’autres (comme Lambert d’Auxerre), a contrario, dans la lignée des enseignements

de Saint Augustin, proposent une signification indirecte ; ce sont en définitive, pour

les tenants de cette théorie, les choses en tant que classe qui sont signifiées, mais elles

le sont par l’intermédiaire de concepts qui sont des signes des choses.

La supposition, quant à elle, constitue un rapport entre le mot et l’objet particulier du

monde extérieur qu’il sert à désigner. C’est donc ce concept qui serait à rapprocher de la

définition de la référence proposée plus haut.

Plusieurs sous catégories de supposition sont distinguées par les Terministes :

• La « supposition matérielle », lorsque le terme suppose sa propre énonciation (comme

dans « homme est un monosyllabe ») ou bien lorsqu’il suppose sa matérialité en tant

que terme (comme dans « homme est un nom »).

• La « supposition formelle » qui peut être « simple » (le terme suppose la classe qu’il

signifie comme dans « l’homme est une espèce ») ou bien « personnelle » (le terme

suppose un individu subordonné à la classe qu’il signifie comme dans « l’homme

court dans le champs »).

On retiendra de ce rapide parcours de quelques unes des propositions terministes

l’opposition première entre signification (d’un concept ou d’une classe d’objets du monde) et

supposition (d’un objet particulier du monde5). La question de Searle concernant les rapports

entre le langage et le réel semble donc pouvoir s’envisager dans la double perspective d’une

approche mentaliste et matérialiste par laquelle les termes réfèrent aux objets du monde dans

un processus doublement emboîté : les termes réfèrent par leur supposition, fondée sur la

classe de choses signifiée par l’intermédiaire d’un concept.

Cette vision a fortement inspiré nombre de travaux en philosophie contemporaine, mais

aussi en linguistique (on pensera par exemple au schème d’individuation proposé par Culioli

et que nous détaillerons plus loin). Mais c’est sans doute de manière indirecte, par

l’intermédiaire de Peirce et surtout de Frege, que les Terministes ont eu le plus d’influence.

Nous allons donc à présent aborder les propositions de Frege qui ont constitué une véritable

charnière dans la réflexion sur la thématique de la référence.

5 On notera au passage la reprise de l’opposition classique entre usage et mention (cf. Récanati 1979 pour une

synthèse).


24

2.2 Sens, dénotation et représentation chez Frege

C’est à Gotlob Frege (1892a/1971a et 1892b/1971b) que l’on doit l’opposition, devenue

classique en philosophie du langage, entre sens, dénotation et représentation. Nous allons tout

d’abord nous intéresser à la dichotomie sens vs. dénotation avant de préciser le concept de

représentation avancé par l’auteur.

2.2.1 Sens et dénotation

Frege propose qu’à ce qu’il appelle les « noms propres »6 (expressions linguistiques

utilisées pour désigner un seul objet) soient associés un sens (« Sinn ») et une dénotation

(« Bedeutung ») :

• La dénotation7 d’une telle unité (par exemple « Paris » ou « la femme la plus grande

de la région ») correspond à l’objet du monde désigné (la ville de Paris et l’individu

dont il est question) ;

• Le sens d’une telle unité est « le mode selon lequel l’objet est donné » (Frege 1971a :

p. 105). Par ce concept Frege désigne le « contenu cognitif associé au nom, en vertu

duquel il a telle dénotation » (Marconi 1997 : p. 22) ou encore la manière selon

laquelle un objet peut être déterminé.

A titre d’exemple, on pourra ainsi considérer que, énoncées en janvier 2004, les

expressions « le président de la République Française » et « Jacques Chirac » ont toutes deux

même dénotation (l’individu nommé Jacques Chirac et qui occupe le palais de l’Elysée) mais

présentent des sens différents, le « parcours » menant à l’objet désigné n’étant pas identique.

L’opposition sens – dénotation a été rendue célèbre notamment par l’exemple que nous

adaptons ci-dessous :

Ex (5) a. L’étoile du matin est identique à l’étoile du soir.

b. L’étoile du matin est identique à l’étoile du matin.

L’argument de Frege consiste à dire que ces deux propositions impliquent des

expressions (« l’étoile du matin » et « l’étoile du soir ») qui ont une dénotation identique (la 6 On dira aujourd’hui plutôt « termes singuliers », cf. Marconi 1997 : p. 22.

7 Le terme, qui se traduit littéralement par « signification », a été proposé par Alonzo Church en 1956 afin

d’éviter une identification stricte avec le concept terministe évoqué plus haut.


25

planète Vénus) mais des sens différents. L’énoncé 1a est donc informatif alors que l’énoncé

1b est tautologique.

2.2.2 Représentation

Le concept de représentation est lié à la notion d’entité mentale évoquée par une

expression :

« une image interne qui s’est constituée sur la base des souvenirs des impressions sensibles que

j’ai éprouvées et d’activités, internes et externes, que j’ai effectuées » (Frege 1971b : p. 105)

A la différence du sens, la représentation est subjective, comme le montre la métaphore

de l’observation astronomique de la Lune proposée par Frege et reportée dans Marconi

1997 (p. 24) : lors d’une observation de la Lune à l’aide d’une lunette astronomique, la Lune

elle-même correspond à la dénotation, l’image rétinienne, qui est différente selon les

observateurs, correspond à la représentation et l’image sur la lentille de la lunette correspond

au sens (et est « objective » bien que « partiale » cf. Frege 1971a : p. 106).

2.2.3 Le sens : un concept discuté

La place du sens au sein de cet édifice, cependant, a toujours été fragile (cf. Marconi

1997 : chapitre 5) et Frege s’est fait fort de justifier ce concept et de maintenir son statut

objectif. C’est ce que montre la métaphore de l’observation astronomique de la Lune déjà

évoquée ci-dessus :

« [L’image sur la lentille] est nécessairement partiale parce qu’elle dépend du point de vue

d’observation, et pourtant elle est objective, parce qu’elle peut servir à plusieurs observateurs. »

(Frege 1971a : p. 106)

De manière similaire, c’est aussi cette affirmation du statut objectif du sens que l’on

retrouve, appliqué au niveau de la proposition sous le terme de « pensées », dans l’essai « Der

Gedanke. Eine logische Untersuchung » que propose Frege en 1918 :

« Un troisième règne sera reconnu, au-delà du règne des choses et de celui des représentations :

c’est le règne des pensées qui — comme les choses — ne sont pas de quelqu’un, et d’autre part ne

sont pas perceptibles par les sens […]. » (Frege 1971c : p. 184)

Malgré ces efforts, le concept de sens a été l’objet d’attaques notamment de la part de

Bertrand Russell. En effet, dans « On Denoting » (1905/1989), Russel postule que seule la

dénotation importe dans la détermination des valeurs de vérité d’une proposition et propose

une analyse qui n’inclurait pas le concept fregéen de sens.


26

2.2.4 Frege et l’héritage des Terministes

Tracer un parallèle entre les propositions de Frege et celles des Terministes concernant

la thématique de la référence n’est pas aisé. En effet, s’il est relativement simple de voir dans

le concept de dénotation une résurgence de celui de supposition (notamment dans le cas de la

« supposition personnelle »), l’affaire se complique sérieusement en ce qui concerne un

rapprochement des concepts de sens et de signification. Cependant, si l’on prend en

considération la primauté du sens sur la dénotation et son caractère conceptuel objectif, on

remarquera que le sens selon Frege semble être assimilable à la conception aristotélicienne de

la signification (soutenue par Boèce dans son second commentaire sur le Perihermeneias

d’Aristote par exemple).

Le concept de représentation, finalement, constitue un apport original de Frege en ce

qu’il donne une dimension subjective et cognitive à la thématique de la référence. La

thématique dépasse avec Frege le cadre de la logique et de la sémantique pour aborder (de

manière séminale certes) une dimension que l’on qualifierait aujourd’hui de pragmatique.

2.3 Le positivisme logique et le tournant pragmatique

Il pourrait sembler étonnant de regrouper dans un même chapitre les deux courants

philosophiques évoqués par les termes de « positivisme logique » et de « pragmatique ». En

effet, nous allons le détailler, ces deux approches des relations du langage avec le réel ont été

fortement antagonistes : le tournant pragmatique (notamment avec les travaux de Grice,

d’Austin et de Searle) est apparu en réaction aux dogmes vérificationnistes du positivisme

logique. Plus que d’un tournant, c’est sans doute une rupture qu’il faudrait évoquer tant le

positivisme logique a cristallisé les concepts dont la pragmatique austinienne a voulu se

départir.

Notre présentation du positivisme logique sera nécessairement partielle, mais néanmoins

importante dans la mesure où elle symbolisera en quelque sorte non seulement

l’aboutissement de l’approche aristotélicienne, Terministe puis fregéenne de la référence mais

aussi le terreau à partir duquel une conception pragmatique a pu se développer.

2.3.1 Concepts fondamentaux du positivisme logique

Héritier partiel de l’empirisme de Hume, des travaux de Leibniz, de Frege, de Russel, du

Tractatus logico-philosophicus de Wittgenstein (1922), le positivisme logique trouve ses

origines dans le travail collaboratif de chercheurs de différents horizons (philosophes certes,


27

mais aussi physiciens, mathématiciens, etc.) qui se réunirent principalement à Vienne et à

Berlin de 1923 à la fin des années 1930. Parmi les noms les plus marquants, on citera Motitz

Schlick, Otto Neurath, Philip Franck, Rudolph Carnap et tant d’autres.

Les motivations premières du groupe sont progressistes et opposées aux autorités des

institutions académiques de l’époque8, notamment dans le cadre du maintient de la distinction

traditionnelle entre « sciences de l'esprit » (« Geisteswissenschaften ») et « sciences de la

nature » (« Naturwissenschaften ») au bénéfice des premières. Les partisans du « Cercle de

Vienne » prônaient au contraire la construction, sur une base logique, d'un « idiome formel »

à vocation universelle et qui pourrait constituer le fondement de l'unité de la science.

L’un des objectifs, dans ce contexte était la scientifisation de la philosophie, et

notamment l’introduction du « principe de vérification » attribué de manière abusive à

Wittgenstein 1922 par Waismann et par Schlick 1936 et qui fonctionne comme critère de

signification :

« Établir la signification d’un énoncé équivaut à établir les règles selon lesquelles l’énoncé est

utilisé, ce qui, à son tour, revient à établir la manière dont il peut être vérifié (ou falsifié). La

signification d’un énoncé est la méthode de sa vérification » (Schlick 1936 : p. 358)

C’est cet ancrage empiriste que l’on retrouve aussi chez Carnap lorsqu’il affirme :

« Chaque énoncé de la science est, en dernière analyse, un énoncé sur les relations qui subsistent

entre les expériences élémentaires [Elementarerlebnisse], de sorte que toute connaissance qui a un

contenu (qui ne soit pas purement formel) se reconduit à l’expérience » (Carnap 1928 : § 183, cité

dans Marconi 1997 : p. 45).

La proposition 4.024 du Tractatus (« Comprendre une proposition, c’est savoir ce qu’il

advient si elle est vraie » cf. Wittgenstein 1922) est interprétée par les positivistes logiques

comme si l’on affirmait qu’un énoncé est compris si l’on est en mesure d’en déterminer la

vérité ou la fausseté par rapport à l’expérience, c’est-à-dire de le vérifier par l’expérience : «

vérification signifie : contrôle par rapport aux expériences » (Carnap 1928 : § 179, cité dans

Marconi 1997 : p. 45).

2.3.2 Le tournant pragmatique

C’est avec les travaux du « second » Wittgenstein et de John Austin que s’amorce le

tournant pragmatique qui révolutionnera la thématique de la référence. En effet, avec l’objectif

de rejeter tout discours métaphysique, les positivistes logiques affirment comme nous l’avons 8 Le « cercle » se réunissait le jeudi dans un café de Vienne.


28

vu qu’une proposition donnée n’a de sens que dans la mesure où elle est vérifiable

expérimentalement (cf. Ayer 1936).

Le « second » Wittgenstein

Wittgenstein, dans ses Philosophical Investigations (1958), attaque un à un les

fondements de ses propositions du Tractatus, source première du positivisme logique :

• Wittgenstein s’était appuyé sur la thèse fregéenne de la dénotation, proposant que les

noms dénotent des objets et que c’est grâce au rapport de dénotation entre noms et

objets, et à l’identité de structure entre proposition et état de choses du monde que les

propositions élémentaires peuvent représenter un état de chose. Dans les Investigations,

l’auteur propose que la signification des expressions d’un langage ne puisse pas être

assise, contrairement à ce qu’il avait avancé, sur les définitions ostensives (du type

« Ceci s’appelle ‘N’ » avec un geste pointant un objet) ; en effet, nous dit Wittgenstein,

la définition ostensive est « interprétée à partir de la fonction que l’on sait qu’elle doit

avoir » (Marconi 1997 : p. 67) :

« Ainsi la définition ostensive « Ceci s’appelle ‘sépia’ » aidera à comprendre le mot si je sais déjà

que l’on veut me définir le nom d’une couleur […]. Pour être en mesure de demander le nom

d’une chose, on doit déjà savoir (ou savoir faire) quelque chose. » (Wittgenstein 1958 : § 30, cité

dans Marconi 1997 : pp. 68-69)

• De manière corollaire (cf. Marconi 1997 : p. 67), la conception selon laquelle les unités

linguistiques « vraies », profondes (les véritables « mots »), sont toutes des noms

propres, c'est-à-dire des expressions qui désignent des objets particuliers, est elle aussi

remise en cause dans les Investigations. En effet, l’assimilation de tous les mots à des

noms et la réduction des fonctions sémantiques à la dénotation est pour Witttgenstein à

l’origine de nombre d’erreurs philosophiques, notamment dans le cadre des mots

« psychologiques » (comme « penser ») qui ne fonctionnent pas comme des noms de

procès ou d’états (Wittgenstein 1958 : §§ 138-184).

• Le concept de proposition élémentaire, lui aussi, hérité des travaux de Russell (cf.

Russell 1905) et fondement de la théorie des « propositions atomiques » et des

« propositions moléculaires » chère aux positivistes logiques, est attaqué par le second

Wittgenstein qui lui reproche de faire abstraction de la variété du langage :

« Combien de types de proposition y a-t-il ? Par exemple : assertion, question et ordre ? — Il en

existe d’innombrables […]. Il est intéressant de confronter la multiplicité des instruments du


29

langage et de leurs modes d’utilisation, la multiplicité des types de mots et de propositions , avec

ce qu’on dit les logiciens (y compris l’auteur du Tractatus logico-philosophicus) de la structure du

langage » (Wittgenstein 1958 : § 23, cité dans Marconi 1997 : pp. 68-69))

Comme le précise Marconi :

« La théorie des propositions élémentaires faisait partie d’une philosophie du langage qui

privilégiait de manière exclusive sa fonction descriptive. Dans les Recherches, elle devient une

fonction parmi d’autres : donner des ordres, faire des conjectures à propos d’un événement,

inventer une histoire, faire un mot d’esprit, traduire, remercier, saluer, etc. » (Marconi 1997 : p.

69)

Dans cette optique, le rôle de la philosophie doit être de définir la « grammaire », la

« table de règles » (Wittgenstein 1929-1932 : 164) concernant l’utilisation des expressions

linguistiques dans le cadre des « jeux de langage ». On retiendra notamment la formule restée

célèbre :

« Pour une grande classe de cas — même si ce n’est pas pour tous les cas — dans lesquels nous

nous en servons, le mot ‘signification’ se peut définir ainsi : la signification d’un mot, c’est son

utilisation dans le langage. » (Wittgenstein 1958 : § 43)

Austin : Théorie des performatifs et théorie originelle des actes de langage

L’apport d’Austin est principalement motivé par la volonté de réfuter ce qu’il appelle

l’« illusion descriptive », attaché selon lui à la vision vérificationniste du langage proposée

par le positivisme logique. De manière similaire au Wittgenstein des Investigations, Austin

entend dénoncer la restriction de la philosophie à la seule fonction descriptive (référentielle)

du langage.

Dans son essai « Other Minds » (1946), Austin s’interroge sur la possibilité de se

tromper lorsque l’on affirme des énoncés du type « J’ai faim » ou « Je vois quelque chose de

vert ». Cette thématique de l’autorité de la première personne entraîne ensuite l’auteur vers

l’analyse d’énoncés non descriptifs tels que « Je te promets X ». Les bases étaient posées pour

la théorie des performatifs.


30

Aux énoncés « constatifs » (descriptifs), Austin oppose les énoncés « performatifs ».

Les performatifs présentent la particularité d’effectuer des actions qui ont, lorsqu’elles sont

couronnées de succès, des conséquences notoires9 sur le monde extralinguistique.

Ainsi, lorsqu’un individu X prononce l’énoncé (1), il ou elle a bien présenté ses

excuses, et ce du fait même de l’énonciation de (6).

Ex (6) I apologise.

Les énoncés performatifs ne sont pas descriptibles de manière acceptable grâce à des

critères vériconditionnels : on préfère parler de « bonheur » (felicity) ou de « malheur »

(infelicity) des performatifs, selon qu’ils parviennent ou pas à réaliser les actions auxquelles

ils sont liés. Le bonheur d’un performatif dépend de « conditions de félicité » que l’on pourra

classer avec Levinson 1983 en trois catégories principales :

A. (i) There must be a conventional procedure having a conventional effect

(ii) The circumstances and persons must be appropriate, as specified in the procedure

B. The procedure must be executed (i) correctly and (ii) completely

C. Often, (i) the person must have the requisite thoughts, feelings and intentions, as specified in

the procedure, and (ii) if consequent conduct is specified, then the relevant parties must so do

(Levinson 1983 : p. 229)

Ainsi, l’énoncé (7) peut ne pas être effectif (on dira qu’il est « nul », et non pas faux),

par exemple s’il n’est pas prononcé par un juge investi du pouvoir de prononcer une sentence.

Ex (7) I hereby sentence you to ten years of hard labour.

Austin tentera de caractériser les performatifs en s’appuyant sur des critères formels

(forme syntaxique, lexèmes employés, …) mais sans jamais parvenir à fournir des critères

fiables et systématiques10.

9 Pour certaines théories, toute énonciation (pas nécessairement performative) modifie le contexte dans lequel

elle est intervenue (cf. Théorie de l’ensemble-contexte de Stalnaker et Jacques, ou Théorie de la Pertinence de

Sperber et Wilson).

10 On pourra citer l’utilisation de la première personne du singulier du présent de l’indicatif (« Je déclare la

séance ouverte »), mais on notera que l’on peut observer des performatifs à d’autres personnes (« Les spectateurs

sont priés de sortir par la porte du fond ») et à d’autres modes (« Interdit de fumer »). On remarquera aussi la

possibilité d’utilisation non performative de verbes habituellement performatifs (« Je promets souvent sans


31

Cette réflexion a suscité plusieurs tentatives de définition des actes accomplis par

l’usage du langage. Austin commence tout d’abord par donner un ensemble de trois actes que

l’on accomplit nécessairement lors d’une énonciation :

• l’acte « phonétique » (« phonetic act »), qui coïncide avec la prononciation de certains

sons,

• l’acte « phatique » (« phatic act »), par lequel on produit des éléments appartenant à

une langue donnée,

• l’acte « rhétique » (« rhetic act »), grâce auquel la phrase sur laquelle l’énoncé est

modelé a une signification plus ou moins précise, et l’attribution référentielle est

rendue possible.

Ces échecs, comme l’explique Récanati (1981 : pp. 81-87), vont pousser Austin à

abandonner la simple opposition performatif – constatif au profit d’une théorie plus générale

du langage selon laquelle tout acte d’énonciation présente un aspect performatif qualifié

d’acte « illocutionnaire ».

Austin opte ainsi pour une nouvelle distinction entre trois actes fondamentaux :

• l’acte « locutionnaire »11 (« locutionary act ») qui correspond au fait de dire quelque

chose,

• l’acte « illocutionnaire » (« illocutionary act »), qui est effectué en disant quelque

chose (promettre, par exemple),

• l’acte « perlocutionnaire » (« perlocutionary act »), accompli par le fait de dire

quelque chose et lié aux effets perlocutionnaires qu’il génère (convaincre, par

exemple).

Appliquons, à titre d’exemple, cette classification à l’énoncé (8) ci-dessous :

Ex (8) I promise to come tomorrow.

vraiment vouloir m’engager »), ainsi que la possibilité de réalisation d’un acte performatif sans verbe performatif

(« Arise, Sir Daniel ! », prononcé par le souverain).

11 On notera que les éléments de la classification précédente, les actes phonétique, phatique et rhétique, forment

un sous-ensemble de l’acte locutionnaire.


32

L’acte locutionnaire lié à cet énoncé est réalisé par sa prononciation, son énonciation ;

l’acte illocutionnaire effectué par l’individu X qui prononce (8) est une promesse ; finalement,

les actes perlocutionnaires que cet énoncé peut réaliser sont en nombre quasi-illimité :

rassurer l’interlocuteur Y qui avait peur de se retrouver seul pour la soutenance de sa thèse de

linguistique, persuader le même interlocuteur Y de ne pas venir (celui-ci détestant X) à une

fête prévue le lendemain, etc.

La théorie gricéenne de la signification

Lui aussi enseignant à Oxford, H.P. Grice, est principalement connu pour sa théorie des

« implicatures conversationnelles » (cf. Grice 1975 pour la première publication partielle).

Dans le cadre de notre analyse transversale du concept de référence, nous n’allons cependant

pas traiter de cette théorie, mais plutôt de la théorie de la signification proposée par le même

auteur, quelques années avant ses fameuses William James Lectures, dans une série d’articles.

En effet, dans ses articles sur la signification (1957, 1968 & 1969), Grice propose la

réduction du concept de signification à celui d’intention (ce qui constitue par là même une

réduction de la sémantique à la psychologie cognitive). Ainsi, le fait qu’un locuteur signifie

quelque chose à l’aide d’une expression linguistique est réinterprété comme le fait que ce

locuteur ait l’intention que son énonciation produise un certain effet sur l’interlocuteur sur la

base de la reconnaissance de cette intention.

Se fondant sur cette proposition, Grice distingue deux manières de signifier :

• Signifier « non naturellement » (ou « signifier-nn »), c'est-à-dire par le biais de la

reconnaissance d’intentions communicatives (notamment dans le cadre de la

communication par le langage) ;

• Signifier « naturellement », c'est-à-dire sans intention de communiquer (ce sera le cas

par exemple lorsque l’on dira « Ces nuages noirs signifient qu’il va pleuvoir

bientôt »).

On retrouve là la distinction classique entre signal (intentionnel) et indice (non

intentionnel) chère aux sémioticiens et que nous détaillerons plus loin.

Par le biais de cette proposition, c’est donc toute la thématique de la signification (et

donc celle de la référence) qui bascule hors du positivisme logique et de la sémantique. Ce

n’est, selon Grice, plus l’expression linguistique qui réfère, mais le locuteur par

l’intermédiaire de l’utilisation intentionnelle de cette expression.


33

Les conceptions gricéennes (théorie de la signification et théorie des « implicatures

conversationnelles »), en rupture radicale avec le positivisme logique, constitue, nous allons le

voir, non seulement le terreau de l’importance de l’intentionnalité dans la théorie searlienne

des actes de langage, mais aussi l’une des sources majeures de la linguistique cognitive

contemporaine12.

La théorie searlienne des actes de langage

L’apport de Searle dans le débat général sur la référence est contrasté : en effet, tout en

étant le continuateur des propositions d’Austin (dont il fut l’élève à Oxford), il se positionne

de manière marquée en « langue » et non pas en « parole » (au sens saussurien pour les deux

termes) : « I am arguing […] that an adequate study of speech acts is a study of langue »

(Searle 1969 : p. 17). On est bien loin des positions des promoteurs de la « philosophie du

langage ordinaire » (Wittgenstein et Austin) pour lesquels seules comptaient les réalisations

effectives du langage par l’usage. Searle ira même jusqu’à remettre en cause certains concepts

de Wittgenstein (comme la « ressemblance de famille », cf. Wittgenstein 1958 : §§ 65-67)

pour asseoir sa position transcendantaliste face aux positions immanentistes des deux

précurseurs du tournant pragmatique :

« But this insight into the looseness of our concepts, and its attendant jargon of "family

resemblance" should not lead us into a rejection of the very enterprise of philosophical analysis;

rather the conclusion to be drawn is that certain forms of analysis, especially into necessary and

sufficient conditions, are likely to involve (in varying degrees) idealization of the concept

analyzed. In the present case, our analysis will be directed at the center of the concept of

promising. I am ignoring marginal, fringe, and partially defective promises. » (55)

Ces divergences étant soulignées, il est néanmoins important de noter que l’œuvre de

John Searle concernant les actes de langage constitue avant tout un travail de formalisation et

de systématisation des propositions d’Austin. A ce titre, Searle propose lui aussi une

classification des actes qu’il juge accomplis lors d’une énonciation. Cette classification

comporte quatre éléments (Searle 1969) :

• l’acte d’« énonciation » (« utterance act »), que constitue le fait de produire une série

d’éléments d’une langue dans une situation donnée,

12 On pensera à titre d’exemple à la « théorie de la pertinence » de Sperber & Wilson (1986) et, de manière

générale, à l’ensemble des théories dites « post-gricéennes ».


34

• les actes « propositionnels » (« propositional acts »), dont la fonction est d’attribuer

les référents des éléments référentiels présents dans l’énoncé, ainsi que d’assurer la

prédication,

• les actes « illocutionnaires » (« illocutionary acts »), similaires à ceux définis par

Austin,

• les actes « perlocutionnaires » (« perlocutionary acts »), eux aussi similaires à ceux

d’Austin.

On remarquera que cette classification diffère de celle d’Austin en deux points :

La première divergence porte sur la possibilité, selon Searle, de voir plusieurs forces

illocutionnaires et plusieurs actes perlocutionnaires attribués à un seul énoncé. En effet, pour

Austin, même si une énonciation peut générer plusieurs effets perlocutionnaires (assertion

qu’il paraît difficile de nier), un énoncé réalise un seul acte illocutionnaire : en prononçant

l’énoncé « Z », l’individu « X » accomplit l’acte illocutionnaire « I ». Searle, a contrario,

comme le montre sa classification, ne rejette pas la possibilité de voir plusieurs actes

illocutionnaires réalisés par un seul et même énoncé13.

Plus important dans notre analyse est le second élément de divergence. Ce second

élément consiste en l’addition d’une catégorie d’actes : les actes propositionnels. Cette

catégorie est à mettre en relation avec l’acte rhétique d’Austin, qui correspond au passage de

la signification de la phrase (entité purement linguistique) au sens de l’énoncé dans une

situation donnée ; le produit de l’acte d’énonciation, en effet, lorsqu’il contient des

expressions référentielles ou des prédicats, implique l’accomplissement d’actes

propositionnels : les « actes de référence » et les « actes de prédication ». De cette manière,

un énoncé peut alors exprimer une proposition, ce que ne peut pas faire une phrase14. Un tel

éclatement de la catégorie austinienne d’acte locutionnaire reflète une volonté, de la part de

Searle, d’asseoir la notion d’acte (ou de « force ») illocutionnaire grâce à une distinction

marquée entre le « contenu propositionnel » d’un énoncé et l’acte que l’on accomplit en

produisant ce dernier. Observons, pour étudier cette notion, les exemples cités par Searle

dans son article « What is a speech act ? », et repris dans l’exemple (9) ci-après : 13 Cf. Searle 1979 : chap. II.

14 Cf. Searle 1965 : «Notice that I do not say that the sentence expresses the proposition ; I do not know how

sentences could perform acts of this kind. But I shall say that in the utterance of the sentence the speaker

expresses a proposition. » (p. 225).


35

Ex (9) a. Will John leave the room ?

b. John will leave the room.

c. John, leave the room !

d. Would that John left the room.

e. If John leaves the room, I will leave too.

Tous ces énoncés expriment bien la même proposition p du type LEAVE (John ; the

room) ; de plus, leurs éléments dénotent tous un individu du monde appelé John et une salle

donnée ; finalement, ils prédiquent la sortie de John de cette salle. Les forces illocutionnaires

présentes (question, prédiction, ordre, souhait, supposition) sont cependant différentes.

Il est intéressant de remarquer, finalement, que l’œuvre de Searle est caractérisée par

une volonté de mise au premier plan de l’aspect illocutionnaire du langage : l’analyse des

« actes de langage indirects » (Searle 1975), de même que le développement d’une « logique

illocutionnaire » (cf. Searle & Vanderveken 1985) en sont des preuves flagrantes. Mais même

si nombre des propositions faites dans ces travaux reposent principalement sur une analyse

fine des « conditions de félicité » des actes, force est de constater que les travaux de Grice sur

la signification (notamment la « signification-nn » décrite plus haut) et sur le « Principe de

coopération » et les « implicatures conversationnelles » (Grice 1975) ont eu une influence

majeure sur Searle.

2.3.3 Synthèse

Ce que nous retiendrons de cet aperçu des oppositions entre la tradition du positivisme

logique et la position pragmatique du « second » Wittgenstein, d’Austin et de Grice, c’est

principalement le changement de perspective qui s’est produit. Ce changement de perspective,

certes, ne constitue qu’un épisode du débat millénaire en philosophie occidentale entre

logique et rhétorique, entre transcendance et immanence, entre Platon et les Sophistes, etc. ;

mais il constitue aussi une charnière importante pour la linguistique contemporaine en général

et les études sur la référence en particulier.

En effet, l’opposition des théoriciens du « langage ordinaire » au positivisme logique

permet un changement de l’origine de la référence : ce n’est alors plus une expression

linguistique qui réfère (par dénotation fondée sur son sens) mais bien l’individu par


36

l’intermédiaire d’une expression linguistique et en fonction de ses intentions communicatives

propres (cf. Grice 1989). Avec ce débat conceptuel, la référence est sortie de son statut

premièrement transcendant et s’organise autour du sujet parlant, voire même, avec la mention

des actes perlocutionnaires, autour des sujets participants à l’interaction. L’orientation est

alors clairement pragmatique telle que définie en 1938 par Charles Morris :

« Within semiotics, Morris distinguished three distinct branches of inquiry : syntactics (or

syntax), being the study of « the formal relation of signs to one another », semantics, the study of

« the relations of signs to the objects to which the signs are applicable » (their designata), and

pragmatics, the study of « the relation of signs to interpreters » […]. » (cité dans LEVINSON

1983 : p. 1)

Le terrain était donc préparé pour une conception cognitive de la référence, loin de la

pudeur du positivisme logique vis-à-vis du psychologisme …

2.4 L’approche cognitiviste

De manière assez paradoxale, c’est dans le « premier » Wittgenstein (notamment le

Tractatus, Wittgenstein 1922) que certains partisans de l’approche cognitiviste ont trouvé la

source de leurs travaux. C’est ainsi dans le même ouvrage fondamental que le positivisme

logique et l’approche cognitive ont trouvé leur inspiration, bien que l’approche cognitive,

dans la lignée du tournant pragmatique, s’écarte manifestement d’un vérificationisme forcené.

2.4.1 Le « premier » Wittgenstein et la théorie de l’image

Avant même le Tractatus Wittgenstein fixe comme objectif à la logique d’atteindre

l’« essence de la proposition » (1961 : 22.1.1915). Dans le débat qui l’oppose à son maître

Russell, Wittgenstein soutient que la forme d’une proposition n’est pas obtenue par

connaissance directe du langage (Russel parle d’« acquaintance »), mais est plutôt exhibée par

la proposition en question :

« De même qu’une photographie exhibe la structure de la relation qu’elle représente (elle fait voir,

à travers la disposition de ses éléments, que les choses se présentent de telle ou telle manière dans

la réalité), une proposition montre la structure de ce qu’elle asserte. » (Marconi 1997 : p. 37)

Wittgenstein propose de penser la proposition comme une « image » (« Bild ») qui

nous permettrait de représenter le réel :

« La proposition est un modèle du réel tel que nous l’imaginons » (Wittgenstein 1922 : 4.01)


37

« La proposition nous communique une situation ; elle doit donc avoir une interdépendance

essentielle avec cette situation. Et cette interdépendance consiste en ce qu’elle est l’image logique

de la situation. » (Wittgenstein 1922 : 4.03)

Wittgenstein nous invite dans un processus d’abstraction depuis les images ordinaires

jusqu’à la conception de la proposition en tant qu’image logique : tout comme une

photographie en noir et blanc perd les nuances de couleurs et la tridimensionnalité de la

situation qu’elle représente, la proposition logique n’épuise pas la totalité des éléments d’une

situation ; elle conserve et exhibe en revanche (tout comme la photographie) les relations

essentielles qui unissent les objets élémentaires de la situation.

2.4.2 Le concept de « modèle mental »

Dans la lignée des propositions du « premier » Wittgenstein, nombre de travaux de

psychologie cognitive vont, à partir des années 1970, argumenter en faveur du concept de

« modèle mental » (cf. Johnson-Laird 1989 pour un premier bilan).

On peut donner du concept de modèle mental la définition suivante :

« A mental model can be defined as a representation of a body of knowledge — either long-term

or short term — that meets the following conditions:

1. Its structure corresponds to the structure of the situation that it represents.

2. It can consist of elements corresponding only to perceptible entities, in which case it may be

realized as an image, perceptual or imaginary. Alternatively it can contain elements corresponding

to abstract notions; their significance depends crucially on the procedures for manipulating

models.

3. Unlike other proposed forms of representations, it does not contain variables. Thus a linguistic

representation of, say, All artists are beekeepers might take the form

For any x, if x is an artist, then x is a beekeeper.

In place of a variable, such as “x” in this expression, a model employs tokens representing a set of

individuals. » (Johnson-Laird 1989 : p. 488)

La première de ces trois caractéristiques est directement liée à la « théorie de l’image »

de Wittgenstein : la structure de la représentation et celle du réel représenté se correspondent

l’un à l’autre.

La seconde caractéristique explicite le fait que la source d’un modèle mental peut se

trouver directement :


38

• dans la perception sensorielle (cf. Marr 1982) : les entités concernées sont alors

évidemment celles auxquelles les sens peuvent accéder ;

• ou dans le discours et/ou la manipulation des modèles eux-mêmes (cf. Johnson-Laird

1989 : sections 12.2 et 12.3) : les entités peuvent alors être abstraites.

La troisième et dernière caractéristique est liée à la représentation des propositions

contenant une marque de quantification (telle que « tous les », « aucun des », etc.). Un modèle

mental, contrairement à d’autres méthodes de représentation (comme par exemple les

propositions de la logique des prédicats), utilise une représentation spatialisée ensembliste

(cercles de Euler, diagrammes de Venn, etc.).

Le risque est alors de vouloir réduire les problèmes liés au raisonnement ou à la

référence des expressions linguistiques à des opérations sur les modèles mentaux et les entités

qui les composent, sans plus se préoccuper d’une quelconque adéquation avec le réel. C’est

cette tendance qui est représentée par exemple dans le radicalisme mental de Rips 1986 :

« Cognitive psychology has to do without semantic notions like truth and reference that depend on

the relationship between mental representations and the outside world. » (Rips 1986, cité dans

Johnson-Laird 1986 : p. 489)

Johnson-Laird 1983 (repris dans Johnson-Laird 1989) propose de ne pas écarter la

problématique de la vérité des propositions contenant des expressions linguistiques (et donc

nécessairement de la référence des ces dernières) de la théorie des modèles mentaux ; la

solution proposée a le double avantage de prendre en considération le réel en considération

tout en restant dans le cadre foncièrement cognitif proposé :

« [A] major problem for cognitive science is to explain how symbols refer to the world […]. [The]

solution is that models of the world can also be constructed as a result of perception, internal

experience, and social interaction. A discourse is deemed true if a model based on its linguistic

representation can be embedded within such a model.” (Johnson-Laird 1989 : p. 489)

La vérité d’une proposition (fondée sur la référence des expressions qui la composent)

est donc en définitive perçue comme un problème de raisonnement entre un modèle mental

donné et un modèle mental du monde qui l’englobe.

2.4.3 Entités cognitives et entités du « monde réel »

Une position moins extrême pourrait consister à reconnaître l’existence d’entités

appartenant à un modèle mental lié au discours, mais aussi la possibilité de référence à des

entités du « monde réel », distinctes des précédentes.


39

Dans cette optique, et comme le souligne Cornish 1999 (pp. 47-51 ; pp. 153-159),

certains auteurs proposent une typologie des entités auxquelles les expressions référentielles

peuvent accéder. L’objectif est de « clarifier » les types et la nature (objective et matérielle ou

purement psychologique) des éléments représentés par les expressions linguistiques. On

pourra par exemple retenir Lyons 1977 et sa typologie tripartite :

« Lyons (1977) postulates a three-part typology: first-order entities (discrete objects, individuals,

stable entities with a temporally or spatially bound existence), second-order entities (dynamic

entities: states of affair, events, processes, activities), and third-order entities (concepts,

propositions). In his typology , third-order entities are the intensional correlates of second-order

one. Each subsequent ‘level’ of entity is at one remove from the tangible world of concrete reality

represented by first-order entities, on a scale of increasing abstractness. » (Cornish 1999 : pp. 47-

48)

On pensera aussi à la « Grammaire Fonctionnelle » de Dik 1997 et à la typologie

proposée, qui reprend et étend celle de Lyons 1977. L’inventaire résultant comprend ainsi15 :

• des entités d’ordre zéro (correspondant à la dénotation de prédicats, à des propriétés

d’entités ou à des relations unissant deux entités ou plus),

• les entités des premier, deuxième et troisième ordres de Lyons,

• et des entités de quatrième ordre (correspondant aux actes illocutionnaires (voir même

perlocutionnaires) de la théorie des actes de langage).

2.4.4 Synthèse

Nous terminons ce rapide survol de l’évolution de la conception de la référence par

l’approche cognitive qui, comme nous l’avons vu, trouve ses racines dans deux « terreaux » à

première vue antagonistes. En effet, l’approche cognitiviste des modèles mentaux s’inspire

d’une part du « premier » Wittgenstein et notamment de sa théorie de la proposition logique

en tant qu’image de la situation, mais bénéficie aussi, d’autre part, du « second » Wittgenstein

et des conceptions du tournant pragmatique qui ont permis le recentrage de la thématique de

la référence sur les participants à l’interaction langagière.

Comme nous l’avons vu, une des conceptions cognitives de la référence s’appuie sur le

concept de modèles mentaux et traite conséquemment la référence en terme de raisonnement

et de manipulation de ces modèles (inclusion dans des modèles du réel). Une conception

moins tranchée, cependant, postule la possibilité de référence directe à des entités du monde 15 Cf. Cornish 1999 : p. 48 pour des exemples de chaque ordre d’entité.


40

réel, mais met par là même en péril une vision dynamique et interactionnelle de la constitution

du discours.

Ainsi, une fois encore, l’évolution de la thématique de la référence s’est faite par rejet et

par assimilation, par modulation et complexification de concepts présents de manière plus ou

moins explicite dans les travaux antérieurs.

3 Le cas de l’anaphore au sein de la thématique de la référence

Ayant passé en revue quelques unes des conceptions liées à la thématique de la

référence, il est à présent temps de tenter de définir de manière plus précise la place des

phénomènes traditionnellement liés au concept d’anaphore au sein de cette thématique plus

générale.

Dans cette optique, nous nous choisirons pour l’instant comme point de départ une

définition traditionnelle de l’anaphore telle que celle proposée par Ducrot et Todorov 1972 :

« Un segment de discours est dit anaphorique lorsqu’il est nécessaire, pour lui donner une

interprétation (même simplement littérale), de se reporter à un autre segment du même discours

[…]. » (Ducrot & Todorov 1972 : 358)

Nous remarquerons d’emblée (et c’est la raison de notre choix) que cette définition est

uniquement applicable à la notion linguistique de l’anaphore et non pas à son homonyme

rhétorique impliquant répétition d’un syntagme potentiellement indépendant (tel qu’un nom

propre par exemple ; cf. Introduction).

Nous devons la première définition du phénomène au grammairien grec Apollonios

Dyscole (IIème siècle) qui réserve l’anaphore aux pronoms :

« Il oppose ainsi les déictiques (pronoms qui renvoient à des objets) et les anaphoriques (pronoms

qui renvoient à des segments du discours), montrant ainsi que la référence d'un pronom peut n'être

pas une chose du monde, mais un dire. » (Seriot 1987 : p. 147)

Le grammairien byzantin Priscien traduira cette distinction sous la forme

« demonstratiuus » / « relatiuus » dont le second élément sera récupéré chez certains

Terministes16 et intégré aux propriétés des termes sous le nom « relatio » :

16 On se rappelle des divergences (déjà évoquée § 1.2.1) sur le nombre et la nature des propriétés des termes,

certains (comme Guillaume de Sherwood) proposant 4 propriétés (et excluant la « relatio ») alors que d’autres

(comme Pierre d’Espagne ou Lambert d’Auxerre) en proposaient cinq (dont la « relatio » qui nous intéresses ici).


41

« Multa autem sunt proprietates termini, scilicet: suppositio, appellatio, restrictio, distributio [ed.:

distinctio] et relatio [...] » (Lambert d’Auxerre 1971 : p. 205)

D’autres cependant considèrent que la relatio n’est pas une propriété intrinsèque des

termes, mais plutôt la suppositio des « termes relatifs » (cf. Guillaume de Sherwood 1966).

C’est sans doute dans ce débat déjà ancien que se trouve l’un des questionnements majeurs de

la linguistique contemporaine concernant la thématique de l’anaphore en relation avec la

référence : quelle est la fonction exacte de l’anaphore vis-à-vis de celle du segment du

discours qui est nécessaire à son interprétation ?

Nous proposerons avec Apothéloz 1995 (pp. 307-311) que les réponses proposées dans

le cadre de ce questionnement peuvent être catégorisées en trois types de conceptions : la

conception « substitutive », la conception « antécédentiste » et la conception « mentaliste ».

La conception substitutive, normative et rhétorique, propose de concevoir l’anaphore

comme la substitution d’une expression (l’anaphorique) à une autre expression linguistique ;

l’objectif est alors d’éviter une répétition jugée inélégante, comme le montre cette citation de

Port Royal :

« L’usage des Pronoms est de tenir la place des Noms & de donner moyen d’en éviter la répétition

qui est ennuyeuse. » (Arnauld & Nicole 1970 : p. 145)

Une substitution « infidèle » (lorsque le remplaçant ne tient pas exactement la place de

l’expression à laquelle il doit se substituer) est ainsi jugée « insupportable » :

« Les Pronoms sont d’un grand avantage dans les langues : ils épargnent des répétitions qui

seroient insupportables ; ils répandent sur tout le discours plus de clarté, de variété et de grâce ;

mais on feroit une faute si on les employoit pour réveiller une idée autre que celle du nom dont ils

prennent la place ; et c’est avec raison que l’on a critiqué ce vers de Racine :

Nulle paix pour l’impie ; il la cherche, elle fuit.

(Esther, act. II, sc. 9)

En effet, la et elle ne rappellent pas nulle paix, ils rappellent seulement la paix, c'est-à-dire une

idée toute contraire. » (Girault-Duvivier 1827 : p. 336, cité dans Apothéloz 1995 : p. 308).

La conception antécédentiste privilégie la dépendance de l’expression anaphorique vis-

à-vis de l’expression qui permet son interprétation (nommé « antécédent », « source », etc.).

L’anaphore est ainsi réduite à un lien interprétatif unissant « deux segments textuels

univoquement délimitables » (Apothéloz 1995 : p. 310). La tendance est là aussi normative,

avec une propension au rejet (ou au mieux à la marginalisation) de toute anaphore non fondée

sur la reprise d’un segment textuel explicite.


42

La conception mentaliste, qui correspond à l’approche cognitiviste que nous avons

décrite plus haut, abandonne toute nécessité concernant la présence en tant qu’«

antécédent » d’un segment textuel particulier et analyse la référence de l’expression

anaphorique comme liée à une représentation mentale :

Dans cette perspective, une anaphore au sens classique du terme est une expression qui pointe sur

une information dont la seule particularité est d’avoir été introduite par un segment de texte

repérable et univoquement délimitable. » (Apothéloz 1995 : 311)

Quelle que soit la conception adoptée, et que l’on considère les termes relatifs (avec

toutes leurs sous-catégories) ou simplement les pronoms anaphoriques d’Apollonios Dyscole,

l’existence de la propriété de suppositio (de dénotation, de référence selon les approches)

semble consensuelle. Dans cette approche volontairement historique, nous considèrerons donc

que l’anaphore constitue un sous-ensemble de la référence circonscrit à un ensemble fini

d’expressions linguistiques d’une langue (pronoms ou termes relatifs).

Nous préciserons bien entendu plus loin certaines des spécificités de l’anaphore, mais

nous retiendrons principalement ici que la thématique de l’anaphore est indissociable de celle

de la référence. La conséquence directe de ce constat est que l’évolution de la conception de

l’anaphore elle-même est mêlée à celle de la référence et en adopte les évolutions et les

oppositions. Il ne sera pas étonnant, dès lors, de trouver représentées dans les descriptions

contemporaines (y compris strictement linguistiques au sens large) de l’anaphore les

conceptions associées à la référence. Comme nous l’avons vu avec les conceptions évoquées

plus haut, nombre de positions sont représentées, influencées par les types d’approches dont

nous avons donné un aperçu (immanentistes, pragmatiques ou « psychologiques »).

4 Synthèse générale

Notre démarche, dans cette première section, peut se résumer à deux objectifs

principaux.

Dans un premier temps, nous avons cherché à montrer comment la thématique de la

référence, cette question du rapport des mots au monde pour utiliser une terminologie

searlienne, s’est développée au sein de la pensée occidentale depuis le Moyen Age (et par

l’intermédiaire des Terministes, depuis certains philosophes et grammairiens grecs) jusqu’aux

propositions contemporaines de la logique, de la linguistique et de la psychologie.

L’inventaire, évidemment, est loin d’être exhaustif, mais, à vrai dire, telle n’est pas sa

prétention … Il montre selon nous comment certains des concepts avancés dès les origines


43

ont, selon les époques, pris une place majeure dans le débat, et ont constitué autant

d’éclairages différents. L’évolution de la linguistique épouse, on l’aura remarqué, celle de la

thématique de la référence, notamment avec le tournant pragmatique du milieu du XXème

siècle et l’intégration de la cognition dans la réflexion linguistique …

Dans un second temps, nous avons essayé de rendre explicite le lien d’inclusion qui unit

la thématique de l’anaphore à celle de la référence. Ce choix, que d’aucuns contesteront en

s’appuyant sur l’argument de la trivialité ou du « cela va sans dire », nous semble malgré tout

justifié : en effet il y a nombre de choses qui « vont sans dire », mais on remarque à l’usage,

pour paraphraser Talleyrand, qu’elles « vont encore mieux » en les disant … Oui, l’anaphore

est liée de manière évidente à la référence et en constitue un cas particulier, mais en posant les

bases de ce constat « trivial », nous avons aussi voulu présenter les approches sur lesquelles

les conceptions contemporaines se sont fondées, ce qui nous permettra, nous l’espérons,

d’appréhender la thématique spécifique de l’anaphore depuis une perspective plus pertinente

…

C’est précisément vers l’analyse des conceptions linguistiques au sens large de ce

concept d’anaphore que nous proposons de nous tourner à présent.

45

Chapitre 2

Eclairages sur l’anaphore en linguistique

46


1 Anaphore et incomplétude............................................................................ 48 1.1 La théorie milnérienne de la référence ......................................................................... 48 1.2 L’anaphore dans le cadre de la théorie milnérienne ................................................... 50

1.2.1 L’anaphore pronominale ........................................................................................ 50 1.2.2 L’anaphore nominale ............................................................................................. 52

1.3 Synthèse ........................................................................................................................... 54 2 Deixis, indexicalité et anaphore.................................................................... 56 2.1 La deixis : définition liminaire....................................................................................... 57 2.2 Deixis et indexicalité (Q1)............................................................................................... 60 2.3 Deixis et anaphore an tant que phénomènes indexicaux (Q2) .................................... 63

2.3.1 Approche chronologique........................................................................................ 64 2.3.2 Approche abstractionniste...................................................................................... 71

2.4 Synthèse ........................................................................................................................... 74 3 Principaux problèmes des descriptions classiques ..................................... 75 3.1 La théorie milnérienne.................................................................................................... 75

3.1.1 Saturation sémantique ............................................................................................ 75 3.1.2 L’anaphore pronominale : coréférence et reprise .................................................. 76

3.2 Deixis et anaphore........................................................................................................... 79 3.2.1 Typologie des formes indexicales.......................................................................... 80 3.2.2 Typologie des usages indexicaux........................................................................... 82

4 Synthèse générale .......................................................................................... 84

Chapitre 2 – Eclairages sur l’anaphore en linguistique

47

Après avoir donné un bref aperçu de l’évolution de la thématique de la référence, nous

proposons de nous tourner à présent vers des considérations plus spécifiques à la référence

anaphorique et au problème de sa caractérisation linguistique. Bien évidemment, nous

n’envisageons pas ici de faire un état de l’art exhaustif du traitement de la thématique de

l’anaphore au sein de la linguistique au sens large. Notre objectif est plutôt de fournir

quelques éclairages concernant la question et ainsi de mieux nous positionner vis-à-vis des

études déjà menées. Nous nous restreindrons de plus dans ce chapitre à des considérations

linguistiques non spécifiquement discursives, les rapports unissant l’anaphore et le discours

étant traités plus particulièrement dans le quatrième chapitre de ce travail.

Reprenons une définition classique de l’anaphore déjà donnée au chapitre précédent et à

partir de laquelle nous allons identifier un axe principal de réflexion :

« Un segment de discours est dit anaphorique lorsqu’il est nécessaire, pour lui donner une

interprétation (même simplement littérale), de se reporter à un autre segment du même discours

[…]. » (Ducrot & Todorov 1972 : p. 358)

On insistera notamment sur la nécessité du recours à un élément tiers : l’anaphoricité

pourrait ainsi être considérée avant tout comme une « incapacité » de l’unité considérée à

dénoter seule. L’élément anaphorique serait donc un élément « en creux », son sens n’étant

pas suffisant à la détermination de sa dénotation. L’anaphore n’est cependant pas le seul

phénomène lié à cette incomplétude, et il n’est pas étonnant, dès lors, de voir l’analyse des

phénomènes anaphoriques souvent mise en parallèle avec celle des phénomènes déictiques :

la rapprochement est en général contrastif, mais les points communs sont nombreux et

permettent même à certains de postuler un phénomène sous-jacent unique, malgré des

différences que nous mettrons en évidence.

En conséquence, ce chapitre sera composé de trois sections principales, suivies d’une

synthèse. La première section approfondira la conception selon laquelle l’anaphore

(notamment pronominale) concerne des éléments incomplets du point de vue de leur capacité

à dénoter seuls. Nous étudierons notamment dans cette perspective la théorie de Jean-Claude

Milner sur la distinction référence virtuelle vs. référence actuelle.

Dans la seconde section, nous tenterons de préciser les rapports de l’anaphore avec la

deixis : nous nous pencherons ainsi sur certaines des approches qui ont pu mettre ces deux

phénomènes en parallèle, les grouper au sein d’une catégorie commune, mais aussi les

opposer et les distinguer.


48

Dans la troisième et dernière section, nous ferons un bref inventaire des problèmes liés

aux conceptions précédentes, ce qui nous permettra d’en montrer les limites et les faiblesses.

1 Anaphore et incomplétude

La conception selon laquelle le fonctionnement référentiel de l’anaphore est lié à une

incomplétude des expressions linguistiques impliquées a longtemps dominé les approches

linguistiques du phénomène. L’expression anaphorique doit alors être complétée (ou

« saturée ») par l’intermédiaire d’un segment de discours complet. On pourra parler dans ce

cas de conception « antécédentiste » (Apothéloz 1995 : p. 310) de l’anaphore, dont par

exemple l’approche de Jean-Claude Milner constitue une version linguistique explicite.

Les travaux de Jean-Claude Milner (1976, 1978, 1982 et 1989) constituent un excellent

exemple d’une tentative de modélisation strictement linguistique (excluant le recours à des

éléments situationnels) des phénomènes liés à la référence en général et à l’anaphore en

particulier. Le compte rendu que nous allons proposer ici se fonde principalement sur Milner

1982, Ordres et raisons de la langue, qui rassemble et développe les travaux antérieurs de

l’auteur. C’est la première partie de cet ouvrage qui va nous intéresser plus particulièrement :

Milner y évoque la thématique de la référence (chapitre I) avant de s’attacher plus

particulièrement au problème de l’anaphore (chapitres II et III de cette même première partie).

Nous allons donc suivre ce mode de présentation en abordant tout d’abord les propositions de

Milner concernant la référence (ce qui nous permettra de faire le lien avec les éléments

présentés dans notre premier chapitre) avant de porter notre attention sur le thème plus

spécifique de l’anaphore.

1.1 La théorie milnérienne de la référence

Milner 1982, dans le chapitre intitulé « Réflexions sur la référence et la coréférence »,

propose de s’attacher au problème de la référence des séquences nominales. La position de

l’auteur est à placer dans le cadre d’une vision à la fois sémantique et réaliste de la référence :

pour lui, en effet, les séquences nominales ont pour fonction de désigner des portions du

monde réel :

« On s’accorde à reconnaître que dans certaines conditions les séquences linguistiques peuvent être

associées à certains segments de réalité, qu’elles sont dites désigner et qui sont leur référence. […]

Une séquence nominale a […] une référence, qui est le segment de réalité qui lui est associé. »

(Milner 1982 : p. 9)


49

L’auteur insiste cependant sur le fait que le segment de réalité désigné par une séquence

nominale ne doit pas nécessairement être « spatio-temporel » (ibid. : p. 9), écartant par là

même toute possibilité d’interprétation matérialiste de ses propos : conséquemment, un nom

abstrait peut être associé à un segment du réel de la même manière qu’un nom concret.

Dire que Milner 1982 est un prototype de la position du « tout linguistique »

concernant la thématique de la référence serait un euphémisme. La prise de position est claire

et volontairement radicale : la référence est une affaire de correspondance entre éléments du

lexique et éléments du réel ; le tout est de savoir quelles relations entretiennent ces deux

protagonistes. Pour l’auteur, la réponse est simple : le réel est contraint par le linguistique.

« Cela posé, il suffit de réfléchir un instant pour observer que n’importe quelle séquence nominale

n’est pas associée à n’importe quel segment ; autrement dit, une langue naturelle comporte un

lexique, et l’une des propriétés de ce dernier, c’est de distinguer des unités d’après le type de

segment qu’elles peuvent désigner. Une unité lexicale étant choisie, certains segments sont

d’emblée éliminés en tant que références possibles ; en ce sens, à chaque unité lexicale

individuelle, est attaché un ensemble de conditions que doit satisfaire un segment de réalité pour

pouvoir être la référence d’une séquence où interviendrait crucialement l’unité lexicale en cause.

C’est ensemble de conditions décrit donc un type (ou si l’on veut une classe) de référence

possible ; il est distinct des segments de réalité, mais pèse sur eux. » (ibid. : p. 10 ; notre emphase)

Milner propose de représenter la dualité de sa vision de la référence (conditions d’une

part et segment du réel de l’autre) par l’intermédiaire de deux concepts fondamentaux :

• la référence virtuelle correspond à l’ensemble de conditions caractérisant la référence

d’une unité lexicale, son « sens lexical » ;

• la référence actuelle correspond au segment de réalité associé à une unité lexicale.

On reconnaît là, et Milner l’avoue lui-même (ibid., note de bas de page n°1, p. 10), les

concepts frégéens de sens (« Sinn », référence virtuelle) et de dénotation (« Bedeutung »,

référence actuelle). Afin de compléter son approche théorique de la référence, Milner 1989

introduit le concept de « saturation sémantique » pour qualifier le degré de référence

virtuelle d’une expression nominale : plus la référence virtuelle d’une unité comporte

d’éléments, plus cette unité aura une saturation sémantique élevée. Ainsi, plus la saturation

sémantique d’une expression est forte et plus cette expression est susceptible d’avoir une

référence actuelle qui en soit dérivée. Comme nous le verrons ci-dessous, les pronoms sont

caractérisés par une faible saturation sémantique, liée à leur référence virtuelle sous-

développée.


50

Nous remarquerons finalement que le cadre choisi par l’auteur est volontairement

conceptuellement pré-pragmatique (d’après la chronologie évoquée lors de notre chapitre 1),

comme le montre d’autre part un positionnement néo-positiviste concernant la

compositionnalité du sens :

« […] si l’on considère les emplois en eux-mêmes, ce ne sont pas aux unités lexicales comme

telles que sont associés les segments de réalité, mais bien aux groupes nominaux pris dans leur

ensemble. Dans ces groupes, plusieurs unités lexicales peuvent intervenir, et les références

virtuelles de chacune se combinent pour contraindre une référence actuelle possible ; mais une

référence actuelle donnée n’est associée qu’à la combinaison d’ensemble et non pas à chacune des

unités combinées. » (ibid. pp. 10-11)

L’apport de Milner 1982 dans le cadre d’une approche logico-sémantique de la

référence, avec l’introduction de ces deux concepts de référence virtuelle et de référence

actuelle, est exploité dans l’étude du problème de l’anaphore, vers lequel nous nous tournons

à présent.

1.2 L’anaphore dans le cadre de la théorie milnérienne

Les deuxième et troisième chapitres de Milner 1982, « Anaphore nominale et

pronominale » et « Coréférences et anaphore », traitent tous deux de l’anaphore nominale et

de l’anaphore pronominale.

L’anaphore est définie par Milner de la manière suivante :

« Il y a relation d’anaphore entre deux unités A et B quand l’interprétation de B dépend

crucialement de l’existence de A, au point qu’on peut dire que l’unité B n’est interprétable que

dans la mesure où elle reprend – entièrement ou partiellement – A. » (Milner 1982 : p. 18)

Cette définition, aisément assimilable à l’anaphore pronominale (avec ses notions

classiques de coréférence et de reprise), est, comme nous allons le voir, utilisée par Milner

comme référentiel d’analyse à la fois pour l’anaphore nominale et pour l’anaphore

pronominale, vers laquelle nous nous orientons à présent.

1.2.1 L’anaphore pronominale

Milner présente les pronoms personnels comme dépourvus d’une référence virtuelle leur

permettant à elle seule d’avoir une référence actuelle :

« considérons le pronom je, on sait qu’il ne peut être véritablement défini hors emploi que comme

« est je celui qui peut dire je » ; autrement dit, la condition requise d’un segment de réalité pour

qu’il soit désigné par je n’est délimitée que par l’énoncé de je lui-même. Cela revient à dire que la


51

référence virtuelle de je ne peut être autonomisée par rapport à l’emploi de je dans un énoncé

singulier où il a une référence actuelle. Convenons de décrire cette caractéristique par le terme de

non-autonomie référentielle. » (ibid. : pp. 18-19)

Certes, le pronom personnel « je » n’est généralement pas cité comme représentatif de

l’anaphore pronominale (cf. plus loin pour quelques détails concernant la deixis) ; les

pronoms personnels de troisième personne, a contrario, sont des unités présentées par la

tradition comme typiquement anaphoriques. Qu’en est-il alors de leur statut référentiel selon

Milner ?

Selon l’auteur, les pronoms de troisième personne appartiennent eux aussi à cette classe

des unités référentiellement non-autonomes :

« Bien évidemment, le cas des pronoms de troisième personne entre dans cette catégorie : la

référence virtuelle d’un tel pronom ne peut être définie en elle-même hors emploi, aucune

condition n’étant requise d’un segment de réalité pour être désigné par il (elle, ils, etc.), sinon des

conditions tenant à l’énoncé singulier où il est employé. » (ibid., p. 19)

Malgré leur non-autonomie référentielle partagée, une distinction peut cependant être

tracée entre pronoms de première et de deuxième personne d’une part et pronoms de troisième

personne d’autre part ; ainsi, pour les premiers, les conditions (référence virtuelle) de

l’interprétation sont entièrement incluses dans l’énoncé alors que l’interprétation des seconds

dépend, selon Milner, de l’emploi d’une autre désignation, référentiellement autonome celle-

là. C’est par ce biais-là que la notion de reprise s’immisce dans la théorie milnérienne de

l’anaphore pronominale, comme l’explicite les citations suivantes :

« C’est là justement ce que l’on entend par anaphore pronominale : elle combine […] la relation

symétrique de coréférence et une relation asymétrique, qu’on peut dire de reprise, entre deux

termes hétérogènes, l’un autonome, l’autre non-autonome. » (ibid. : p. 19)

« Prise en elle-même, l’anaphore pronominale usuelle n’est rien d’autre que la combinaison de la

coréférence et de la reprise. » (ibid. : p. 20)

Etant donnée la distinction faite entre référence virtuelle et référence actuelle, la notion

même de coréférence se trouve dédoublée : on pourra ainsi parler de coréférence virtuelle

(lorsque les deux unités reliées le sont sur la base de leurs références virtuelles) ou de

coréférence actuelle (lorsque les deux unités désignent le même segment de réalité. On est en

droit, dès lors, de s’interroger sur la nature de la coréférence impliquée dans l’anaphore

pronominale. Examinons les exemples ci-dessous empruntés à Moeschler & Reboul 1994 (p.

352) :


52

Ex (10) a. On a coupé la chevelure de Samson et on l’a brûlée.

b. On a coupé la chevelure de Samson et elle a repoussé.

L’exemple (10a) nous montre le cas typique d’un pronom de troisième personne (« l’ »)

jouant le rôle d’anaphorisant de la description définie anaphorisée « la chevelure de

Samson ». Dans cette configuration, l’anaphorisé est autonome référentiellement (forte

saturation sémantique) et l’anaphorisant, pronominal, est non-autonome (faiblement saturé

sémantiquement). Selon Milner, l’obtention d’une référence actuelle pour l’anaphorisant n’est

qu’un effet de bord du phénomène plus fondamental qui consiste en un transfert de la

référence virtuelle de l’anaphorisé vers l’anaphorisant. Ce phénomène est à envisager comme

un processus de saturation sémantique qui conduit finalement à la coréférence virtuelle des

deux expressions ainsi qu’à leur coréférence actuelle (la chevelure coupée est bien celle que

l’on a brûlée). On se trouve alors en présence d’un cas de coréférence virtuelle (par saturation

sémantique) et de coréférence actuelle.

Comme dans l’exemple (10a), le pronom personnel « elle » de l’exemple (10b)

constitue un anaphorisant de l’anaphorisé « la chevelure de Samson ». On notera que le

processus de saturation sémantique se déroule selon Milner comme décrit précédemment

(récupération de la référence virtuelle de l’anaphorisé par l’anaphorisant), mais ne conduit pas

à une identité des références actuelles des deux expressions : la chevelure coupée et celle qui

a repoussé sont deux segments différents de la réalité. On est alors avec ce second exemple en

présence d’un cas de coréférence virtuelle sans coréférence actuelle. Ce type de

fonctionnement anaphorique pousse Milner à postuler que seule la coréférence virtuelle est

une condition nécessaire et suffisante de l’anaphore pronominale.

1.2.2 L’anaphore nominale

La définition prototypique de l’anaphore nominale donnée par Milner 1982 est la

suivante :

« Le type fondamental de la relation anaphorique nominale est […] la succession de deux unités

lexicales dont la première, indéfinie, désigne une référence actuelle non-identifiée, mais s’inclut

dans un énoncé qui l’identifie, et dont la seconde, définie, désigne une référence identifiée par la

seule relation de reprise. C’est la succession bien connue un… le. » (ibid. : p.22)


53

Au delà de cette définition quelque peu restrictive, Milner 1982 postule, insistons sur ce

fait, que l’anaphore nominale et l’anaphore pronominale fonctionnent selon le même schéma

fondamental que nous rappelons ci-dessous :

« Il y a relation d’anaphore entre deux unités A et B quand l’interprétation de B dépend

crucialement de l’existence de A, au point qu’on peut dire que l’unité B n’est interprétable que

dans la mesure où elle reprend – entièrement ou partiellement – A. » (Milner 1982 : p. 18)

Nous l’avons vu, ce principe de fonctionnement cadre avec les descriptions

traditionnelles de l’anaphore pronominale ; on est cependant en droit de se demander si une

telle position n’est pas trop forte concernant l’anaphore nominale. En effet, la notion de

reprise (fût-elle entière ou partielle), si elle semble (sans doute à tort d’ailleurs) triviale dans

des cas de répétition stricte (avec des progressions du type « un N … (ce N …) le N ») peut

paraître plus difficile à tenir dans des cas d’anaphore associative tels que (11) et (12) ci

dessous.

Ex (11) Les voyageurs arrivèrent dans un village. L’église …

Ex (12) She came in and saw a child sleeping on the couch. The parents were having

lunch in the kitchen.

Ainsi, s’il est vrai que l’interprétation des expressions « l’église » et « the parents »

dépend en quelque sorte de l’existence d’autres expressions (« un village » et « a child »

respectivement), la notion de reprise semble plutôt délicate dans ce contexte. On remarquera

finalement l’absence totale de coréférence (virtuelle et actuelle) dans ce cas de figure.

De manière similaire, les exemples suivants d’anaphore par recours à un hyperonyme,

empruntés à Milner 1982 (exemples 11a, 11b et 11c ; p. 23), semblent à première vue eux

aussi problématiques pour la notion de reprise :

Ex (13) des bœufs paissaient ; les quadrupèdes …

Ex (14) on vient d’envoyer des satellites dans l’espace ; les engins …

Ex (15) *ils ont engagé des secrétaires ; les jeunes filles …

(l’astérisque est de Milner 1982)


54

La réponse de Milner concernant ces deux types de problèmes est à trouver dans une

conception fondamentalement linguistique et lexicale de l’anaphore, rejetant la pertinence de

toute analyse pragmatique :

« […] la référence virtuelle d’une unité lui est attachée comme une propriété lexicale ;

contrairement à ce que l’on dit souvent, le fait que tel nom ait, hors emploi, tel sens, cela ne relève

pas de l’expérience, mais de la compétence linguistique. Que donc tels noms puissent anaphoriser

tels autres, cela ne dépend que de la connaissance de la langue et non pas d’une situation extra-

linguistique. » (ibid. : p. 27)

Dans ces cas, les références virtuelles de l’anaphorisant et de l’anaphorisé sont

supposées entretenir une relation causale (du type parents-child), métonymique (telle que

village-église) ou ensembliste d’intersection ou d’inclusion (pour les anaphores impliquant

des hypéronymes et des hyponymes).

On le voit, alors que d’autres proposent une conception plus cognitivo-pragmatique de

ces phénomènes (cf. par exemple Kleiber et al. 1994), Milner 1982 recourt à une solution

purement linguistique au sens strict : selon l’auteur, ces deux phénomènes sont ainsi régis par

des règles lexicales systémiques, en « langue », sans recours à des configurations cognitives

ou situationnelles.

On notera finalement que plusieurs différences opposent anaphore pronominale et

anaphore nominale. La différence la plus fondamentale réside dans le fait que les

anaphorisants nominaux sont présentés comme référentiellement autonomes : disposant d’une

référence virtuelle propre (ils sont caractérisés par une forte saturation sémantique), ils

n’impliquent pas la récupération de la référence virtuelle de leur anaphorisé. L’effet de

l’anaphore consiste donc en une attribution de référence actuelle pour l’anaphorisant, assistée

par l’anaphorisé.

1.3 Synthèse

On pourra résumer ce rapide survol de la théorie de Milner concernant la référence et

l’anaphore à l’aide du tableau 1 ci-après, reproduction du tableau donné dans Milner 1982 (p.

38). Ce tableau présente de manière schématique et contrastive les caractéristiques de

l’anaphore pronominale (colonne de gauche) et de l’anaphore nominale (colonne de droite).

Sont notamment détaillées de manière systématiques les contraintes pesant tant sur

l’anaphorisé que sur l’anaphorisant concernant :

• leur statut +/- autonome


55

• l’existence d’une référence virtuelle propre

• l’existence d’une référence actuelle et ses caractéristiques (+/- identifiée, +/-

identifiable ; expression définie ou indéfinie, spécifique ou générique)

• les conditions de coréférence (virtuelle / actuelle / les deux / aucune)

Anaphore pronominale Anaphore nominale

Anaphorisant non-autonome et dépourvu

de référence virtuelle propre

Anaphorisant autonome et pourvu d’une

référence virtuelle propre

Effet : fournir une référence virtuelle à

l’anaphorisant, pas d’identifier le référent

actuel

Effet : identifier le référent actuel de

l’anaphorisant, pas de fournir une

référence virtuelle

L’anaphorisant n’a pas nécessairement

une référence actuelle

L’anaphorisant a nécessairement une

référence actuelle

L’anaphorisé n’a pas nécessairement de

référence actuelle ; il suffit qu’il ait une

référence virtuelle

L’anaphorisé a nécessairement une

référence actuelle.

La référence actuelle de l’anaphorisé peut

être identifiée ou non, identifiable ou non.

L’anaphorisé peut donc être défini ou

indéfini, spécifié ou générique.

La référence actuelle de l’anaphorisé doit

être non identifiée : l’anaphorisé doit être

indéfini. La référence actuelle de

l’anaphorisé doit être identifiable ; elle

doit donc être particulière et ne peut être

ni générique ni quantifiée.

La relation d’anaphore a pour condition

nécessaire et suffisante la coréférence

virtuelle.

La coréférence – virtuelle ou actuelle –

n’est ni nécessaire ni suffisante.

Tableau 1: Récapitulatif des conditions concernant l’anaphore pronominale et l’anaphore

nominale (Milner 1982 : p. 38).

On insistera pour terminer sur le fait que la conception strictement linguistique (au sens

restreint du terme) proposée par Milner postule que le phénomène d’anaphore pronominale se


56

résume à la saturation sémantique17 d’une expression linguistique référentiellement non-

autonome (l’expression anaphorique) par l’intermédiaire d’une autre expression linguistique

présente dans le co-texte et qui, elle, bénéficie d’une telle autonomie (communément appelée

« antécédent »). L’expression anaphorique récupère ainsi la référence virtuelle de

l’antécédent, ce qui lui permet d’obtenir une référence actuelle.

Si cette approche ne permet évidemment pas d’épuiser le fonctionnement de l’anaphore

dans toute sa complexité dans des interactions réelles, son avantage premier est de fournir une

terminologie explicite et claire concernant une vision traditionnelle du fonctionnement

référentiel des expressions linguistiques en général et des expressions anaphoriques en

particulier.

L’une des caractéristiques du concept de non-autonomie référentielle consiste à

regrouper au sein d’une catégorie unique des termes tels que « ici », « je », « il », etc. que la

tradition a pourtant classés sous deux concepts différents que sont la deixis et l’anaphore. Il

est donc nécessaire, si la théorie de Milner devait constituer un point de départ, de pousser

plus avant l’analyse de ces deux phénomènes afin d’en délimiter plus précisément les

frontières et les recoupements.

2 Deixis, indexicalité et anaphore

Comme nous venons de le voir rapidement dans la section précédente, une approche de

l’anaphore en tant que saturation sémantique d’expressions linguistiques « déficientes »

pourrait mener à penser que les deux phénomènes de l’anaphore et de la deixis participent du

même principe sous-jacent : sont impliquées des unités « en creux » qui ne sont capables de

dénoter que par l’intermédiaire d’informations qui leur sont externes. On semble retrouver ici

un rapprochement entre anaphore et deixis parmi les plus classiques.

Il est intéressant de noter que le schéma typique adopté par nombre d’études

linguistiques de la deixis ou de l’anaphore consiste en une mise en relation contrastive de ces

deux phénomènes : à titre d’exemple, on pourra ainsi penser :

• à Lyons 1975 (et 1977) qui présente la deixis comme origine de la référence en

général et de l’anaphore en particulier ;

17 Le terme correspond ici à un phénomène dynamique, un processus (Moeschler & Reboul 1994 : p. 351) et

non à une caractéristique statique de la référence virtuelle d’une unité (Milner 1989).


57

• à Halliday & Hasan 1976, notamment chapitre II avec l’opposition entre endophore

(anaphore) et exophore (deixis) ;

• à Brown & Yule 1980 qui, chapitre VI, s’appuient sur Halliday & Hasan 1976 pour

éclairer la problématique de la référence dans le discours ;

• à Levinson 1983, chapitre II, avec la distinction des usages anaphoriques et non-

anaphoriques en relation avec la deixis textuelle (p. 67) ;

• ou plus récemment à par exemple Cornish 1990 qui définit la fonction de l’anaphore

par rapport à celle de la deixis dans le discours.

La stratégie adoptée consiste généralement à rapprocher les deux phénomènes avant de

les distancier sur des axes variés. Nous nous proposons, bien entendu sans épuiser le débat, de

présenter quelques uns des arguments (en plus de leur faible saturation sémantique) qui ont pu

être avancés tout d’abord pour rapprocher ces deux phénomènes (§2.2) et pour les distinguer

(§2.4). Au préalable, il nous semble important de rappeler quelques éléments de définition.

2.1 La deixis : définition liminaire

On pourra avec Lyons 1977 concevoir le concept de deixis comme

« the location and identification of persons, objects, events, processes and activities being talked

about, or referred to, in relation to the spatiotemporal context created and sustained by the act of

utterance and the participation in it, typically of a speaker and at least one addressee. » (Lyons

1977 : p. 637)

La deixis se décompose en trois catégories « classiques » qui comprennent (cf. par

exemple Levinson 1983 : p. 62) :

• la deixis personnelle, liée à l’expression des rôles des participants dans l’énoncé lui-

même (notamment par l’utilisation de pronoms personnels tels que ceux de première

et de deuxième personne du singulier) ;

• La deixis spatiale18, liée à l’expression de données spatiales relativement au lieu de

l’énonciation (par exemple avec les adverbes « ici » en français, ou « here » en

anglais) ;

18 Imai 2003 constitue une référence majeure concernant ce type de deixis, avec des données extraites de plus de

400 langues différentes.


58

• La deixis temporelle, liée à l’expression de données temporelles relativement au

moment de l’énonciation ou « coding time » (Fillmore 1975) : par exemple avec les

adverbes « maintenant » en français, ou « now » en anglais ;

On notera cependant le caractère relativement consensuel de deux formes

supplémentaires de deixis19 (cf. Lyons 1968 et 1977 et Fillmore 1975) :

• La deixis « textuelle » ou « discursive », liée à l’expression de références à des

portions du texte/discours (cf. chapitre 3 ci-après pour une distinction de ces concepts)

tel qu’il est en train de se dérouler ; on placera par exemple sous cette rubrique des

expressions telles que « ci-dessus », « ci-joint » ou encore « therein » ou « in the

previous chapter » ;

• La deixis sociale, fréquente par exemple dans les langues asiatiques et liée à

l’expression de distinctions sociales relatives aux rôles des participants à l’interaction :

on pensera par exemple aux systèmes de formes honorifiques (cf. par exemple

Levinson 1983, Brown & Levinson 1987 ou Errington 1988).

Etant donnée la place centrale accordée au contexte dans le cadre de la deixis, il n’est

pas étonnant de remarquer que le concept de deixis a longtemps constitué un « domaine

réservé » de la philosophie et, par le truchement de la philosophie du langage, de la

pragmatique au sein de la linguistique au sens large. La place accordée au phénomène de

deixis dans nombre d’ouvrages de référence sur la pragmatique en est une preuve flagrante : à

titre d’exemple, on pensera notamment à l’existence de chapitres spécifiques et même au

positionnement typique de ces chapitres en début de volume (cf. chapitre II dans Levinson

1983 ou Green 1996).

L’argument majeur généralement avancé par les défenseurs de l’approche pragmatique

de la deixis repose sur une certaine difficulté (présentée comme une inaptitude) de la

linguistique au sens strict, et notamment de la sémantique et/ou de la syntaxe concernant

l’attribution référentielle pour les expressions déictiques ; dans ce contexte, on s’amusera à

lire la phrase introductive de Stephen Levinson 2004 : 19 On notera aussi la proposition de Levinson 1983 d’envisager le concept de visibilité comme un type de deixis :

« quite a number of languages of different stocks that encode a basic distinction between objects visible and non-

visible to participants. This distinction is often subsumed under place deixis, as it tends to show up in

demonstratives, but it is in fact an independent and parallel dimension of deictic organization that ought to be

added to the major five categories of deixis. » (Levinson 1983: p. 63)


59

« For those who want to treat language as a generative system for objectively describing the world,

deixis is one hell of a big black fly in the ointment. » (Levinson 2004 : p. 97)

L’attaque est pour le moins caricaturale, certes, mais elle est néanmoins révélatrice de

cette volonté d’appropriation de la thématique de la deixis par la pragmatique. Plus

sérieusement, l’argument le plus classiquement utilisé consiste à montrer qu’une approche

sémantique véri-conditionnelle est incapable de « résoudre » la référence des formes

déictiques sans recourir à un référentiel lié à la situation d’énonciation :

« What is clear is that any sentence with indexicals (and that means, given person, tense, and

spatial Deixis, nearly every natural language sentence) cannot directly express a proposition, for

on any doctrine a proposition is an abstract entity whose truth-value is independent of the times,

places and persons in the speech event. If we think of propositions as mappings from worlds to

truth-values in the normal way, then whereas we might be able to characterize the meanings of

non-indexical expressions in terms of the part they play in such a mapping, there seems to be no

such prospect for indexical expressions. » (Levinson 2004 : p. 110)

Georgia Green adopte une position encore plus extrême en affirmant que la deixis

constitue même une composante fondamentale de la pragmatique entendue au sens le plus

étroit :

« The narrowest interpretation of the term pragmatics is that it refers to the study of indexicals,

expressions whose reference is a function of the context of their utterance. » (Green 1996 : p. 17)

On notera que Green 1996, tout comme Levinson 1983 et 2004, présente les concepts

de deixis et d’indexicalité comme quasiment coextensifs (cf. aussi par exemple Moeschler &

Reboul 1994 : pp. 106-107) mais provenant de deux traditions distinctes (linguistique et

philosophique respectivement). Une telle prise de position mérite quelques éclaircissements,

plusieurs propositions alternatives pouvant être suggérées.

On est alors en droit de s’interroger sur la nature des relations qui unissent d’une part

deixis et indexicalité (questionnement Q1) et d’autre part deixis et anaphore au sein de

l’indexicalité considérée comme un concept les englobant (questionnement Q2). Nous allons

à présent nous tourner vers ces deux questionnements, chacun se trouvant traité dans une

section spécifique.


60

2.2 Deixis et indexicalité (Q1)

Comme nous l’avons suggéré ci-dessus, nombre d’études (pragmatiques) présentent les

concepts de deixis et d’indexicalité comme quasiment coextensifs mais provenant de deux

traditions distinctes (linguistique et philosophique respectivement ; cf. Levinson 1983 et

2004).

Cependant, d’autres approches (plus sémantiques, ou logico-philosophiques) proposent

une distinction plus fine de ces deux concepts ; nous allons nous pencher sur deux de ces

approches (Charolles 2002 et Nunberg 1993) après avoir donné la définition originelle du

concept d’indexicalité.

Le terme « indexical » trouve son origine dans la sémiologie du philosophe américain

Charles Sanders Peirce (cf. notamment Peirce 1955). Habitué à une approche trichotomique,

Peirce propose une typologie des signes fondée sur un ensemble de trios orthogonaux de

propriétés ; les signes peuvent ainsi être :

• des « qualisignes » (désignant une qualité), des « sinsignes » (désignant des états ou

des événements) ou des « legisignes » (désignant des habitudes, des conventions ou

des lois) ;

• des « icones » (tirant leur signification d’une ressemblance avec leur référent), des

« indexicaux » (qui entretiennent une relation « réelle », souvent de causalité, avec

leur référent) ou des « symboles » (qui entretiennent une relation conventionnelle avec

leur référent) ;

• des « sumisignes » (ou « signes rhématiques », de nature

prédicationnelle/relationnelle), des « dicisignes » (de nature propositionnelle) ou des

« suadisignes » (de nature argumentale).

Les « indexicaux », qui nous intéressent ici, sont ainsi enfermés au sein d’une

trichotomie qui les oppose aux signes iconiques et aux signes symboliques. L’un des

exemples d’« indexicaux » donnés par Peirce est la fumée qui entretient une relation réelle

causale avec le feu. Sur un plan plus linguistique, Peirce propose de considérer l’adverbe

« here » comme un « indexical » entretenant une relation réelle de location avec le lieu

d’énonciation ; on retrouve ici l’idée fondamentale de dépendance des formes indexicales vis-

à-vis de leur contexte de production : pour que la relation unissant l’« indexical » à son


61

+ -

référent soit une relation réelle au sens de Peirce, il faut nécessairement que ce référent soit un

élément de la situation d’énonciation.

On le voit, si la distinction avec les signes iconiques est relativement aisée, dès que l’on

aborde le domaine des signes linguistiques, démêler l’importance de la convention (et donc du

statut de « symbole ») de celle de la relation réelle semble plus délicat. Comme le soulignent

par exemple David Kaplan (Kaplan 1989) ou John Perry (Perry 1993), les expressions

indexicales semblent mêler systématiquement une part de conventionalité à leur dépendance

au contexte. C’est cette position que nous allons adopter dans le reste de cette section. Se pose

alors naturellement, comme nous l’avons suggéré plus haut, le problème des relations entre

deixis et indexicalité.

Un exemple de proposition opposant deixis et indexicalité est à trouver dans Charolles

2002 (cf. particulièrement chapitre VII, §2) qui organise les « pronoms de dialogues » en tant

que formes déictiques en français sur un axe décroissant d’indexicalité, du pronom de

première personne du singulier aux pronoms de première et deuxième personne du pluriel en

passant par un degré intermédiaire occupé par le pronom de deuxième personne du singulier

(cf. figure 1 ci-après). L’indexicalité est alors une propriété graduelle des déictiques

correspondant à leur adhérence à la situation d’énonciation (pp. 213-214).

Indexicalité

je tu/vous nous/vous

Figure 1: Gradient d’indexicalité pour les « pronoms de dialogue » (Charolles

2002 : p. 213)

Pour sa part, Nunberg 1993 définit les formes indexicales de la manière suivante :

« Indexicals are generally defined as expressions whose interpretation requires the identification of

some element of the utterance context, as stipulated by their lexical meanings. » (Nunberg 1993 :

p. 2)

Définition inspirée de celle de Kaplan 1989 :

« What is common to [indexicals] is that the referent is dependent on the context of use and that

the meaning of the word provides a rule which determines the referent in terms of certain aspects

of the context. » (Kaplan 1989 : p. 490)

Nunberg 1993, présente ensuite la deixis comme l’un des trois composants de

l’indexicalité (la présentation reproduite ci-dessous se fait dans le cadre du pronom we) :


62

« […] the meaning of we has three components. The first is the "first-person" component, which

picks out the speaker or speakers of one of its occurrences. I will call this the deictic component of

the expression, a function from occurrences or utterances of an expression to elements of the

context of utterance. […] we would assign the same deictic component to the forms now,

nowadays, ago, and so forth, or to French tu and vous.

[…] The second component of the meaning of we consists of the features of plurality and animacy.

Features like these I will call the classificatory component of the expression. In general, the

classificatory component of an expression is associated with its interpretation, rather than with its

index. In addition to features like number and animacy, the classificatory component may include

inflectional features like grammatical and natural gender and the content of the descriptors in

phrases like that car, we linguists, and so forth.

Finally, there is what we can think of as the relational component of the indexical, which

constrains the correspondence that has to hold between the index and the interpretation. With we,

the relational component stipulates that the index must be included in, or more generally, must

instantiate the interpretation. […] Note that this restriction does not apply to the indexical uses of

third-person pronouns, which have no explicit relational component […]. » (Nunberg 1993 : pp. 3-

4)

A première vue, les propositions de Charolles 2002 et Nunberg 1993 pourraient sembler

antagonistes ; elles nous paraissent néanmoins compatibles. Un tel rapprochement requiert

non seulement une analyse de l’identité potentielle des concepts utilisés (Charolles 2002 et

Nunberg 1993 parlent-ils de la même chose lorsqu’ils parlent de deixis et d’indexicalité ?),

mais aussi une étude des relations que ces deux concepts semblent entretenir.

Qu’en est-il donc des concepts employés par ces deux auteurs ? Si l’on comprend le

concept d’adhérence à la situation comme une forme de lien indissociable, nous constatons

que cette conception véhicule fondamentalement une notion de dépendance des formes

indexicales vis-à-vis du contexte dans le cadre de l’attribution de leurs référents : la

dénotation des unités indexicales est alors obtenue par une action conjuguée du sens lacunaire

de ces dernières et de données situationnelles au sens large. C’est précisément cette vision que

l’on retrouve dans les définitions de Nunberg 1993 et Kaplan 1989 qui parlent respectivement

de « sens lexical » (« lexical meaning ») et de règle (« rule ») comme entrant en relation avec

des éléments situationnels (Nunberg 1993 parle de « some element of the utterance context »

et Kaplan 1989 de « certain aspects of the context »). L’indexicalité semble donc bien

impliquer pour Charolles 2002 et pour Nunberg 1993 une relation de dépendance à la

situation d’énonciation, dépendance dont l’intensité serait modulée par le contenu sémantico-

pragmatique propre aux unités indexicales.


63

L’accommodation des vues des deux auteurs concernant la nature des relations précises

qu’entretiennent deixis et indexicalité pourrait sembler plus délicate. On notera cependant que

rien n’exclut explicitement une extension de l’échelle d’indexicalité proposée par Charolles

2002 au-delà de la deixis, catégorie qui ne l’épuiserait alors pas en totalité : la décroissance de

l’échelle indexicale n’atteignant pas de niveau 0 explicite dans la présentation donnée dans

Charolles 2002, on peut fort bien postuler qu’elle continue de décroître une fois franchies les

frontières du domaine des formes déictiques. Cette hypothèse va dans le sens de la

proposition de Bar-Hillel 1954 qui indique que 90% des énoncés déclaratifs produits en

Anglais sont indexicaux ; dans ce cas de figure (et même si la proportion suggérée semble

difficile à vérifier20), il va alors de soi que le phénomène de l’indexicalité dépasse en étendue

celui de la deixis qui n’en serait alors plus qu’un cas particulier. Cette proposition est

conforme à la position de Nunberg 1993 qui parle d’« indexicalité forte » pour le phénomène

de deixis.

Il semblerait donc au terme de ce parcours que l’on puisse considérer le concept

d’indexicalité comme englobant celui de deixis ou, réciproquement, la deixis comme une

sous-catégorie de l’indexicalité. Mais, plus intéressant encore, il est alors possible de

s’interroger sur la nature du complémentaire de la deixis au sein de l’ensemble indexical.

Récanati 2002, s’appuyant sur Nunberg 1993, propose l’unification des procédures déictique

et anaphorique impliquant des pronoms ; ces deux phénomènes, deixis et anaphore constituent

ainsi les deux sous-ensembles de l’indexicalité :

« In the version of the pragmatic theory I have outlined, anaphoric uses of pronouns turn out to be

very similar to deictic uses. Like deictic uses, anaphoric uses are ‘indexical’ in the rather strict

sense discussed by Nunberg: their content is contextually determined in terms of some feature of

the situation of utterance (the index). » (Récanati 2002 : p. 28)

Nous allons donc logiquement nous tourner à présent vers une étude des relations

qu’entretiennent la deixis et l’anaphore en tant qu’unités indexicales.

2.3 Deixis et anaphore an tant que phénomènes indexicaux (Q2)

Nous l’avons vu, deixis et anaphore sont unies par deux propriétés communes :

l’absence d’autonomie référentielle et l’indexicalité. Quelles sont alors les propriétés qui les

distinguent ? Quelles relations entretiennent ces deux phénomènes ?

20 Nous soulignerons plus loin dans ce chapitre les difficultés liées à l’inventaire des formes déictiques et/ou

indexicales.


64

Nombreuses sont les approches qui considèrent l’anaphore comme un produit dérivé de

la deixis. On pourra à titre d’exemple s’appuyer sur Lyons 1975 :

« The anaphoric use of pronouns and adverbs is secondary to their basic function as deictics …

Anaphora involves the transference of what are basically deictic, and more specifically spatial,

notions to the temporal dimension of the context of utterance and the reinterpretation of deictic

existence in terms of what might be called textual existence. The referent of course does not exist

in the text. But it is located in the universe of discourse (which derives its temporal structure from

the text) by means of an antecedent expression which either introduces or identifies a referent.

Subsequent reference to this referent by means of an anaphoric expression identifies the referent in

terms of the textual location of the antecedent. » (Lyons 1975 : pp. 81-82, cité dans Cornish 1999 :

p. 25).

Ce postulat de la primauté de la deixis sur l’anaphore est fondé sur deux types

d’arguments principaux :

• la première catégorie d’arguments repose sur l’aspect évolutif de ces phénomènes, tant

en ontogenèse qu’en phylogenèse. Nous parlerons par la suite d’approche

« chronologique ».

• la seconde catégorie d’arguments s’appuie sur les propriétés propres à chaque

phénomène et postule que l’anaphore constitue une abstraction langagière du

phénomène fondamental que serait la deixis (c’est cette position que l’on trouve par

exemple dans la citation précédente de Lyons 1975). Nous parlerons ici d’approche

« abstractionniste ».

Ces deux types d’arguments sont évidemment compatibles et servent d’ailleurs souvent

de justification l’un à l’autre ; nous nous proposons de les passer tous deux en revue,

commençant notre étude par l’argumentation « chronologique » avant de nous tourner vers

l’argumentation « abstractionniste ».

2.3.1 Approche chronologique

Phylogenèse

Du point de vue de la phylogenèse, il est intéressant de constater que les évolutions des

formes couramment liées à l’anaphore en français et en anglais (déterminants (articles définis

et adjectifs démonstratifs) et pronoms) sont similaires. Nous expliciterons ce constat en

quelques lignes, présentant l’évolution du système de l’article, des démonstratifs et des

pronoms, dans un premier temps pour le français, puis pour l’anglais.


65

Nous noterons tout d’abord que l’article défini en français (et dans les langues romanes

en général) constitue une nouveauté par rapport au latin classique. Ainsi, en français, les

articles le et la proviennent respectivement des pronoms / adjectifs démonstratifs ille et illa ;

de même en castillan pour el et la (plus un neutre lo < illud), en italien pour il et la (ainsi que

lo, neutre, < illud), etc.

Concernant les démonstratifs, l'ancien français connaît principalement deux formes,

issues des formes latines iste et ille renforcées : ecce ille (qui donne cil, cel, celle), et ecce iste

(qui donne cest, cette). Le français contemporain a conservé les formes en el pour le pronom

démonstratif (celui, celle), et les formes en et pour l’adjectif démonstratif (cet, cette).

Même s’ils n’étaient que rarement utilisés au nominatif (hors cas d’emphase), les

pronoms personnels latins sont à l’origine des pronoms personnels en français contemporain

pour les deux premières personnes. Concernant la troisième personne, l’origine est à trouver

dans le démonstratif ille (avec ses genres et sa déclinaison) : celui-ci a donné aussi bien les

formes sujets (il, elle) que les formes compléments (le, la, lui) : ille (sous la forme illi) perd sa

2ème syllabe en position sujet et perd la 1ère en position régime ; indirect, il est tonique (datif

barbare illui au lieu de illi > ellui > lui) ; concernant le féminin, on notera l’évolution

suivante : illa > ella > ele.

On peut donc dire en résumé que les principales formes anaphoriques du français

(article défini, démonstratifs et pronoms de troisième personne) sont issues des formes

démonstratives du latin. Cette évolution permet de postuler une genèse du fonctionnement

anaphorique de ces unités à partir de la fonction premièrement déictique associée au

démonstratif ; en d’autres termes, le fonctionnement anaphorique des unités du français serait

apparu suite à une évolution du fonctionnement déictique qui en est la source. C’est aussi

cette origine commune qui encourage par exemple A. Zribi-Hertz 2003 (p. 7) à affirmer à la

suite de G. Guillaume (1919/1975 : p. 16) que « les articles définis du français sont des

pronoms ».

Tournons-nous à présent vers l’anglais, et plus particulièrement vers l’évolution de

l’article défini. On notera que l’article défini anglais est, tout comme son homologue français,

le résultat de l’évolution du démonstratif (cf. Lyons 1977 : pp. 653-654). En effet, le vieil

anglais possédait, en plus d’un démonstratif spécifiquement déictique (þes/þis/þeos), un

« démonstratif-article » (se/seo/þzt) qui a donné naissance à l’article défini de l’anglais

contemporain. L’adoption de /S/ a eu lieu au XIIème siècle pour les trois genres et la forme


66

þd'dérivée du nominatif masculin et dominante vers la moitié du XIIIème siècle) a donné

/C?/, orthographié « the » au XIVème siècle. Ceci nous donne l’évolution représentée dans la

figure 2 ci-dessous21 :

IE *so/*to > GC *that > VA se/seo/þzt > MA þd > AM/AC the

Figure 2 : Evolution de l’article défini anglais depuis l’indo-européen.

On notera avec F. Toupin 1998 qu’il est important de souligner l’étymologie différente

des adjectifs/pronoms démonstratifs « that » et « this ». En effet, si, comme nous l’avons

mentionné pour l’article défini, le démonstratif « that » est issu du « démonstratif-article »

(se/seo/þzt), « this » provient quant à lui du démonstratif spécifiquement déictique

(þes/þis/þeos) :

IE *so/*to > GC *that > VA se/seo/þzt > AM/AC that

IE *so/*to > GC *thasi > VA þes/þis/þeos > AM/AC these/this/those

Figure 3 : Evolution des adjectifs démonstratifs anglais depuis l’indo-européen.

Les pronoms personnels de l’anglais, finalement, sont eux aussi dérivés de la racine

indoeuropéenne *so/*to (adjectif démonstratif) ou *ko/*ki (pronom démonstratif), comme le

montre la figure 4 ci-dessous :

IE *ko/*ki > VA he > MA hee > AM/AC he

IE *ko/*ki > VA/MA > his/him > AM/AC his/him

IE *so/*sya (nom. Fém.) > GC *sjo > VA seo > MA heo/scho/she > AM/AC she

IE *ko/*ki > VA hie/hire > MA hir > AM/AC her

IE *ko/*ki > VA hit > MA (h)it > AM/AC it

Figure 4 : Evolution des pronoms personnels de troisième personne en anglais depuis l’indo-

européen.

Ce rapide survol du développement phylogénétique des formes anaphoriques de

l’anglais montre donc, comme pour le français, une origine strictement déictique (par le biais

des formes démonstratives). Le vieil anglais semble même constituer une phase intermédiaire

21 Abbréviations utilisées dans les schémas 2 et 3 : IE : indo-européen / GC = germanique commun / VA = vieil

anglais / MA = moyen anglais / AM = anglais moderne / AC = anglais contemporain.


67

avec son « démonstratif-article » (se/seo/þzt), dérivé d’un démonstratif unique du

germanique commun mais se scindant dès le stade de l’anglais moderne pour donner le

démonstratif « that » et l’article défini « the ».

En résumé, pour le français comme pour l’anglais, les formes anaphoriques typiques

sont issues de formes déictiques, laissant ainsi penser qu’à l’échelle des langues le phénomène

de deixis constitue une primitive à partir de laquelle l’anaphore a pu se développer.

Ontogenèse

Concernant le versant ontogénétique de l’approche développementale, nous allons nous

appuyer principalement sur la référence que constituent les travaux de Karmillof-Smith (1979,

1980 et 1985), repris dans de nombreux ouvrages dont Apothéloz 1995 ou encore Cornish

1999.

La démarche de Karmiloff-Smith se fonde sur une analyse fine non seulement des

formes produites par les sujets, mais aussi des fonctions associées à ces formes dans le

discours. C’est cette méthodologie qui fait tout l’intérêt des travaux de Karmiloff-Smith et les

différencie de travaux antérieurs (cf. Brown 1973 ou Maratsos 1976), fondés sur un inventaire

des formes.

Appuyant son analyse sur une série d’expériences (de type narration à partir d’images)

réalisée avec des enfants francophones (Karmiloff-Smith 1979), Annette Karmiloff-Smith

propose trois stades développementaux dans l’acquisition des fonctions liées aux

déterminants22 :

• Lors de la première phase, entre trois et cinq ans, l’enfant utilise :

o l’indéfini dans le cadre de dénominations (opérations d’étiquetage),

o et le défini de manière déictique, souvent accompagné d’un geste pointeur, et

destiné à attirer l’attention de l’interlocuteur sur un élément présent. Ce

comportement est notamment observé dans le cadre de la désignation d’un

référent au sein d’un ensemble. De manière alternative, l’enfant utilise aussi

dans ce cas une description d’attributs par post-détermination (structure du

type « le/la + Nom + Adj. »).

22 Nous fondons notre compte-rendu sur Apothéloz 1995 : pp. 80-85, Cornish 1990 : pp. 83-84 et Cornish 1999 :

pp. 23-25.


68

• Certaines modifications se produisent lors de la deuxième phase, entre cinq et huit

ans :

o L’opposition fonction dénominative / fonction déictique se stabilise pour les

formes d’indéfini et de défini respectivement ;

o la systématisation de l’opposition des marques du singulier et du pluriel se met

en place, mais de manière conjointe avec l’opposition entre dénomination

(indéfini) et deixis (défini) : l’indéfini pluriel (« des ») est alors utilisé pour la

dénomination de plusieurs éléments ; le défini pluriel (« les ») sert à attirer

l’attention sur plusieurs éléments présents.

• Lors de la troisième phase, entre huit ans et douze ans, l’enfant va finaliser son

système :

o L’indéfini pluriel acquiert la fonction d’inclusion de classe et le défini pluriel,

celle de totalisation (et peut donc exprimer la pluralité ou la totalité) ;

o l’indéfini commence à être utilisé dans le cadre de la référence non

spécifique et le défini dans le cadre de la référence anaphorique ;

o les marques de surdétermination disparaissent (« le même + Nom » pour la

référence anaphorique et « tous les + Nom » pour la totalité).

Les études proposées par Maya Hickmann (notamment 1984 et 1987) sont dans la

lignée de celles de Karmiloff-Smith et en soulignent la pertinence notamment concernant

l’analyse détaillée des fonctions associées aux formes produites par l’enfant. L’un des

arguments avancés, en effet, consiste à dénoncer la similarité « de surface » entre les

expressions référentielles de l’enfant et celles de l’adulte sur laquelle nombre d’études se sont

fondées. Comme le montre les travaux de Hickmann, les fonctions associées à ces formes sont

souvent différentes pour l’enfant et pour l’adulte et il est donc indispensable de prendre en

considération la situation de production afin de pouvoir en donner un compte-rendu fiable.

C’est dans cette objectif que Hickmann a proposé une méthodologie permettant non

seulement de distinguer les fonctions associées aux expressions référentielles utilisées, mais

aussi de suivre l’évolution des expressions utilisées pour renvoyer à un référent au cours d’un

discours donné plutôt que de se contenter d’une liste d’éléments présentés comme

indépendants. Le protocole utilisé (cf. Hickmann 1987 et Hickmann 1991 pour une critique du

protocole utilisé dans Karmiloff-Smith 1980) consiste à demander à l’enfant de raconter une


69

série ordonnée d’images représentant une courte histoire à un interlocuteur adulte qui ne la

connaît pas et ne peut pas voir les images. L’adulte doit ensuite raconter cette histoire à son

tour avec l’aide de l’enfant.

Concernant le maintien de la référence, Hickmann 1987 remarque une évolution

significative entre les trois âges étudiés (quatre, sept et dix ans).

A quatre ans, l’enfant utilise déjà une proportion importante de pronoms et anaphores

zéro (51 % pour la série d’images A et 44 % pour la série B) pour le maintien de la référence.

Ce qui caractérise cependant ce stade est la tendance de l’enfant à s’appuyer fortement sur la

situation représentée par chaque image, notamment par l’emploi de dénominations et de

réitérations de syntagmes définis.

Les dénominations sont fréquentes (23 % ou 15 % selon la série d’images) et souvent

accompagnées de gestes et d’adverbes spatiaux du type « here » ou « there ». L’extrait

suivant montre ce type de stratégie :

« Horse. A horse is running. […] and a … horse and a cow. […] And a horse is … still running.

[…] Horse fell down… » (extrait de Hickmann 1987 cité dans Apothéloz 1995 : p.85)

Il est particulièrement intéressant de noter ici l’utilisation de l’adverbe « still » qui

conforte l’hypothèse du maintien de la référence : c’est bel et bien le même cheval qui est

désigné par l’enfant, malgré l’usage de l’indéfini dans cette stratégie clairement déictique,

fondée sur chaque image prise séparément comme situation.

Le stade correspondant à l’âge de sept ans est caractérisé par une augmentation

significative du nombre de formes pronominales et d’anaphore zéro (73 % contre 51 % à

quatre ans pour la série A). Le maintien de la référence est cependant encore souvent assuré

par l’utilisation de syntagmes définis, y compris lorsque l’utilisation d’un pronom serait

justifiée. C’est ce que nous pouvons voir dans l’extrait suivant :

« It’s a pony running and the pony sees a pal, the pony jumps over the… the fence and then […]

the pony falls and hurts his legs so the cow bandages the pony’s leg. » (extrait de Hickmann 1987,

cité dans Apothéloz 1995 : p. 87)

La stratégie employée ici ne consiste plus à décrire les images comme si elles avaient

été présentées isolément, mais on est sans doute encore proche des emplois déictiques du

défini proposés par Karmiloff-Smith.

A dix ans, l’enfant utilise une proportion encore plus importante de pronoms et

d’anaphore zéro (80 % pour la série A) pour le maintien de la référence et n’a absolument


70

plus recours aux dénominations dans ce contexte. Ces résultats peuvent être résumés à l’aide

du tableau 2 ci-dessous :

Dénominations Syntagmes définis Pronoms et anaphore zéro Âges

Série A Série B Série A Série B Série A Série B

4 ans 23 15 26 41 51 44

7 ans traces 24 53 76 47

10 ans 0 20 46 80 54

Tableau 2 : Proportions (en pourcentage) des expressions utilisées pour le maintien de la

référence d’après Hickmann 1987.

Si nous nous intéressons à la série d’images A, destinée à favoriser la référence

anaphorique par la saillance du protagoniste principal, nous remarquons deux phénomènes

principaux :

• La proportion de pronoms anaphoriques et d’anaphores zéro croit avec l’âge (et

présente une rupture significative entre quatre et sept ans, mais pas entre sept et dix

ans) ;

• La proportion de syntagmes définis décroît avec l’âge (ceci est conforme avec

l’observation précédente), mais ne présente pas la rupture observée entre quatre et sept

ans pour les pronoms anaphoriques et les anaphores zéro. Cette tendance ne

correspond pas à une utilisation progressivement anaphorique des ces syntagmes

nominaux, mais sans doute plutôt à l’absorption de la fonction déictique assumée à

quatre ans par les dénominations.

Dans le cadre qui nous intéresse ici, nous retiendrons que les travaux de Karmiloff-

Smith et de Hickmann montrent une maîtrise tardive de la fonction anaphorique, qu’elle soit

attachée à l’usage du défini (surtout au troisième stade chez Karmiloff-Smith) ou aux

pronoms et aux anaphores zéro (chez Hickmann). Les âges les plus jeunes correspondent ainsi

à l’emploi prédominant de fonctions déictiques avant une mise en place progressive des

fonctions anaphoriques attachées aux expressions. On peut donc considérer dans ce contexte

que la deixis est un procédé référentiel plus fondamental du point de vue de l’ontogenèse et

qu’elle constitue la base sur laquelle se développent les usages anaphoriques.


71

Les hypothèses avancées pour expliquer ce phénomène s’appuient sur l’acquisition

d’une stratégie de « textualisation » (Karmiloff-Smith 1980 et 1985) qui consiste, comme l’a

proposé aussi Hickmann, à « se servir du langage pour contextualiser le langage » (Hickmann

1987 : p. 239). On retrouve là une vision cohérente avec l’approche abstractionniste que nous

allons à présent étudier.

2.3.2 Approche abstractionniste

L’argumentaire proposé par Hickman, à bien y regarder, s’appuie explicitement sur une

notion abstractionniste impliquant une complexité croissante lorsque l’on quitte la catégorie

de la deixis pour entrer dans celle de l’anaphore : le langage n’est alors plus un simple outil de

description du (ou d’action sur le) monde mais est intégré au contexte d’interprétation du

langage lui-même.

Une seconde approche abstractionniste est à trouver dans les travaux de Lyons

(notamment Lyons 1968 et 1977) qui présentent un argumentaire détaillé de la structuration

des catégories de la deixis. Nous allons dans un premier temps considérer ici les trois

catégories les plus consensuelles que sont la deixis personnelle, la deixis spatiale et la deixis

temporelle.

L’argument fondamental qui nous intéresse ici concerne le caractère premier de la

deixis personnelle vis-à-vis des autres catégories de deixis ; en effet, comme le souligne

Levinson à propos de la deixis temporelle :

« Like all aspects of deixis, time deixis makes ultimate reference to participant-role. Thus as a first

approximation […], now can be glossed as ‘the time at which the speaker is producing the

utterance containing now’. » (Levinson 1983 : p. 73)

Nous allons donc analyser la structuration de la deixis en commençant par la deixis

personnelle avant d’étendre notre étude à la deixis spatiale et à la deixis temporelle. Nous

terminerons ensuite par une réflexion sur la place de l’anaphore au sein de cette organisation

hiérarchique.

La deixis personnelle, comme le soulignait déjà Jespersen en 1922 par le biais du terme

« shifter », est caractérisée par une réversibilité des rôles de participants dénotés par les

pronoms de première et de deuxième personne (Benveniste 1946/1966 ; Lyons 1968 et 1977 ;

Levinson 1983 et 2004). Le second élément fondamental de la deixis personnelle réside dans

sa structuration interne. En effet, on pourra considérer avec Benveniste une relation

fondamentale opposant « je » central à « tu », construit par opposition à « je » :


72

« Il y a donc lieu de constater une opposition de « personne-je » à « personne non-je ». Sur quelle

base s’établit-elle ? Au couple je/tu appartient en propre une corrélation spéciale, que nous

appellerons, faute de mieux, corrélation de subjectivité. Ce qui différencie « je » de « tu », c’est le

fait d’être, dans le cas de « je », intérieur à l’énoncé […] ; en outre, « je » est toujours

transcendant par rapport à « tu ». Quand je sors de « moi » pour établir une relation vivante avec

un être, je rencontre ou je pose nécessairement un « tu », qui est, hors de moi, la seule « personne »

imaginable. Ces qualités d’intériorité et de transcendance appartiennent en propre au « je » et

s’inversent en « tu ». On pourra donc définir le « tu » comme la personne non-subjective, en face

de la personne subjective que « je » représente […]. » (Benveniste 1966 : p. 232)

Levinson 1983 (p. 69) et 2004 (p. 133), à la suite de Lyons 1968 (pp. 470-481), propose

quant à lui de décrire le système déictique personnel en utilisant deux traits distinctifs : le trait

S, qui note l’inclusion du locuteur (« speaker ») et le trait A (« addressee ») notant l’inclusion

de l’interlocuteur. Dans ce contexte, « je » est donc caractérisé (+S, -A) et « tu » (-S, +A). Il

est cependant intéressant de remarquer que le trait A est défini en fonction de l’acte primaire

réalisé par le locuteur et dont il n’est que le destinataire. La deixis personnelle semble donc

fondamentalement s’organiser autour d’un « je » référence absolue à partir duquel se définit

un « tu » par altérité.

Concernant la deixis spatiale, nous distinguerons deux types d’expressions selon que

ces dernières impliquent ou non un recours à des unités conventionnelles non-déictiques

d’organisation spatiale (voir par exemple Fillmore 1975 : pp. 16-28 ; Lyons 1977 : pp. 690ff).

On a ainsi d’une part des expressions déictiques spatiales pures (« ici », « here », etc.) et des

expressions déictiques spatiales complexes ou composites (telles que « à deux cents mètres

d’ici » ou « fifty yards away »). On déduira donc de cette dualité une structure

fondamentalement organisée autour de la deixis spatiale pure et comportant en sa périphérie la

deixis spatiale complexe.

Nous constaterons de plus (cf. Lyons 1977 : chapitre XV) que la structuration de la

deixis spatiale pure est avant tout anthropomorphique : l’asymétrie observée entre la partie

haute et la partie basse du corps serait ainsi à l’origine de la première dichotomie déictique

spatiale entre « en haut » (au dessus du locuteur) et « en bas » (en dessous du locuteur) ; pour

des raisons similaires, la dichotomie « devant » / « derrière » serait aussi l’une des plus

observées (par exemple par rapport à l’opposition « à gauche » / « à droite »). Les adverbes

« here » et « there » sont eux aussi définis par rapport à la position du locuteur, centre du

référentiel spatial.


73

La deixis temporelle, finalement, adopte un comportement similaire à celui de la deixis

spatiale (Levinson 1983 : p. 73) : elle aussi comporte une composante pure (avec des

expressions telles que « maintenant » ou « now ») et une composante complexe mêlant deixis

temporelle pure et unités conventionnelles (avec des expressions telles que « aujourd’hui » ou

« today »).

Même la deixis temporelle pure présente une structure dérivée de la deixis spatiale,

comme on peut le voir (cf. Anderson & Keenan 1985 : p. 298 ; Levinson 2004 : p. 137) avec :

• l’utilisation de prépositions spatiales (« à midi », « in / on time », « on Monday »,

etc.) ;

• l’utilisation de démonstratifs spatiaux (« cette semaine », « this month », etc.) ;

• la dichotomie « now » / « then », parallèle à « here » / « there » ;

• la métaphore d’un temps mouvant (« la semaine passée », « the coming week », etc.) ;

• ou encore l’origine des adverbes tels que « after » dérivé du vieil anglais « æfter »,

« derrière » du germanique commun *aftar-.

Pour résumer, on pourra donc considérer que la deixis toute entière s’organise

fondamentalement autour de « je », élément premier de la deixis personnelle ; vient ensuite la

deixis spatiale, dérivée de cette dernière, puis la deixis temporelle, elle-même appréhendée

comme une abstraction de la deixis spatiale.

Concernant la relation deixis-anaphore dans le cadre de la personne grammaticale,

Benveniste 1966 (pp. 231-232) propose une double relation imbriquée opposant d’une part la

première personne à la deuxième (« corrélation de subjectivité » mentionnée plus haut) et

d’autre part le couple première-deuxième personne à la non-personne dont « il » représente

l’archétype (« corrélation de personnalité ») :

« On voit maintenant en quoi consiste l’opposition entre les deux premières personnes du verbe et

la troisième. Elles s’opposent comme membres d’une corrélation, qui est la corrélation de

personnalité : « je-tu » possède la marque de personne ; « il » en est privé. La « troisième

personne » a pour caractéristique et pour fonction constantes de représenter, sous le rapport de la

forme même, un invariant non-personnel, et rien que cela. » (Benveniste 1966 : p. 231)

De manière comparable, Lyons 1977, suivi par Levinson (1983 : p. 69) et 2004 : p.

133), propose de décrire le pronom de troisième personne à l’aide de la matrice de traits (-S, -

A), soit personne non-locuteur et non-interlocuteur. On peut donc considérer que d’un point


74

« I » « you »

Anaphore

« s/he »« it »

de vue conceptuel, l’anaphore, notamment représentée par le pronom de troisième personne,

constitue un phénomène construit par contraste vis-à-vis du phénomène plus fondamental de

la deixis personnelle. Cette proposition de structuration est représentée dans la figure 5 ci-

dessous :

Figure 5: Structure des systèmes déictiques personnel, spatial et temporel pour l’anglais

(la structure est identique pour le français).

2.4 Synthèse

En résumé, on pourra dire que les phénomènes de deixis et d’anaphore sont tous deux

fondés sur un principe de fonctionnement indexical (cf. Nunberg 1993 et Récanati 2002) qui

correspond à une procédure binaire consistant à se donner un index dans le contexte global de

communication (situation ou co-texte respectivement) avant de pouvoir accéder au référent

visé. La première distinction ainsi opérée consiste à considérer le site de l’index comme

élément déterminant : la deixis implique un index dans la situation personnelle, spatiale,

temporelle, textuelle ou discursive, alors que l’anaphore implique traditionnellement que son

index soit présent dans le texte et lui seul.

Nous allons à présent passer en revue quelques uns des problèmes classiques attachés à

cette vision de l’anaphore et de la deixis après avoir mis en évidence quelques uns des écueils

rencontrés par la théorie milnérienne de l’anaphore.

Deixis spatiale

Deixis personnelle

« here » « this »

« now »

« there »« that »

« then »

Deixis temporelle


75

3 Principaux problèmes des descriptions classiques

3.1 La théorie milnérienne

Dans cette section, nous allons tenter de montrer les problèmes posés par l’approche

milnérienne de l’anaphore, non pas en tant que telle, mais en tant que représentante explicite

d’une interprétation « localiste » (Charolles 1992) ou « antécédentiste » (Apothéloz 1995) du

phénomène.

3.1.1 Saturation sémantique

Le concept de saturation sémantique, rappelons-le, est selon Milner 1989 lié à la

capacité d’une expression nominale à obtenir une référence actuelle sur la base de sa

référence virtuelle : ainsi, plus la référence virtuelle d’une expression est complexe, plus cette

expression est saturée sémantiquement et plus elle sera à même d’avoir une référence actuelle

en contexte sur la base de cette référence virtuelle. On pourrait alors penser que la saturation

sémantique et la capacité à obtenir une référence actuelle en contexte sont deux aspects d’un

phénomène unique.

Il n’en est rien car, comme le montre l’exemple des pronoms de première et de

deuxième personne, des expressions peuvent avoir une garantie de référence actuelle sans

pour autant être dotées d’une forte saturation sémantique. De manière complémentaire, une

expression saturée sémantiquement, telle qu’une description définie du type « le chapeau mou

gris », n’a aucune chance de pouvoir obtenir une référence actuelle sans prendre en

considération des éléments situationnels au sens le plus large (coordonnées spatio-

temporelles, intentions du locuteurs, …)23.

Face à ce constat, Moeschler & Reboul (1994 : p. 361-372) propose de complémenter la

notion de saturation sémantique par celle de saturation référentielle :

« Une expression référentielle donnée est saturée référentiellement si, étant donné un contexte et la

référence virtuelle de l’expression en question, on peut lui attribuer un référent. » (Moeschler &

Reboul 1994 : p. 362)

Cette proposition constitue selon nous une tentative forcenée de sauvetage du concept

de référence virtuelle ; en effet, il nous semble plus approprié, comme le soulignent eux-

mêmes les auteurs dans le cade de la référence déictique (ibid. : pp. 364-365), de remplacer

23 On reconnaît ici le problème, classique en philosophie du langage, de l’incomplétude des descriptions définies.


76

concept de référence virtuelle par le couple « signification conceptuelle » / « signification

procédurale » (Blakemore 1987 ; Sperber & Wilson 1990). Nous détaillerons cette position

plus loin dans ce travail de thèse (cf. chapitre 4, §1.1.1).

3.1.2 L’anaphore pronominale : coréférence et reprise

Rappelons-le, la définition milnérienne de l’anaphore pronominale est fondée sur les

deux concepts que sont la coréférence et la reprise :

« Prise en elle-même, l’anaphore pronominale usuelle n’est rien d’autre que la combinaison de la

coréférence et de la reprise. » (Milner 1982 : p. 20)

Nous l’avons vu (§ 1.2.1), c’est la coréférence virtuelle qui occupe en fait une place

centrale dans la théorie milnérienne de l’anaphore pronominale : en termes triviaux,

qu’importe la coréférence actuelle pourvu que l’on ait la coréférence virtuelle … Le problème

des référents dits évolutifs, cependant, pose un problème majeur à cette position. Examinons

l’un des exemples donnés par Kleiber à ce propos :

« Prenez quatre pommes. Pelez-les, coupez-les et évidez-les. Faites-les cuire pendant ½ heure.

Broyez-les jusqu’à ce qu’elles soient complètement réduites et, après les avoir laissées refroidir,

servez-les avec des petits gâteaux. » (Kleiber 1997 : p. 12)

Dans cet exemple, le pronom final « les » de « servez-les » n’entre évidemment pas

dans une relation de coréférence actuelle avec l’expression « quatre pommes » du début du

passage. Mais force est de constater qu’il n’y a pas non plus dans ce cas de coréférence

virtuelle entre ces deux unités : la référence virtuelle du pronom final « les » de « servez-les »

n’est pas récupérée par transfert de celle de l’expression nominale « quatre pommes » ; si

référence virtuelle il y a, cette référence serait plutôt celle d’une expression telle que « quatre

pommes pelées, coupées, évidées, cuites pendant ½ heure, complètement réduites et

refroidies », absente en tant que telle du texte. On est donc ici en présence d’un cas

d’anaphore sans coréférence actuelle et sans coréférence virtuelle.

Le concept de reprise24 semble pour le moins nébuleux dans la théorie de Milner (cf.

Moeschler & Reboul 1994 : p. 354-356). Rappelons-nous néanmoins de la définition

présentée par l’auteur :



termes hétérogènes, l’un autonome, l’autre non-autonome. » (ibid., p. 19)

24 Le lecteur désireux d’approfondir cette notion lira Trouilleux 2001 avec profit.


77

La reprise est donc à comprendre comme une relation de dominance/dépendance entre

l’unité autonome anaphorisée et l’unité non-autonome (le pronom) qui l’anaphorise. Deux

cadres principaux peuvent être donnés à cette proposition : l’un syntaxique et l’autre

sémantique.

Dans un cadre syntaxique, cette relation n’est pas sans rappeler les principes

chomskiens de liage (Chomsky 1981) mentionnés en introduction ; nous répèterons alors que

ces contraintes, sont uniquement valides à l’intérieur du domaine de la phrase (unité

maximale de la syntaxe) ; or, comme le souligne justement Moeschler & Reboul 1994 :

« la coexistence dans une même phrase de deux termes référentiels, l’un pourvu d’autonomie

référentielle alors que l’autre en est dépourvu, n’implique en rien que ces deux termes soient liés

par une reprise, ni, à plus forte raison, par une anaphore. » (Moeschler & Reboul 1994 : p. 355)

L’exemple suivant montre une configuration de ce type :

Ex (16) Mathieui est très étonné. Jeanj a bu tout soni/j rosé.

Le possessif « son » est lié dans son domaine et peut donc fort bien référer à l’individu

désigné par le nom « Jean » (principe B). Mais on remarquera aussi que le référent de « son »

pourrait aussi fort bien être l’individu désigné par le nom « Mathieu » dans la phrase

précédente ; cette possibilité montre bien le caractère non nécessaire de la reprise au sein du

domaine phrastique.

Le second cadre interprétatif, sémantique celui-là, semble plus défendable : la relation

de reprise est alors liée au processus de saturation sémantique coextensif avec la récupération

de la référence virtuelle de l’unité autonome par l’unité non-autonome ; ce processus

n’implique pas de domaine d’application particulier et peut donc être considéré comme inter-

phrastique. Une telle conception, dans la droite file de la tradition « antécédentiste », se heurte

cependant à des cas d’anaphore sans antécédent linguistique explicite (anaphore situationnelle

par exemple, dont nous allons parler en § 3.2). La réponse classique (cf. Wiese 1983, cité dans

Cornish 1999) consiste à postuler l’existence d’un antécédent linguistique implicite dont le

genre (pour le français) et le nombre conditionnerait ceux de l’expression anaphorique.

Observons l’exemple (17) emprunté à Cornish 1999 :

Ex (17) [Dans une piscine découverte du Sud-Ouest de la France. Un client à l’accueil

s’adressant à F. Cornish qui partait :]

Elle est froide ?


78

Cet exemple confirme une tendance générale qui consiste à recourir par défaut à un nom

appartenant à la catégorie de base (« basic-level category » selon Rosch 1978) à laquelle le

référent désigné appartient ; dans ce cas précis, le terme féminin « eau » constitue la catégorie

de base pertinente et justifie donc le choix du pronom « elle » ; toutes choses étant égales par

ailleurs, un cabriolet sera ainsi par défaut désigné à l’aide du pronom « elle », justifié par le

recours à la catégorie de base « voiture ».

Il est cependant important de noter que ce mode de fonctionnement n’est qu’un mode

par défaut (Kleiber 1994) et que le locuteur peut fort bien choisir un nom super-ordonné (et

non pas le nom désignant la catégorie de base), comme le montre l’exemple suivant cité dans

Cornish 1999 (p. 136) :

Ex (18) [Chez un antiquaire : le vendeur rassure le client intéressé par un guéridon

endommagé]

Il est facile à réparer.

Cet exemple montre que les intentions du locuteur (flatteuses et commerciales en

l’espèce) peuvent l’amener à utiliser une forme anaphorique dont le genre ne correspond pas

avec celui du nom désignant la catégorie de base (« table »), mais plutôt, comme ici, avec le

genre du terme directement super-ordonné (correspondant à « guéridon » qui désigne la classe

dont l’élément présent est une occurrence)25.

Si l’on s’en tient à la vision strictement linguistique proposée par exemple par Wiese

1983 (ce qui n’est le cas ni dans Kleiber 1994 ni dans Cornish 1999), force est de constater

que la dépendance du pronom vis-à-vis de l’unité autonome qu’il est supposé anaphoriser

repose dans ces cas sur la convocation ex-nihilo (si l’on ne veut pas recourir à la situation

d’énonciation) de la référence virtuelle d’une unité autonome. En d’autres termes, cette vision

reviendrait à dire que le pronom obtient sa référence virtuelle de manière indirecte et

indépendamment du cotexte, ce qui est contraire au principe de reprise évoqué par Milner

1982.

On pourra résumer cette section en insistant sur le fait que la conception linguistique

stricte classique (« antécédentiste ») de l’anaphore dont Milner 1982 est un exemple n’arrive

pas à capturer l’ensemble des phénomènes correspondant aux différents types d’anaphores

25 L’objectif, comme l’explicite Cornish 1999 (p. 136), est ici sans doute de marquer l’appartenance commune

du locuteur et de l’interlocuteur à la communauté des amateurs d’antiquités.


79

rencontrés dans les discours avérés. Cette vision du concept d’anaphore semble donc

présenter quelques problèmes « absolus » ou « internes », aggravés, comme nous allons le

voir à présent, par un ensemble de problèmes liés à la relation contrastive que ce concept

entretient avec la deixis (nous parlerons de problèmes « relatifs » ou « externes »).

3.2 Deixis et anaphore

Nous l’avons suggéré, nombre d’études classiques sur l’anaphore et la deixis proposent

une vision qui consiste à considérer que les phénomènes d’anaphore et de deixis sont

respectivement liés au texte et à la situation d’énonciation. C’est par exemple la position de

Récanati 2002 (qui cite ici les démonstratifs comme éléments de la catégorie des déictiques) :

« For demonstratives the index is a position in space ; for anaphoric pronouns, it is a position in

‘discourse space’, i.e. an argument position articulated in the surrounding discourse […]. »

(Récanati 2002 : p. 28)

De manière similaire, la distinction (devenue classique) de Halliday & Hasan 1976 entre

« endophore » et « exophore » postule que :

• les déictiques sont « exophoriques » : ils signalent la nécessité de récupérer leur

référent dans la situation d’énonciation (Halliday & Hasan 1976 : p. 33) ;

• les anaphoriques sont « endophoriques » : ils signalent la nécessité de récupérer leur

référent à partir du texte (Halliday & Hasan 1976 : p. 33).

« We shall find it useful in the discussion to have a special term for situational reference. This we

are referring to as EXOPHORA, or EXOPHORIC reference; and we would contrast it with

ENDOPHORIC as a general name for reference within the text. » (Halliday & Hasan 1976 : p. 33)

La figure 6 ci-après est une reproduction du schéma présenté par Halliday & Hasan

illustrant cette distinction :


80

Reference

[situational] [textual]

exophora endophora

[to preceding text] [to following text]

anaphora cataphora

Figure 6 : Types de référence selon Halliday & Hasan 1976.

Deux familles principales de problèmes semblent pouvoir être identifiées au sein de

cette opposition classique deixis/anaphore :

• d’une part, la frontière entre formes déictiques et formes anaphoriques semble

mouvante et difficile à tracer et l’on en vient à se demander si ce sont des formes ou

des usages que l’on devrait classer sous chaque catégorie ;

• d’autre part, de nombreux cas d’usages déictique ou anaphorique semblent ne pas

suivre ces archétypes : il y a ainsi des cas de deixis dépendante du texte, mais aussi

des cas d’anaphore sans support textuel …

Nous allons donc traiter ces deux familles de problèmes de manière séquentielle, en

commençant notre étude par la thématique de la typologie des formes indexicales.

3.2.1 Typologie des formes indexicales

Premier constat, si l’on considère souvent qu’il existe des formes déictiques dédiées

(« indexicaux purs » tels que « je » et « tu » ; cf. Nunberg 1993), on ne peut pas considérer de

manière similaire que l’anaphore peut piocher dans un réservoir de formes spécifiques ;

comme nous l’avons précisé en introduction :

• les descriptions définies peuvent avoir des usages génériques en première mention ;

• les descriptions démonstratives peuvent être déictiques (elles sont même premièrement

déictiques pour nombre d’auteurs), notamment lorsqu’ils sont accompagnés d’un geste

ou d’une configuration prosodique particulière ;

• les pronoms (démonstratifs et personnels), dans les mêmes conditions que les

descriptions démonstratives, peuvent eux aussi être déictiques.


81

Il semble donc y avoir une dissymétrie marquée entre anaphore et deixis concernant la

possibilité d’une typologie privative. A bien y regarder cependant, on se rend compte du fait

que même les formes déictiques dites dédiées peuvent se voir soumises à des contraintes

textuelles, notamment dans le cas du discours rapporté au style direct (comme dans « Paul

m’a dit : " Je dois partir maintenant " » ou « je » ne renvoie pas au locuteur de l’énoncé

global)26.

On notera aussi inversement (cf. Mittchel 1986 ; Partee 1989 ou Nunberg 1993) que des

expressions insoupçonnées peuvent entrer dans la catégorie des déictiques : on pourrait ainsi

penser à des termes tels que « ennemi », « local », « nearby », etc. Considérons l’exemple

(19) ci-dessous emprunté à Nunberg 1993 :

Ex (19) The Times had every reporter cover a local athlete.

On peut donner à « local » trois interprétations selon qu’il est sous le contrôle :

• du sujet « The Times » : l’interprétation de « local » dépendrait donc de l’emplacement

de la rédaction du quotidien ;

• de l’expression quantifiée « every reporter » : l’interprétation de « local » serait alors

distribuée et dépendrait de l’emplacement de chaque journaliste ;

• de la situation d’énonciation : l’interprétation de « local » serait dans ce cas

équivalente à celle de l’expression « from around here ».

Ceci nous pousse à constater qu’un inventaire contrastif des formes déictiques et des

formes anaphoriques est inenvisageable si l’on prend en considération le vaste panel des

usages possibles. Une issue optimiste à ce problème consisterait à dire qu’il est en revanche

possible de présenter un ensemble fini des expressions indexicales : pronoms personnels et

démonstratifs, descriptions définies et descriptions démonstratives. Mais, comme nous venons

de le voir, des expressions comme « an enemy attack », qui n’appartient pas à cet inventaire,

comporte une dimension indexicale indéniable.

Il semble donc, même si les formes les plus communes constituent un ensemble fini et

relativement bien déterminé, que l’on doive raisonner en terme d’usage déictique ou

anaphorique d’expressions indexicales plutôt qu’en terme de formes spécifiques. Cependant, 26 Levinson 2004 rangerait sans doute cet usage dans la catégorie « transposé ». Notons que ce constat est à

l’origine de nombreux travaux énonciatifs dans le cadre de la polyphonie (on pensera par exemple à Ducrot

1984), thématique qui dépasse amplement le cadre de ce travail.


82

comme nous allons à présent le voir, tout ne s’arrange pas soudain avec ce changement de

perspective.

3.2.2 Typologie des usages indexicaux

Levinson 2004 (à la suite de Levinson 1983 et de Diessel 1999), dans le cadre d’une

analyse des démonstratifs comme représentants des formes déictiques, propose l’organisation

suivante des usages indexicaux :

Figure 7 : Classification des usages indexicaux selon Levinson 2004 (corrigé27).

« The relations between these uses are probably more complex thant this taxonomy suggests, but it

is clearly not sufficient to distinguish simply between exophoric (deictic) and endophoric (non-

deictic) at the highest branch […] since discourse deixis is intra-text but deictic, and empathetic

and recognitional uses are extra-text but non-deictic. » (Levinson 2004 : pp. 118-119)

En effet, une telle typologie des usages indexicaux, bien qu’elle soit plus détaillée que

celle esquissée précédemment, n’est pas sans poser de nombreux problèmes. Sans entrer trop

en détail dans le cœur de ce problème28, nous noterons tout de même qu’il existe certaines

catégories « frontière » dont l’existence même semble être la conséquence d’une tentative

d’accommodation.

C’est le cas notamment de la catégorie de la deixis textuelle, seule catégorie déictique à

ne pas être exophorique. Trois types de phénomènes assimilés à cette catégorie sont

particulièrement problématiques : 27 La version d’origine de ce schéma duplique à tort la catégorie anaphore, à la fois en tant que point terminal

frère de cataphore (ce qui est correct), et en tant que nœud parent de ces deux points terminaux (ce qui est selon

nous maladroit ou erroné). 28 Nous nous livrerons à une analyse détaillée de ces problèmes chapitre 4, § 1.1.2 et proposerons un certains

nombre de solutions liées à l’adoption d’une approche discursive.

endophoric


83

Le premier phénomène majeur problématique pour une typologie stricte des usages

indexicaux concerne des énoncés tels que celui présenté en (20) ci-dessous :

Ex (20) I’ve been living in San Francisco for 5 years and I love it here.

Cet exemple emprunté à Levinson 2004 (p. 99) semble constituer un cas intéressant,

considéré par certains locuteurs comme à la fois déictique et anaphorique ; le fonctionnement

déictique de « here », dans ce cadre, est présenté comme sous le contrôle de l’expression

anaphorisée « San Francisco ». Ce type de fonctionnement est contraire à la vision classique

qui exclut la possibilité de cumuler les usages déictique et anaphorique pour une occurrence

donnée29.

Les « pronoms de paresse » (« pronouns of laziness »), deuxièmement, identifiés à

l’origine par Geach 1962 (pp. 125ff), sont eux aussi problématiques ; l’exemple (21) ci-

dessous, emprunté à Karttunen et cité par Lyons 1977 (p. 673) donne un exemple de ce

phénomène :

Ex (21) The man who gave his paycheque to his wife was wiser than the man who

gave it to his mistress.

Dans cet exemple, le pronom « it » n’est pas coréférentiel avec « his paycheque », mais

réfère à ce à quoi une répétition de ce groupe nominal aurait référé s’il avait occupé cette

position (en l’occurrence, la fiche de paie de l’homme qui l’a donnée à sa maîtresse).

Finalement, un échange tel que l’exemple (22) est lui aussi délicat :

Ex (22) A : I’ve never seen him.

B : That’s a lie.

Cet exemple est caractérisé par le fait que le démonstratif « that » semble ne référer ni à

une entité désignée (ou introduite) par un élément de l’énoncé de A, ni à cet énoncé envisagé

en tant que portion précédente du texte. Nous n’avons ainsi affaire ni à une anaphore ni à une

véritable deixis textuelle. Lyons 1977 (p. 670) parle dans ce cas de « deixis textuelle impure »

(« impure textual deixis »).

29 Cf. la tradition remontant à Apollonios Dyscole qui stipule qu’un pronom donné doit être soit déictique soit

anaphorique. On notera cependant que Halliday & Hasan 1976 (pp. 36-37) n’exclut pas ce d’usage combiné.


84

En conclusion, ce rapide parcours montre que, même si l’intuition nous invite à

percevoir deux phénomènes distincts, une catégorisation binaire, tout comme une

catégorisation plus complexe des usages référentiels, fondée sur les concepts d’endo- et

d’exophoricité, semble incapable de décrire et d’expliquer nombre d’exemples fondamentaux.


Ce second chapitre nous a permis de passer en revue un ensemble de conceptions

linguistiques classiques de l’anaphore.

Ainsi, dans un premier temps, nous avons détaillé la position antécédentiste concernant

l’anaphore en montrant comment la théorie de Milner 1982 rendait compte de ce phénomène.

Nous avons ainsi introduit les concepts de référence et de coréférence virtuelles et actuelles et

d’autonomie sémantique afin de caractériser notamment l’anaphore pronominale comme

impliquant un processus de saturation sémantique d’une unité non-autonome (l’anaphorisant)

par transfert de la référence virtuelle d’une unité autonome (l’anaphorisé). Nous avons

finalement avec Milner 1982 insisté sur le caractère apparemment fondamental de la

coréférence virtuelle dans le cadre de l’anaphore pronominale. Cette analyse nous a permis de

clarifier le caractère commun de non-autonomie référentielle qui unit notamment les pronoms

déictiques et les pronoms anaphoriques.

La seconde partie de ce chapitre a consisté en un survol des notions de deixis et

d’anaphore en tant que phénomènes indexicaux. Plus particulièrement, nous avons profité de

cette étude pour introduire la notion classique de dépendance des indexicaux vis-à-vis de la

situation d’énonciation (pour les déictiques) ou du texte (pour les anaphoriques). Finalement,

nous avons passé en revue un ensemble d’arguments phylogénétiques et ontogénétiques

plaçant la deixis au cœur de l’indexicalité et présentant l’anaphore comme un phénomène

dérivé.

Dans la dernière partie, nous avons tenté de donner un aperçu des limites de ces

conceptions classiques (l’anaphore en tant qu’incomplétude ; anaphore et deixis comme

formes indexicales liées à la situation ou texte) en proposant des perspectives liées plus

particulièrement à la prise en compte des aspects descriptif et procédural de la signification de

ces unités et en suggérant que l’opposition classique entre anaphore et deixis en termes de

sites de résolution différents (texte vs. situation) posait de nombreux problèmes.


85

C’est donc sur un apparent constat d’échec descriptif des approches traditionnelles de

l’indexicalité en général et de l’anaphore en particulier que ce chapitre pourrait sembler se

terminer. Mais, s’il est vrai que nombreux sont les problèmes non résolus par ces approches, il

serait faux de les considérer insolubles pour autant. En effet, tout comme, pour l’évolution de

la thématique de la référence (chapitre 1), nous pensons que le traitement de l’anaphore a

suivi une évolution du logico-philosophique vers le pragmatico-cognitiviste. Ce changement

de perspective s’est d’autre part accompagné d’une changement d’échelle : la thématique de

l’anaphore semble en effet se départir de l’analyse de phrases isolées, pour se diriger vers la

prise en considération des phénomènes à une échelle différente que certains qualifieront de

discursive. Nous pensons ainsi que les développements récents de l’analyse du discours, bien

que posant de nouvelles questions, permettent de jeter un éclairage nouveau sur les problèmes

mentionnés ici. Le discours, perçu de manière plus holistique à la fois en tant que processus

interactif cognitif et situé et en tant que produit textuel de ce processus dessine donc un

nouvel horizon pour l’anaphore vers lequel nous allons à présent nous tourner avec la seconde

partie de cette thèse.

87

Partie 2 :

Discours et anaphore

Partie 2 – Discours et anaphore

88

Les deux précédents chapitres ont été pour nous l’occasion d’une part de poser un cadre

dynamique général à notre approche, et d’autre part de replacer le thème de l’anaphore dans

son contexte linguistique plus traditionnel et antécédentiste, que ce soit du point de vue d’une

linguistique stricte telle que celle prônée par Milner, ou bien dans le cadre d’une pragmatique

d’inspiration logico-philosophique, en opposition avec le concept de deixis. Nous avons de

plus montré certains des problèmes posés par ces descriptions du phénomène anaphorique et

avons suggéré quelques pistes en direction du discours.

C’est donc de manière tout à fait naturelle que nous allons nous tourner dans cette

seconde partie vers une présentation de ces potentielles solutions discursives aux

« problèmes » de l’anaphore. Cette démarche nécessite l’explicitation préalable de ce concept

de discours si populaire en linguistique contemporaine, et pourtant si insaisissable.

En conséquence, nous consacrerons le premier des deux chapitres de cette partie

(chapitre 3) à cette tâche d’explicitation. Plus particulièrement, nous tenterons de placer le

concept de discours dans une perspective dynamique comparable à celle adoptée dans notre

premier chapitre et nous attarderons sur l’émergence du phénomène, depuis la phrase et le

texte. Nous soulignerons aussi la multidimensionnalité inhérente à ce concept avant de

questionner la pertinence de sa catégorisation en tant qu’unité.

Le chapitre suivant (chapitre 4) sera plus particulièrement consacré à la présentation de

certaines solutions discursives aux problèmes posés par la description traditionnelle de

l’anaphore, mais aussi à l’évocation de nouveaux problèmes posés par ce changement de

cadre. Nous présenterons aussi dans ce contexte les concepts fondamentaux de la Théorie du

Centrage, développée à partir de la théorie de Grosz & Sidner 1986 qui aura été présentée au

chapitre 3 et qui constituera en quelque sorte un fil rouge théorique parcourant la plupart des

parties de cette thèse. Nous terminerons le second chapitre de cette seconde partie par une

proposition de renversement de la vision de l’anaphore discursive qui, souvent perçu comme

problème à « résoudre » (« résolution » de l’anaphore), pourra aussi être abordée comme un

élément fondamental de la dynamique du discours.

89

Chapitre 3

Approches du discours

90


1 De la phrase au discours ............................................................................... 92 1.1 Linguistique textuelle : la transition linguistique stricte............................................. 93 1.2 L’approche fonctionnaliste ............................................................................................ 94

1.2.1 Aspects relationnels ............................................................................................... 94 1.2.2 Aspects informationnels......................................................................................... 96

1.3 La charnière informationnelle ....................................................................................... 97 1.4 Cohérence, texte et discours......................................................................................... 101 1.5 Synthèse ......................................................................................................................... 103 2 Le discours multidimensionnel .................................................................. 103 2.1 Attention, intentions et structure du discours ............................................................ 104

2.1.1 La structure linguistique....................................................................................... 105 2.1.2 La structure intentionnelle ................................................................................... 105 2.1.3 L’état attentionnel ................................................................................................ 107

2.2 Un modèle hétérarchique du discours......................................................................... 110 2.2.1 Influences ............................................................................................................. 111 2.2.2 Structure du modèle ............................................................................................. 113

2.3 Synthèse ......................................................................................................................... 117 3 Un object « discours » ? .............................................................................. 118 3.1 Quel objet « discours » ? .............................................................................................. 118

3.1.1 Discours vs. texte ................................................................................................. 118 3.1.2 Discours et cohérence .......................................................................................... 121

3.2 A-t-on besoin d’un objet « discours » ?....................................................................... 127 3.2.1 RT et la cognition................................................................................................. 127 3.2.2 RT et la communication....................................................................................... 128 3.2.3 RT et la compréhension ....................................................................................... 129 3.2.4 Synthèse ............................................................................................................... 130

4 Synthèse générale ........................................................................................ 130

Chapitre 3 – Approches du discours

91

Le chapitre 2 nous a permis d’expliciter quelques unes des conceptions dites classiques

de l’anaphore en linguistique ; on retiendra notamment le concept d’incomplétude sémantique

des expressions anaphoriques et l’opposition deixis / anaphore fondée notamment sur les sites

respectifs de résolution30 de ces expressions. Mais le chapitre 2 se terminait, rappelons-le, sur

un constat d’inadéquation de ces descriptions classiques avec les données : on pensera

notamment aux problèmes liés aux antécédents absents du co-texte, à l’anaphore pronominale

sans coréférence virtuelle, ou encore aux problèmes liés aux typologies classiques des formes

déictiques et anaphoriques.

Face à ces problèmes, une solution envisageable consiste à dépasser un modèle

linguistique fermé31 en direction d’une conception plus pragmatico-cognitive du langage.

Qu’on ne nous méprenne pas concernant ce point de vue : l’adoption d’un cadre différent ne

remet pas nécessairement en cause la pertinence des travaux appartenant à une approche

précédente ; en l’occurrence, tout comme l’évolution de la thématique de la référence vers le

pragmatico-cognitif n’a bien évidemment pas rendu caduques les approches sémantiques et

philosophiques de la question, l’adoption d’un cadre discursif, pragmatique et cognitif pour

l’anaphore ne remet pas en cause les apports fondamentaux d’une forme plus traditionnelle de

linguistique ; bien au contraire, ce changement de cadre est destiné à favoriser un dialogue

nouveau entre des points de vue certes différents mais, on peut raisonnablement l’espérer,

complémentaires …

Mais cette solution entraîne aussi un deuxième changement, plus méthodologique celui-

là, consistant pour le linguiste à quitter le confort rassurant de la phrase construite pour

s’aventurer dans l’univers sauvage des données discursives authentiques. Notre position

concernant ce point sera plus radicale : la seule utilisation de données uniquement validées

par le chercheur nous semble dangereuse et néfaste ; elle a nécessairement tendance à

conforter le linguiste dans ces conceptions et souvent à confirmer ses intuitions profondes. Pis

encore, ce type de fonctionnement, une fois un « modèle » arrêté, compromet toute évolution

conceptuelle non motivée par les affirmations d’un collègue contradicteur ou la rencontre

hasardeuse de données nouvelles …

Nous pensons donc pour résumer que ce double changement de cadre et de méthode,

vers le discursif et le cognitif et vers les données attestées constitue une politique de recherche 30 Bühler (1934) parle de « champs déictiques ». 31 cf. Reboul & Moeschler 1998 pour des détails sur l’opposition démarche scientifique fermée vs. démarche

scientifique ouverte.


92

au moins souhaitable dans le cadre de l’anaphore si l’on espère apporter une réponse unifiée

aux problèmes nombreux non résolus par les approches classiques évoquées dans le chapitre

2.

Il est cependant nécessaire, avant de nous livrer à l’étude des relations de l’anaphore et

du discours à proprement parler, de tenter de définir le concept de discours. C’est cette tâche

de définition qui va constituer l’objectif des trois sections de ce chapitre.

Dans la première section, nous nous livrerons tout d’abord à une analyse du passage

progressif de la linguistique de l’unité « phrase » à l’unité « discours » par l’intermédiaire de

l’unité « texte » et par le biais de la dimension informationnelle ; la notion de cohérence sera

finalement questionnée en relation avec les concepts de texte et de discours.

Seront ensuite abordées, dans la seconde section, des approches plus cognitives et

multidimensionnelles du discours, prenant en compte certains des nombreux aspects

(linguistiques, psychologiques, sociaux, etc.) qui président à la production et à la

compréhension discursives.

La troisième et dernière section sera le lieu d’un questionnement central sur la nature

même du discours ; nous nous interrogerons notamment sur la pertinence d’une conception,

dominante, du discours en tant qu’objet linguistique, avant d’évoquer quelques alternatives

que nous jugeons intéressantes.

Nous terminerons ce chapitre par une synthèse générale qui reprendra les principaux

points développés dans ce chapitre et nous permettra de proposer une définition opératoire du

discours que nous emploierons dans le chapitre suivant pour apporter des réponses aux

problèmes anaphoriques que nous avons pu soulever.

1 De la phrase au discours

Comme nous l’avons suggéré en introduction, nous pensons que l’adoption d’un cadre

d’analyse discursif concernant l’anaphore offre des perspectives intéressantes pour les

problèmes liés à l’anaphore. Reste cependant à définir de manière précise notre conception de

ce cadre avant d’en aborder les apports.

En conséquence, cette section sera dédiée à une réflexion « historique » et conceptuelle

au cours de laquelle nous tenterons dans un premier temps de retracer les grandes lignes de

l’évolution du concept de discours, depuis les notions de phrase et de texte.


93

Dans un deuxième temps, nous étudierons l’adoption d’une conception plus

fonctionnaliste du discours qui proposera la distinction d’un niveau informationnel comme

support de la cohérence textuelle.

La troisième partie de cette section traitera de manière plus détaillée de cette charnière

informationnelle qui a ouvert la voie à une conception plus pragmatique et cognitive du

discours ; nous aborderons notamment dans ce contexte plusieurs approches proposant,

contrairement à la proposition originelle des fonctionnalistes, une classification non plus

binaire mais graduelle du statut de l’information.

1.1 Linguistique textuelle : la transition linguistique stricte

L’un des premiers stades de l’évolution d’une partie de la linguistique vers le discours

correspond sans doute au courrant appelé « linguistique textuelle ». En effet, si, depuis

l’antiquité, certains se sont préoccupés de l’organisation de phénomènes de langue dépassant

le cadre de la phrase, l’objectif et les méthodes étaient alors plutôt littéraires ou rhétoriques.

Comme l’indique Charolles 1988, la linguistique textuelle, ou « grammaire de texte »

s’intéresse à « la capacité des locuteurs natifs à distinguer une suite de phrases acceptables

formant un texte d’une suite ne formant pas un texte » (Charolles 1988 : p. 46). On retrouve

ainsi en linguistique textuelle une double filiation, structurale et générativiste, dont la

méthodologie, calquée sur le paradigme de la syntaxe, consiste à essayer de trouver un

ensemble de règles expliquant la bonne formation (validée par un jugement d’acceptabilité)

d’une séquence de phrases (elles-mêmes bien formées)32.

Le jugement d’acceptabilité est ainsi justifié par les caractéristiques de bonne formation

de deux niveaux hiérarchisés : la grammaticalité pour la phrase et la cohérence pour le texte33.

Cette démarche conduira par exemple Michel Charolles (1978) à proposer un ensemble de

« méta-règles de cohérence » gouvernant la bonne formation d’un texte34. Les contre-

exemples répétés (voir par exemple Van Dijk 1972 ou Reinhart 1980) ont mené à l’abandon

de ce type d’approche structuraliste plutôt stricte et conservatrice ; Charolles reconnaît lui-

même, dix ans plus tard, l’échec de cette tentative :

32 La conception structurale qui propose de considérer le texte/discours comme une unité supérieure à la phrase

remonte à Harris 1951, premier auteur à parler d’analyse du discours d’après Schiffrin 1994. 33 cf. par exemple Brinker (1973 : p. 13), Werlich (1976 : p. 23), Maingueneau (1976 : p. 158). 34 cf. Reboul & Moeschler 1998 : pp. 15-16 pour une description.


94

« Il n’existe pas au plan du texte de règles de bonne formation qui s’appliqueraient en toutes

circonstances et dont les violations, comme c’est le cas pour la syntaxe de phrases, ‘feraient

l’unanimité’. » (Charolles 1988 : p. 52)

La prise de conscience de cet échec de l’approche générativiste du texte aurait pu

conduire à un changement fondamental de conception consistant à abandonner par la même

occasion l’héritage structuraliste et ainsi rejeter le statut d’unité pour le texte ; mais une autre

voie, empruntée à la même époque, semblait viable : c’est vers ce second type d’approche,

que nous qualifierons de « fonctionnaliste », que nous nous tournons à présent.

1.2 L’approche fonctionnaliste

Fondée, tout comme l’approche structuraliste stricte, sur le principe du statut du texte en

tant qu’unité linguistique, l’approche fonctionnaliste aborde la cohérence du texte non plus

par l’intermédiaire de règles formelles, mais sous l’angle de l’organisation thématique. Cette

approche, nommée « Functional Sentence Perspective » (FSP), adopte elle aussi un schéma

consistant à postuler un niveau d’organisation fondé sur l’organisation phrastique ; les unités

fondamentales, cependant, sont les concepts de thème et de rhème35 que Mathesius, dans les

années 1920, définit de la manière suivante36 :

• Le thème est défini de deux manières complémentaires : premièrement en tant que point

de départ de l’énoncé (« the starting-point of the utterance, that which is known or at

least obvious in the given situation, and from which the speaker proceeds ») et

deuxièmement comme ce dont on dit quelque chose dans l’énoncé (« the foundation of

the utterance, as 'something that is being spoken about in the sentence. »).

• Le rhème est ce que le locuteur dit du thème (« what the speaker says about, or in regard

to the starting point of the utterance » ; « [the rheme] expresses something new,

something unknown from the previous context »).

1.2.1 Aspects relationnels

Penchons-nous tout d’abord sur la nature relationnelle de ces définitions : le rhème est

défini relativement au thème, élément prépondérant. Cette conception est à l’origine de

35 On notera cependant que les linguistes allemands von der Gabelentz (1868) et Paul (1880) (cités dans Gundel

& Fretheim 1996) parlaient déjà de sujet et de prédicat psychologiques pour définir des concepts très similaires à

ceux de thème et de rhème respectivement. 36 Les traductions en anglais sont tirées de Firbas 1976 : p. 11 ; voir aussi Firbas 1964.


95

nombreux travaux centrés sur le concept de thème, repoussant celui de rhème en arrière

plan de l’analyse des textes ; on pensera par exemple à Halliday 1967 (p. 212) qui présente le

thème comme « the point of departure of the clause as message » et, plus tard, comme « the

peg on which the message is hung ». Plus récemment, les travaux de Francis (1994) ou Fries

(par exemple 1981, 1994 et 1995) poursuivent cette démarche fortement hiérarchisée. Dans ce

cadre, la continuité avec l’analyse textuelle se matérialise par l’utilisation de caractéristiques

phrastiques (thème et rhème) comme éléments structurant le niveau supérieur que constitue le

texte. Les travaux de Daneš sont représentatifs de ce type d’approche37 :

« The choice and ordering of utterance themes, their mutual concatenation and hierarchy, as well

as their relation to the hyperthemes of the superior text unit (such as paragraph, chapter, etc.), to

the whole text, and to the situation. Thematic progression might be viewed as the skeleton of the

plot. » (Daneš 1974 : p. 114)

La structure du texte, son « squelette », est ainsi vue avant tout comme constituée de

l’enchaînement (« concatenation ») hiérarchisé des thèmes des phrases. La cohérence d’un

texte dépend donc en définitive de la nature de ces enchaînements, la « progression

thématique »38 dont Daneš 1974 donne une typologie en trois catégories39 :

• la progression à thème constant, lorsque le thème d’une phrase Pn est conservé dans la

phrase Pn+1 ;

• la progression simple linéaire qui consiste à utiliser le rhème d’une phrase Pn comme

thème de la phrase Pn+1 ;

• la progression à thème dérivé pour laquelle les thèmes sont dérivés d’un thème

commun hiérarchiquement plus élevé.

La construction du texte se fait donc à partir du thème et se développe au sein de la

structure thématique. Dans cette perspective, la cohérence d’un texte résulte en définitive d’un

certain équilibre entre ces schémas de progression ; la quantification des fréquences relatives

37 On notera cependant que Daneš 1974 (p. 109) critique la position « pro-thématique » extrême de Halliday

1967 selon laquelle « thematization is independent of what has gone before » (p. 17) au profit d’une prise en compte

du thème mais aussi du couple thème-rhème comme éléments de la structuration du texte. 38 On retrouve le même concept dans Werlich 1976 (avec le concept « thematic expansion ») ou les travaux plus

récents de Halliday 1985 qui parle de « thematic structure », Fries 1981 et Martin 1992 qui parlent de « method

of developement ». 39 Diverses évolutions de cette approche sont disponibles par exemple dans Dubois 1987, Nwogu & Bloor 1991

ou Martin 1992.


96

de ces types de progression dans un texte permet alors une qualification plus stylistique de ce

dernier.

1.2.2 Aspects informationnels

Le second aspect majeur des définitions des concepts de thème et de rhème par

Mathesius, concerne l’orientation informationnelle qui leur semble inhérente. En effet, la FSP

postule l’existence de trois niveaux distincts de structure phrastique : un niveau

« grammatical », un niveau « sémantique » et un niveau « informationnel ». La distinction

thème / rhème appartient à ce troisième niveau, dédié à l’organisation de l’information dans

les phrases et, par extension, les textes. Dans ce contexte, le thème correspond à de

l’information déjà connue (« known or at least obvious in the given situation ») et le rhème à de

l’information nouvelle (« something new, something unknown from the previous context »).

Daneš 1966 exprime ainsi cette opposition :

« An utterance may usually be divided into two portions: the theme (or topic), conveying the

known elements, and the rheme (or comment), conveying the unknown (not given) elements of the

utterance. » (Daneš 1964 : p. 228)

Ces caractéristiques informationnelles des concepts de thème et de rhème ont à

l’évidence une dimension que nous caractériserions aujourd’hui de pragmatique et

psychologique. Risquons une remarque triviale : pour que des éléments soient « connus » (ou

« donnés ») et « inconnus » (ou « nouveaux »40), encore faut-il qu’ils soient « connus » ou

« inconnus » des participants à la communication ; les propriétés informationnelles du thème

et du rhème sont donc dans cette seconde perspective des propriétés cognitives des référents

et non des propriétés textuelles.

Ils est important de remarquer que, si tous les partisans de ce type d’approches

admettent l’existence de cette dimension cognitive (donné / nouveau) à côté de la dimension

thématique (thème / rhème), tous, en revanche, ne s’accordent pas sur les relations les

unissant et sur l’intérêt même de les conserver sur deux plans distincts. Fries 1983 parle dans

ce contexte d’une opposition entre « separating approach » (nous parlerons d’approche

« séparatrice ») et « combining approach » (que nous traduirons par « approche

syncrétique »). Notre objectif n’est pas d’entrer dans ce débat, mais nous noterons avec

Halliday 1970 et 1976 (partisan de l’approche séparatrice) que les niveaux thématique et

40 Les termes « donné » et « nouveau » appartiennent à l’approche présentée dans Chafe 1976.


97

informationnel, même s’ils se confondent souvent, constituent néanmoins deux plans distincts

de l’organisation textuelle :

« The two are independently variable and derive from different sources; given-new is a discourse

feature, while theme-rheme is not. » (Halliday 1976 : pp. 179)

1.3 La charnière informationnelle

Comme nous l’avons vu, la dimension informationnelle introduite par la FSP comporte

deux pôles organisateurs : le « donné » et le « nouveau ». Cette conception binaire a été très

rapidement remise en cause, non seulement au sein de la FSP, mais aussi par des travaux

externes, comme nous allons le voir.

Firbas 1964 oppose à cette vision dichotomique du statut de l’information une vision

plus graduelle dans laquelle chaque élément apporte sa contribution au développement du

discours en fonction de sa place au sein de la phrase : on parle dès lors de « dynamisme

communicatif » :

« By the degree of communicative dynamism carried by the sentence element we understand the

extent to which the sentence element contributes to the development of the communication, to

which it pushes the communication forward, as it were. » (Firbas 1964 : p. 270)

Dans son article-référence « Toward a taxonomy of given-new information », Prince

1981 propose elle aussi une vision moins manichéenne de l’information et notamment de la

caractéristique « givenness », le fait pour de l’information d’être « donnée ». L’auteur reprend

et classe les travaux antérieurs sous trois catégories distinctes que nous allons détailler à

présent41.

La première catégorie, comprenant les travaux de Kuno (1972 et 1978) ainsi que ceux

de Halliday (1967) et Halliday & Hasan (1976), assimile le « donné » à du prédictible ou du

récupérable :

« GIVENNESSp : the speaker assumes that the hearer CAN PREDICT OR COULD HAVE

PREDICTED that a PARTICULAR LINGUISTIC ITEM will or would occur in a particular

position WITHIN A SENTENCE. » (ibid. : p. 226)

41 Dahl 1976 fait un constat similaire sur les nombreuses acceptions des termes « donné » et « nouveau ».


98

La seconde catégorie est liée au concept de saillance ; elle correspond principalement à

l’approche développée dans Chafe 197642.

« GIVENNESSs : The speaker assumes that the hearer has or could appropriately have some

particular thing/entity/ . . . in his/her CONSCIOUSNESS at the time of hearing the utterance. »

(ibid. : p. 228)

La troisième catégorie, finalement, associe les concepts de « donné » et de « savoir

partagé »43.

« GIVENNESSk : The speaker assumes that the hearer "knows," assumes, or can infer a particular

thing (but is not necessarily thinking about it). » (ibid. : p. 228)

Prince insiste (pp. 231-232) sur le fait que ces trois conceptions de la distinction

« donné » / « nouveau » ne sont pas indépendantes : elles autorisent toutes trois un recours à

des phénomènes extralinguistiques pour justifier le statut « donné » d’un élément, et

notamment à des hypothèses sur l’état cognitif de l’interlocuteur. Dans ce cadre, Prince 1981

argumente en faveur de la primauté de l’aspect « savoir partagé » sur les deux autres.

Cependant, rejetant les implications omniscientes et réciproques du concept de savoir partagé,

l’auteur préfère forger l’expression « familiarité supposée » (« assume familiarity » ; ibid. :

p.233), attachée aux référents désignés dans le texte. Le statut informationnel de ces référents

consiste en un gradient organisé de la manière suivante (nous ne donnons que les catégories

principales par ordre croissant de familiarité supposée) :

• Un référent est nouveau (« new ») la première fois que le locuteur y réfère ; deux

possibilités existent cependant : le référent sera dit « tout nouveau » (« brand new ») si

l’interlocuteur doit créer sa représentation mentale ; le référent sera dit « non utilisé »

(« unused ») si l’interlocuteur n’a qu’à l’introduire dans sa représentation mentale,

mais pas à le créer (c’est par exemple le cas avec les référents évoqués à l’aide de

noms propres).

42 Ainsi, le « donné » correspond à « that knowledge which the speaker assumes to be in the consciousness of the

addressee at the time of the utterance » (Chafe 1976 : p. 30) et le « nouveau » est « what the speaker assumes he

is introducing into the addressee's consciousness by what he says » (Chafe 1976 : p. 30). 43 Clark & Haviland 1977, classé par Prince dans cette catégorie, présente ainsi le « donné » comme

« information [the speaker] believes the listener already knows and accepts as true » (Clark & Haviland 1977 : p.

4) et le « nouveau » comme « information [the speaker] believes the listener does not yet know » (Clark &

Haviland 1977 : p. 4).


99

• Un référent est récupérable par inférence (« inferrable ») lorsque le locuteur estime

que l’interlocuteur peut le récupérer à l’aide d’inférences soit à partir de référents déjà

désignés explicitement dans le discours (« évoqués », comme nous allons le voir ci-

dessous), soit à partir de référents eux-mêmes récupérables par inférence44 :

« A discourse entity is Inferrable if the speaker assumes the hearer can infer it, via logical-or, more

commonly, plausible-reasoning, from discourse entities already Evoked or from other Inferrables.

» (ibid. : p. 236)

• Un référent, finalement, est évoqué (« evoked ») lorsque le locuteur y a déjà référé

(« textually evoked ») ou bien lorsque la situation le rend perceptivement saillant

(« situationally evoked »)45.

Cette typologie peut être représentée à l’aide de la figure 8 ci-dessous, reproduction du

schéma de Prince 1981 (p. 237) :

Figure 8 : Catégories de familiarité supposée (reproduction de Prince 1981).

La présentation que nous venons de donner de la typologie proposée par Prince 1981 est

une simplification de la proposition originale de l’auteur ; en fait, Prince ne parle pas dans

cette typologie du statut des référents (terme plus général et lié à une approche plutôt logico-

philosophique), mais en fait du statut d’entités discursives de nature cognitive. En réalité, le

44 Nous noterons que Prince 1981 propose (p. 236) deux sous-catégories pour ce degré de familiarité supposée

(« noncontaining inferrables » et « containing inferrables »). Cette distinction n’étant pas centrale pour notre

propos, nous ne la détaillerons pas ici. 45 « Situationally Evoked entities represent discourse participants and salient features of the extratextual context,

which includes the text itself. » (Prince 1981 : p.236).


100

concept de familiarité supposée est indissociable de la conception cognitive du discours

proposée par l’auteur46 :

« Let us say that a TEXT is a set of instructions from a speaker to a hearer on how to construct a

particular DISCOURSE MODEL. The model will contain DISCOURSE ENTITIES,

ATTRIBUTES, and LINKS between entities. A discourse entity is a discourse-model object, akin

to Karttunen's (1971) DISCOURSE REFERENT; it may represent an individual (existent in the

real world or not), a class of individuals, an exemplar, a substance, a concept, etc. Following

Webber (1978), entities may be thought of as hooks on which to hang attributes. All discourse

entities in a discourse-model are represented by NPs in a text, though not all NPs in a text

represent discourse entities. » (ibid. : p. 235)

Ce sont donc les entités discursives, éléments du modèle mental, qui sont dotées d’un

degré de familiarité supposée. Le problème de la linguistique (ibid. : p. 233) consiste alors à

définir les relations qu’entretiennent les entités discursives, caractérisées par leur degré de

familiarité supposée, avec les expressions linguistiques référentielles utilisées comme

instructions dans le texte :

« The solution to the problem then may be seen as requiring three parts: (a) a taxonomy of

linguistic forms, both morphological and syntactic; (b) a taxonomy of the values of Assumed

Familiarity; and (c) an account of the correlation between the two. Structural linguistics and

transformational grammar has provided us with the first part, at least for forms that are identifiable

on the level of the sentence or less, and this chapter is an attempt to provide the second. Hopefully,

once the two taxonomies have been arrived at, further research can determine the correlation. (ibid.

: p. 233)

Par le biais informationnel, et notamment par ce que Gundel 1988 appellerait une

transition d’une approche relationnelle à une approche référentielle de la distinction « donné »

/ « nouveau », Prince 1981 constitue ainsi un excellent exemple de transition du texte vers le

discours en tant que concept cognitif47. Le programme tripartite de recherche formulé semble

avoir constitué le cadre de nombres de recherches sur le discours, notamment dans le cadre de

l’anaphore, avec, comme nous le verrons plus loin (cf. chapitre 4, § 2.2.2), de nombreuses

études concernant les corrélations entre expressions linguistiques et statut cognitif des entités

discursives.

Une question se pose alors dans ce contexte nouveau : si le discours implique des

aspects cognitifs fondés sur des éléments textuels, qu’en est-il du concept de cohérence ? La 46 Nous remarquerons que Prince ne fournit en fait pas ici de définition concernant le concept de discours lui-

même : il est ici question de « modèle discursif » construit à partir du texte. 47 Il est cependant important de ne pas oublier l’intuition précoce de Halliday 1967.


101

cohérence est-elle en définitive une propriété du texte ou d’une nouvelle unité « discours » ?

Ce sont ces thèmes de réflexion que nous allons aborder maintenant.

1.4 Cohérence, texte et discours

La cohérence, comme nous l’avons vu, a tout d’abord été considérée comme

l’équivalent textuel de la grammaticalité des phrases : on pourrait, dans cette perspective,

considérer une phrase comme grammaticale et un texte comme cohérent à la condition

expresse que chacune de ces unités respecte un ensemble de règles de bonne formation. Nous

avons vu que cette démarche avait par exemple conduit Charolles 1978 à proposer un

ensemble de 4 « méta-règles de cohérence » qui seront abandonnées quelques dix ans plus

tard.

On pourrait de plus s’inquiéter du caractère subjectif du jugement de cohérence qui

vient sanctionner les textes : la cohérence serait-elle alors une propriété psychologique

idiosyncrasique sans intérêt pour la linguistique ?

Ces deux constats (non-respect de règles de bonne formation et aspect subjectif)

pourraient conduire à rejeter le texte hors de la linguistique structurale traditionnelle ; c’est

par exemple la position de Benveniste pour qui, avec le texte,

« on quitte le domaine de la langue comme système de signes et l’on entre dans un autre univers,

celui de la langue comme instrument de communication. » (Benveniste 1966 : p. 130)

Cependant, s’il est vrai que le texte (et a fortiori le discours) échappe à la linguistique

générative stricte, échappe-t-il pour autant à la linguistique dans sa totalité ? La réponse est

bien évidemment négative, et Chomsky lui-même argumentait en 1962 en faveur d’une

« théorie pragmatique » dans le cadre de la compétence linguistique du locuteur :

« an implicit theory of the language that [the speaker] has mastered, a theory that predicts the

grammatical structure of each of an infinite class of potential physical events, and the conditions

for the appropriate use of each of these items. » (Chomsky 1962 : p. 528)

En 1978, Chomsky ira même jusqu’à proposer le concept de « compétence

pragmatique », complémentaire de celui plus connu de « compétence grammaticale », et

qui implique la connaissance des conditions et des modalités d’un usage approprié à certains

objectifs :

« knowledge of conditions and manner of appropriate use, in conformity with various purposes. »

(Chomsky 1978, p. 224)


102

Concernant l’aspect subjectif du jugement de cohérence, nous remarquerons que, même

s’il semble plus délicat à exprimer que le jugement de grammaticalité des phrases, il reste

néanmoins relativement consensuel et doit donc trouver cette stabilité dans une systémique

des textes :

« Nous ne voulons pas induire que la cohérence est une caractéristique purement subjective. Dans

un environnement socioculturel donné, à l’intérieur d’une communauté linguistique donnée, la

convergence des attentes des différents interprétants peut être si grande que l’on est autorisé à

parler de linguistique. » (Hatekeyama, Petöfi & Sözer 1984 : p. 29 ; cité dans Carter Thomas 2000

: pp. 34-35)

Cette possibilité de jugement consensuel de cohérence semble être liée au fait que le

texte puisse être caractérisé par de nombreuses propriétés formelles. Il semble cependant

crucial de distinguer d’une part ces spécificités formelles des textes et d’autre part le jugement

d’acceptabilité lui-même. Ce jugement, en effet, n’est pas fondé uniquement sur

l’enchaînement et la nature des unités du texte, mais revêt une dimension interprétative liée à

la fois aux informations fournies par le texte et aux connaissances (situationnelles,

encyclopédiques, etc.) des sujets. Ce fait encourage nombre d’auteurs à postuler une

distinction entre les concepts de « cohésion » et de « cohérence » :

« La notion de cohésion est généralement mise en rapport avec la linéarité du texte, les

enchaînements entre les propositions et les moyens formels dont dispose l’émetteur pour assurer

ces enchaînements. La notion de cohérence, en revanche, est généralement caractérisée par une

approche plus large qui souligne l’importance du rôle du récepteur dans l’interprétation du texte. »

(Carter-Thomas 2000 : pp. 30-31)

Charolles présente cette opposition de manière similaire en distinguant :

« d’un côté la cohérence qui a à voir avec l’interprétabilité des textes et, de l’autre, les marques de

relation entre énoncés ou constituants d’énoncés. Concernant ces marques, depuis M.A.K.

Halliday et R. Hasan (1976), on tend à les regrouper sous le nom de cohésion. » (Charolles 1988 :

p. 53)

Etant donnée la conception cognitive que nous adoptons concernant le discours (nous

avons pour l’instant parlé de « modèle discursif ») par opposition au texte qui est utilisé en

relation avec d’autres sources pour le construire, la cohérence semble bien correspondre à une

propriété discursive, et non à une propriété textuelle ; Charolles 1988 explicite cette

proposition :

« La cohérence n’est pas une propriété des textes […]. Le besoin de cohérence est, par contre, une

sorte de forme a priori de la réception discursive. » (Charolles 1988 : p. 55)


103

La cohésion peut donc être définie comme une propriété du texte et la cohérence comme

une propriété du discours, sans pour autant que ces deux propriétés entretiennent de

correspondance biunivoque (cf. Reboul & Moeschler 1998 : pp. 65-66).

De manière plus précise, le jugement de cohérence d’un discours est lié à l’utilisation de

la compétence pragmatique de ses interprétants, compétence qui leur permet de concevoir une

situation dans laquelle le discours serait approprié. La facilité relative avec laquelle une telle

situation peut être identifiée détermine le degré de cohérence du discours, perçu comme une

propriété graduelle.

1.5 Synthèse

L’objectif de cette première section a été de montrer comment la conception du texte a

évolué, depuis une vision structuraliste jusqu’à une vision cognitive justifiant le recours au

concept de discours. Ainsi, le texte a tout d’abord été perçu comme unité linguistique de rang

supérieur à la phrase et régie par le même type de règles de bonne formation. La dimension

informationnelle inhérente au texte et mise en avant par les fonctionnalistes a ensuite conduit

à la prise en compte de la situation et des interactants en tant qu’agents cognitifs. Dès lors, le

texte devenait un réservoir d’indications destinées à la constitution d’un modèle discursif ; le

discours dépasse le cadre de la « linguistique de la langue » (en termes saussuriens) pour

s’inscrire dans une « linguistique de la parole ». Le texte, caractérisé par une propriété de

cohésion, n’est alors plus que l’une des dimensions constitutives du discours, perçu comme

phénomène multidimensionnel plus ou moins cohérent.

2 Le discours multidimensionnel

Le discours, nous l’avons vu, comporte a minima une dimension textuelle (plutôt

formelle) et une dimension informationnelle (plutôt cognitive) : en ce sens, il constitue donc

déjà un phénomène multidimensionnel. Ce caractère multidimensionnel, cependant, ne trouve

sa pleine justification descriptive et explicative que dans le cadre d’une prise en compte

étendue des dimensions de la communication. Sans épuiser la thématique, nous nous

attacherons à l’étude de deux propositions allant dans ce sens : nous donnerons tout d’abord

un aperçu de l’approche influente développée par Barbara Grosz et Candace Sidner (Grosz &

Sidner 1986) avant de nous pencher sur l’un des modèles multidimensionnels du discours les

plus aboutis, le Modèle Genevois, développé par Eddy Roulet et son équipe (Roulet et al.

1985 ; Roulet et al. 2001).


104

2.1 Attention, intentions et structure du discours

Grosz & Sidner 1986 constitue un article majeur dans le cadre de l’analyse

multidimensionnelle du discours : l’approche est orientée vers le traitement automatique des

langues, certes, mais les propositions faites ont eu des répercutions importantes dans les

études purement linguistiques sur la thématique. L’objectif de l’article est la justification de la

cohérence du discours, notamment par la prise en compte de l’intentionnalité dans le cadre de

la représentation de la structure discursive. La question de la signification discursive est aussi

abordée (ibid. : p.176), mais constitue selon les auteurs un objectif à plus long terme pouvant

être atteint notamment par une représentation adéquate de la structure du discours.

Bien qu’explicitement temporaire, la définition du discours donnée par les auteurs est la

suivante :

« […] we take a discourse to be a piece of language behavior that typically involves multiple

utterances and multiple participants. A discourse may be produced by one or more of these

participants as speakers or writers; the audience may comprise one or more of the participants as

hearers or readers. » (ibid. : p. 176)

Cette activité de langage qu’est le discours est ensuite présentée, et c’est là la

proposition centrale de l’article, comme un système structuré composé de trois

composants distincts mais interactifs (p. 177) :

• Une structure linguistique, dont les unités fondamentales sont les énoncés ;

• une structure intentionnelle, impliquant un nombre limité de relations entre les

intentions des interactants ;

• un état attentionnel, contenant des informations sur les objets, les propriétés, les

relations et les intentions discursifs les plus saillants à un moment donnée de

l’interaction.

L’objectif de cette tripartition est d’expliquer des phénomènes liés à des interruptions,

l’utilisation de certaines expressions référentielles, et certains aspects de la segmentation et de

la structuration du discours. Plus précisément, ces trois composants servent à fournir

l’information nécessaire à l’intégration d’un segment donné dans un discours :

« Together the three constituents of discourse structure supply the information needed by the CPs

to determine how an individual utterance fits with the rest of the discourse - in essence, enabling

them to figure out why it was said and what it means. » (ibid. : p. 177)


105

2.1.1 La structure linguistique

La structure linguistique est conçue, comme dans le cadre de la linguistique textuelle,

dans le prolongement de la linguistique structurale traditionnelle : les énoncés s’agencent en

« segments discursifs » au sein du discours, à l’instar des mots, qui se groupent en syntagmes

au sein de la phrase :

« Just as the words in a single sentence form constituent phrases, the utterances in a discourse are

naturally aggregated into discourse segments. » (ibid. : p. 177)

Les segments discursifs peuvent être constitués d’énoncés contigus ou pas ;

réciproquement, deux énoncés contigus peuvent ne pas appartenir au même segment discursif.

Se pose alors la question de la démarche adoptée par les interactants pour identifier les

segments discursifs. Dans ce cadre, les auteurs s’appuient sur les travaux de Bill Mann (Mann

et al. 1975) pour affirmer la tendance relativement consensuelle des sujets lors de la

segmentation du discours ; cette tendance est présentée comme corrélée au marquage

linguistique de la structure du discours à l’aide de certains éléments « explicites » (marqueurs

lexicaux tels que « in the first place » ; cf. ibid. : p. 177) et de certains paramètres

prosodiques : durée des pauses, débit de parole, configurations intonatives, etc.48

L’un des aspects les plus importants de la structure linguistique réside dans le fait

qu’elle reflète la structure intentionnelle et l’état attentionnel attachés au discours afférent ; les

indices (« cue phrases ») de structuration linguistique du discours sont ainsi présentés comme

indiquant des modifications soit de la structure intentionnelle soit de l’état attentionnel : leur

signification est à considérer au niveau du discours et non pas au niveau phrastique49 (ibid., p.

178).

2.1.2 La structure intentionnelle

La structure intentionnelle est présentée comme fondamentale non seulement dans le

cadre de l’identification des discours mais aussi dans la mesure de leur cohérence : ce serait

ainsi notamment la reconnaissance de la structure intentionnelle qui permettrait d’une part de

reconnaître la présence de deux discours différents au sein d’une unique suite d’énoncés, et

48 Nous reviendrons en détail sur ces paramètres dans notre chapitre 6. 49 L’exemple donné par Grosz & Sidner 1986 (p. 178), « Incidentally, Jane swims every day. », met en evidence

le fait que l’adverbe « incidentally » ne participe pas aux conditions de vérité de la phrase, mais joue un rôle

dans l’organisation du discours en signalant une interruption dans son déroulement.


106

d’autre part de porter un jugement de cohérence sur un discours donné (p. 178). Les auteurs

distinguent deux niveaux distincts dans cette structure :

• parmi les intentions liées à l’existence même d’un discours (et dont on nous dit

qu’elles sont en général multiples), une intention peut être considérée comme

fondatrice (« foundational ») ; cette intention sera appelée « intention du discours »

(« discourse purpose » ou « DP ») ;

• pour chaque segment discursif, une intention plus locale peut être identifiée de

manière similaire : cette intention sera appelée « intention du segment de discours »

(« discourse segment purpose » ou « DSP »).

L’un des critères de reconnaissance d’une DSP est qu’elle est destinée à être reconnue

comme telle, ce qui n’est pas nécessairement le cas d’une DP (ibid., pp. 178-179). Dans ce cas

de figure, la reconnaissance est une condition nécessaire (mais pas suffisante) au succès d’une

intention destinée à être reconnue ; a contrario, une intention non destinée à être reconnue

peut être couronnée de succès sans reconnaissance (c’est le cas par exemple d’un « boo !!! »

destiné à faire peur).

La liste des intentions de segments discursifs et/ou de discours est explicitement

ouverte, interdisant par là même une description exhaustive. Ceci constitue un argument en

faveur de la distinction faite par les auteurs entre les deux concepts de « détermination » et de

« reconnaissance » de ces intentions. La « détermination » est une tâche exhaustive de

spécification qui s’apparente à une tâche sémantique ; la « reconnaissance » consiste en un

processus par lequel les interactants identifient les intentions. La « reconnaissance » est

implicitement présentée comme suffisante concernant la démarche adoptée :

« We use the term determination to refer to a semantic-like notion, namely the complete

specification of what is intended by whom we use the term recognition to refer to a processing

notion, namely, the processing that leads a discourse participant to identify what the intention is.

These are obviously related concepts; the same information that determines a DSP may be used by

an OCP to recognize it. However, some questions are relevant to only one of them. For example,

the question of when the information becomes available is not relevant to determination but is

crucial to recognition. » (Grosz & Sidner 1986 : p. 179)

Un argument parallèle consiste à présenter les relations unissant les intentions, et non

les intentions elles-mêmes, comme essentielles à la structure discursive. C’est précisément ce

que propose Grosz & Sidner 1986 avec une typologie fondée sur deux relations :


107

• la relation de « domination » est liée au fait qu’une action satisfaisant l’intention DSP1

puisse partiellement procurer la satisfaction de DSP2 ; on dira alors que DSP1

« contribue » à DSP2, ou bien que DSP2 « domine » DSP1 ; cette relation constitue le

fondement d’une structure ordonnée des DSP nommée « hiérarchie de domination ».

• la relation de « satisfaction-précédence » prend compte le fait que la satisfaction de

DSP2 puisse dépendre de la satisfaction préalable de DSP1 ; on dira alors que DSP1

« satisfaction-précède » DSP2.

2.1.3 L’état attentionnel

L’état attentionnel, finalement, correspond à une sous partie de l’état cognitif des

interactants. Il est conçu comme une abstraction de leur centre d’attention à un moment donné

du déroulement du discours ; il n’est cependant pas à considérer comme une de leur

propriétés , mais plutôt comme une caractéristique dynamique du discours :

« The third component of discourse structure, the attentional state, is an abstraction of the

participants' focus of attention as their discourse unfolds. The attentional state is a property of the

discourse itself, not of the discourse participants. It is inherently dynamic, recording the objects,

properties, and relations that are salient at each point in the discourse. » (Grosz & Sidner 1986 : p.

179)

Cet état est modelé à l’aide d’un ensemble d’« espaces focaux » (« focus spaces ») dont

les changements sont représentés à l’aide de règles de transition. La « structure focale »

correspond à l’ensemble des espaces focaux disponibles à un moment donné du discours.

La « focalisation », présentée comme le processus consistant à manipuler les espaces

focaux, associe un espace focal à chaque segment discursif ; cet espace focal comprend non

seulement toutes les entités discursives saillantes (introduites explicitement ou par inférence)

mais aussi la DSP du segment : ceci modélise le fait que les interactants prennent en

considération non seulement ce qu’ils disent/écrivent, mais aussi les raisons et objectifs pour

lesquels ils le disent/écrivent (ibid., pp. 179-180).

Lors du processus de focalisation, les espaces focaux s’organisent en une pile (au sens

informatique du terme) dans laquelle les espaces supérieurs sont plus facilement accessibles

que les espaces inférieurs. L’ajout ou la suppression d’espaces focaux dans la pile

attentionnelle est lié :

• à la structure linguistique, et notamment le choix des procédés syntactiques liés aux

entités (détermination) et aux propriétés (prédication) ;


108

• à la structure intentionnelle, avec les relations de domination et de satisfaction-

précédence.

La figure 9 ci-après va nous permettre de mieux comprendre le fonctionnement interactif

et dynamique de ce système de systèmes que semble donc être le discours. On peut

découper la figure 9 en trois parties verticales :

• la partie de gauche représente la structure linguistique, notamment avec son

découpage en segments discursifs : le discours étudié dans notre exemple consiste

donc en 3 segments discursifs DS1, DS2 et DS3 ;

• la partie centrale du schéma 2 représente l’état attentionnel, et notamment la pile

formée par les espaces focaux liés aux segments discursifs : on pourra ainsi voir la

représentation des espaces FS1, FS2 et FS3 correspondant respectivement aux

segments discursifs DS1, DS2 et DS3 ;

• la partie de droite, finalement, représente la structure intentionnelle du discours

analysé, et plus particulièrement les relations unissant les DSP 1, 2 et 3 au sein de

la hiérarchie de domination ; on voit ainsi que DSP1 domine à la fois DSP2 et

DSP3.

La partie supérieure (sous-titrée « a ») du schéma montre l’état du système au moment

du traitement de DS2. On remarque que FS2 se trouve au sommet de la pile attentionnelle,

juste au dessus de FS1 ; cet état s’explique d’une part par le fait que DS1 précède DS2 (FS1

doit en conséquence se trouver sous FS2) et d’autre part par le fait que DSP1 domine DSP2 (il

doit donc rester dans la pile).

La partie inférieure (sous-titrée « b ») du schéma montre l’état du système au moment

du traitement de DS3. On remarque que FS3 se trouve au sommet de la pile attentionnelle,

juste au dessus de FS1, et que FS2 en a été supprimé ; cet état s’explique d’une part par le fait

que DS1 précède DS3 (FS1 doit en conséquence se trouver sous FS3) et d’autre part par le fait

que DSP1 domine DSP3 (il doit donc rester dans la pile) ; FS2 disparaît en revanche car

DSP3 n’entre pas dans notre exemple dans une relation de domination avec DSP2.


109

Figure 9 : Représentation de l’état attentionnel en fonction de la structure linguistique (à

gauche) et de la hiérarchie de domination de la structure intentionnelle

(schéma 1 de Grosz & Sidner 1986, p. 181).

L’article fondateur de Grosz & Sidner présente bien plus que ces principes

fondamentaux de l’organisation de la structure discursive50, mais le cadre de notre travail 50 On notera d’une part deux exemples de textes attestés sont analysés en détail, et d’autre part une réflexion

approfondie non seulement sur les problèmes internes de détermination des segments discursifs, de la

reconnaissance des intentions, du fonctionnement de la pile attentionnelle, mais aussi sur les problèmes


110

nous fera retenir plus particulièrement l’aspect novateur de la démarche d’ensemble : la

structure du discours est ainsi abordée comme un système complexe impliquant la synergie de

faits linguistiques (structure linguistique) et cognitifs (structure intentionnelle et état

attentionnel). Comme nous le verrons plus tard, ce modèle et ces développements constituent

une approche d’importance dans le cadre plus spécifique de l’anaphore discursive.

Nous venons de donner un aperçu d’une approche multidimensionnelle du discours ;

cette approche, où trois dimensions s’interpénètrent pour rendre compte de la structure

discursive, constitue ainsi une première étape dans l’analyse du discours (et pas seulement du

texte) : les phénomènes linguistiques et informationnels, déjà étudiés par la linguistique

textuelle, sont ici traités par l’intermédiaire des concepts de structure linguistique et d’état

attentionnel ; on remarquera de plus l’introduction de la dimension intentionnelle dans

l’analyse du discours, conformément au « tournant pragmatique » que nous mentionnions au

chapitre 1 de cette thèse (notamment avec le concept de signification non-naturelle introduit

par Grice). Mais ne constitue qu’une première étape dans cette analyse multidimensionnelle

du discours en tant que phénomène lié à la réalisation d’actions dans un contexte linguistique,

cognitif, social, émotionnel, etc. On peut en effet considérer que le discours se déploie

simultanément dans toutes ces dimensions de la communication humaine, et que l’analyse du

discours se doit dès lors de rendre compte de ce phénomène. On pourra alors comprendre le

Modèle Genevois d’analyse du discours, vers lequel nous nous tournons à présent, comme

une tentative dans cette direction plus holistique.

2.2 Un modèle hétérarchique du discours

Le Modèle Genevois (ci-après MG) d’analyse du discours a reçu sa première

formulation en 1985 dans L’articulation du discours en français contemporain (Roulet et al.

1985) ; le dernier développement du MG, Roulet et al. 2001, constitue une systématisation

des analyses proposées dans la version originelle, mais propose une vision foncièrement

multidimensionnelle et modulaire du discours. C’est cette version que nous allons présenter

dans la suite de cette section.

L’objectif général présenté dans Roulet et al. 2001 est d’« élaborer progressivement un

modèle global permettant d’intégrer et d’articuler les dimensions linguistiques, textuelles et

« externes » de positionnement par rapport à la théorie de la signification non-naturelle de Grice ou encore par

rapport aux approches rhétorique du discours que l’on trouve dans les travaux de Grimes, Hobbs ou Mann &

Thompson.


111

situationnelles de l’organisation du discours. » (p. 6). La démarche implique la perception du

modèle comme un « instrument de représentation, un instrument de description et un

instrument de développement » (ibid. : p. 7) ; le MG propose ainsi non seulement de

représenter et de décrire les différentes dimensions et formes d’organisation de discours

authentiques particuliers et les interrelations entre celles-ci » (ibid. : p. 7), mais aussi de

fournir un cadre de développement destiné à permettre la formulation de questions spécifiques

aux discours analysés et la réévaluation et l’éventuelle révision des axiomes de départ.

2.2.1 Influences

Les travaux genevois revendiquent des racines francophones et anglo-saxonnes.

L’héritage francophone concerne principalement l’approche énonciativiste du langage : l’on

s’intéresse alors principalement à la subjectivité de l’énonciateur et au caractère dialogique et

interactionniste de la communication. Les racines sont à trouver dans les travaux du linguiste

suisse Charles Bally qui propose notamment, entre les linguistiques de la langue et de la

parole, une linguistique de l’énonciation ou « stylistique », fondatrice, selon les auteurs, de

l’analyse du discours telle qu’ils l’envisagent : prenant en compte les marques de subjectivité

dans le discours, Bally est a l’origine de la relativisation du rôle des informations purement

linguistiques dans la constitution du discours par rapport aux données situationnelles et mimo-

gestuelles :

« Le contexte évoque des mots, et la situation des représentations ; mais, encore une fois, les uns et

les autres jouent le même rôle dans le discours. » (Bally 1944 : p. 44 ; cité dans Roulet et al. : p.

12)

On pensera aussi à la distinction informationnelle effectuée par Bally 1944 entre

« thème » et « propos », plus particulièrement dans la description de la « phrase segmentée »

(par exemple dans les extractions du type « Moi, je n’arrive pas à résoudre ce problème » cité

dans Roulet et al. 2001 : p. 13). On terminera le listage de l’héritage francophone par la

distinction proposée entre « pensée personnelle » et « pensée exprimée », à l’origine selon les

auteurs du dialogisme de Bakhtine 1977 et de la polyphonie de Ducrot et al. 1980.

Mais cette tradition francophone se concrétise aussi par une démarche descendante, de

l’interaction aux unités de la langue, comme le préconisait Bakhtine 1977 :

« L’ordre méthodologique pour l’étude de la langue doit être le suivant :

1. Les formes et les types d’interaction verbale en liaison avec les conditions concrètes où celle-ci

se réalise.


112

2. Les formes des énonciations distinctes, des actes de parole isolés, en liaison étroite avec

l’interaction dont ils constituent les éléments […].

3. A partir de là, examen des formes de la langue dans leur interprétation linguistique habituelle. »

(Bakhtine 1977 : p. 137 ; cité dans Roulet et al. 2001 : p. 16)

L’héritage anglo-saxon du MG est à chercher d’une part du côté des philosophes du

langage, avec Austin et Searle et d’autre part du côté des sociologues et des analystes de la

conversation tels que Goffman, Sacks ou Schegloff. Les philosophes du langage, et

notamment Austin 1970 et Searle 1972, sont à l’origine de deux concepts importants du MG :

l’acte de parole, tout d’abord, a inspiré la délimitation de l’unité fondamentale du MG, et la

notion d’illocutoire apporte une dimension fonctionnelle utilisée dans différentes approches

de « logique illocutoire » telles que celles proposées par Searle & Vanderveken 1985,

Ghiglione & Trognon 1993 ou Trognon & Brassac 1989, 1992 et 1993 et que l’on retrouve

également dans le modèle.

L’apport de Goffman 1974 se retrouve particulièrement dans le concept d’échange

(« confirmatif » ou « réparateur »), deuxième unité discursive d’importance pour le MG. Les

travaux conversationnalistes tels que Sacks 1992 ou Schegloff 1980 et 1996, même s’ils sont

considérés comme méthodologiquement inadéquats (Roulet et al. 2001 : p. 22), constituent

cependant un modèle de détail d’analyse de données authentiques.

On notera finalement que la dimension cognitive du discours, elle aussi prise en compte

dans le MG, s’inspire de la notion de « mémoire discursive » empruntée à Berrendonner 1983

et 1990.

On peut ainsi, d’après ces influences avouées, définir l’approche du MG selon les axes

suivants (p. 25) :

• un objet d’étude : « Le discours comme interaction verbale située, dans ses dimensions

linguistiques et situationnelles » ;

• une méthodologie descendante, « de l’interaction verbale aux formes qui la

constituent, échanges, interventions et actes » ;

• une insistance particulière sur l’organisation hiérarchique du discours ;

• la formulation d’hypothèses concernant les relations des constituants avec la mémoire

discursive ;

• les notions de dialogisme et de polyphonie ;


113

• le repérage de séquences narratives, délibératives, etc. ;

• l’interprétation inférentielle de l’interaction ;

• la gestion des faces des interactants.

2.2.2 Structure du modèle

Les paramètres pris en compte sont, on le voit, fort nombreux et hétérogènes ; il est

alors important de se questionner sur la nature d’un modèle capable de les intégrer au sein

d’une démarche cohérente et systématique. La réponse apportée à cette question par les

auteurs consiste à choisir une structure modulaire hétérarchique. Le MG s’organise donc de la

manière suivante :

• trois composantes fondamentales sont identifiées :

o la composante situationnelle, liée à la situation d’interaction ;

o la composante textuelle, liée à la structure hiérarchique du texte ;

o la composante linguistique, liée au lexique et à la syntaxe de la variété de

langue utilisée par les interactants.

• Cinq modules correspondant à cinq types d’information fondamentale pouvant être

décrite de manière indépendante :

o le module interactionnel (composante situationnelle), qui « définit les

propriétés matérielles de la situation d’interaction du discours et des situations

d’interaction qu’il représente à différents niveaux : canal écrit ou oral,

alternance des tours de parole ou d’écriture, nombre d’interactants, co-présence

ou distance spatio-temporelle entre ceux-ci, réciprocité ou non de la

communication » (ibid. : p. 46) ;

o le module référentiel (composante situationnelle), dont l’objectif est de décrire

« les représentations mentales, conceptuelles et praxéologiques, des activités,

ainsi que des êtres et des objets qui constituent les univers dans lesquels le

discours s’inscrit et dont il parle. » (ibid. : pp. 45-46) ;

o le module hiérarchique (composante textuelle), qui « définit les catégories et

les règles permettant d’engendrer les structures hiérarchiques de tous les textes

possibles ; il distingue trois catégories de constituants : l’échange,


114

l’intervention et l’acte, et trois types de rapports entre ceux-ci : la dépendance,

l’interdépendance et l’indépendance » (ibid. : p. 45) ;

o le module lexical (composante linguistique), conçu comme un « dictionnaire

définissant la prononciation, l’orthographe, les propriétés grammaticales et le

sens des mots des différents variétés de la langue » (ibid. : p. 44);

o le module syntaxique (composante linguistique) : « ensemble de règles

déterminant les catégories et les constructions des clauses en usage dans une

langue ou variété de langue ; il indique aussi les instructions qui sont fournies

par certains morphèmes […] et qui visent à faciliter l’interprétation du

discours » (ibid. : p. 45).

• Sept formes d’organisation élémentaires, résultat du couplage d’informations

provenant uniquement de différents modules :

o la forme d’organisation sémantique (informations lexicales et syntaxiques), qui

décrit « les représentations sémantiques (ou formes logiques) des clauses, qui

constituent une des entrées des processus inférentiels » (ibid. : p. 47) ;

o la forme d’organisation phono-prosodique (informations lexicales et

syntaxiques), dont la fonction est de traiter « des représentations qui résultent

du couplage entre les structures syntaxiques et les informations sur les

propriétés phono-prosodiques des lexèmes » (ibid. : p. 47) ;

o la forme d’organisation relationnelle (informations hiérarchiques, lexicales

et/ou référentielles), dont l’objectif est de décrire les « relations illocutoires et

interactives entre les constituants du discours » (ibid. : p. 48) ;

o la forme d’organisation opérationnelle (informations hiérarchiques et

référentielles), qui, s’appuyant sur la structure de l’échange et la structure des

actions, « permet d’intégrer les descriptions des dimensions verbales et

actionnelle du discours » (ibid. : p. 47) ;

o la forme d’organisation séquentielle (informations hiérarchiques et

référentielles), qui « vise à définir et à repérer dans le discours des séquences

typiques : narrative, descriptive et délibérative » (ibid. : p. 48) ;


115

o la forme d’organisation informationnelle (informations hiérarchiques,

linguistiques et/ou référentielles), qui « repère le topique et le propos de

chaque acte » (ibid. : p. 48) ;

o la forme d’organisation énonciative (informations linguistiques et

interactionnelles), dont le but est de définir et de distinguer « les segments de

discours produits et représentés dans le discours par les locuteurs-scripteurs, à

différents niveaux d’emboîtement » (ibid. : p. 48).

• Finalement, cinq formes d’organisation complexes, issues du couplage d’informations

provenant des modules ou des formes d’organisation élémentaires :

o la forme d’organisation compositionnelle (modules hiérarchique, référentiel et

linguistique ; organisations séquentielle et relationnelle), traitant « des formes

et des fonctions des séquences typiques décrites dans l’organisation

séquentielle » (ibid. : p. 49) ;

o la forme d’organisation périodique (module hiérarchique ; organisation phono-

prosodique), qui s’intéresse à « la ponctuation du discours, tant à l’oral qu’à

l’écrit » (ibid. : p. 49) ;

o la forme d’organisation topicale (modules hiérarchique, référentiel et

linguistique ; organisation informationnelle)51, qui décrit « l’enchaînement des

informations dans le discours » (ibid. : p. 49) ;

o la forme d’organisation polyphonique (modules hiérarchique, référentiel,

linguistique et interactionnel ; organisations relationnelle et topicale)52, qui

s’attache à l’analyse « des formes et des fonctions, dans le discours analysé,

des discours représentés décrits dans l’organisation énonciative » (ibid. : p.

49) ;

o la forme d’organisation stratégique (modules référentiel, interactionnel et

hiérarchique ; organisation relationnelle et topicale), centrée sur « les relations

de faces et de places entre les interactants » (ibid. : pp. 49-50) ;

51 Roulet et al. (p. 49) mentionne ici l’influence d’une organisation « inférentielle », qui n’apparaît pourtant nulle

part dans la présentation d’ensemble des éléments du MG. 52 Idem note 17.


116

La figure 10 ci-dessous présente ces modules et ces formes d’organisation de manière

plus synthétique :

Figure 10 : Modules et formes d’organisation du MG

(d’après la figure 1 de Roulet et al. 2001 : p. 51).

Le choix d’une approche modulaire inspirée de Simon 1962 consiste à décomposer ce

système complexe qu’est le discours en systèmes plus simples décrits indépendamment les

uns des autres. Les modules sont insérés dans une démarche non fodorienne qui consiste à les

considérer non pas comme des systèmes encapsulés, mais plutôt des systèmes spécifiques

quant au type d’information qu’ils traitent. Les auteurs s’appuient sur Nølke 1994 pour

affirmer que

« chaque module doit fournir une description du dispositif dont il traite qui soit exhaustive,

cohérente, maximalement économique et notionnellement indépendante des autres modules. »

(Nølke 1994 : p. 77 ; cité dans Roulet et al. 2001 : pp. 31-32)


117

Les modules, finalement, sont organisés au sein d’une structure hétérarchique au sens de

Sabah 1989 qui implique une hiérarchie mais n’interdit pas les interactions multiples entre les

modules.

Notre objectif n’est pas de fournir une description exhaustive du MG, mais nous

pensons qu’il est intéressant d’avoir un aperçu d’une version que l’on pourrait qualifier de

maximaliste de l’approche multidimensionnelle du discours. Le MG constitue ainsi, avec ces

dimensions, ces modules et ces formes d’organisation, une reconnaissance explicite de la

nature fondamentalement complexe du concept de discours en tant que lieu de rencontre

d’informations linguistiques, textuelles et situationnelles impliquant les aspects cognitifs,

sociaux et affectifs des participants à l’interaction.

2.3 Synthèse

Il est important de noter que les différentes approches que nous avons mentionnées dans

les sections précédentes abordent le concept de discours de manières fort différentes : la

première conception que nous avons abordée ne concerne pas directement le discours lui-

même, mais mentionne un modèle discursif (cf. Prince 1981) construit à partir d’une unité

« texte » conçue comme un ensemble d’instructions ; le modèle de Grosz & Sidner 1986

aborde plus directement le concept et propose une conception selon laquelle le discours est un

exemplaire de comportement humain impliquant un ensemble d’énoncés et un ensemble de

participants ; le MG, finalement, considère le discours comme une « interaction verbale

située, dans ses dimensions linguistiques et situationnelles ». Ces deux approches explicites

de la notion de discours semblent ainsi avoir en commun le fait d’impliquer une unité

« discours » (comportementale ou interactionnelle) dont l’architecture repose sur des éléments

linguistiques (au sens large, incluant les aspects mimo-gestuels), psychologiques et

situationnels. Comme nous allons le voir, ce type de conception, bien que commun à nombre

d’auteurs, ne fait pas l’unanimité. C’est donc vers ce questionnement du statut du discours en

tant qu’unité que nous nous tournons à présent.


118

3 Un object « discours » ?

Les sections précédentes ont rapidement montré comment le concept de discours a pu se

développer à partir (voire même en réaction vis-à-vis) de celui de texte ; comme nous l’avons

vu, les conceptions actuelles les plus répandues considèrent le discours comme un objet

multidimensionnel comprenant une dimension textuelle parmi un nombre variable d’autres

dimensions. On est cependant en droit de s’interroger sur la nature véritable du concept de

discours : en effet, abordé indirectement par Prince 1981, défini de manière provisoire par

Grosz & Sidner 1986 comme une activité de langage, ou encore saisi par Roulet et al. 2001

comme interaction située, le concept de discours semble encore quelque peu nébuleux. En

conséquence, l’objectif de cette dernière section sera de proposer une réflexion plus

approfondie sur la nature même de ce concept et sur sa pertinence.

3.1 Quel objet « discours » ?

Nous avons vu que le discours était à l’origine (et est encore dans nombre de travaux,

comme le remarque Cornish 2003a) un concept coextensif avec celui de texte à partir duquel

il s’est pourtant constitué d’un point de vue historico-conceptuel. Nous allons aborder deux

des stratégies communément utilisées pour la définition du concept. La première, étant donné

le contexte que nous venons de rappeler, consiste à adopter une appréhension contrastive du

discours : le discours est alors défini de manière indirecte, en relation oppositive avec le texte.

La seconde approche consiste à définir le discours de manière plus positive, non plus en

relation avec le texte, mais de manière plus interne, par le biais de sa cohérence.

3.1.1 Discours vs. texte

Comme le souligne à juste titre Carter Thomas 2000 (p. 27), la langue courante réserve

le terme « texte » à un document écrit et le terme « discours » à une communication orale. Cet

usage oppose les conceptions ordinaires de texte et de discours dans les deux dimensions

orthogonales que sont leur mode d’expression et leur nature. Ainsi, le mode d’expression

utilisé pour le texte est celui de l’écrit alors que le discours utilise l’oral ; cette opposition

n’est pas pertinente en linguistique où l’on parle par exemple de « texte oral » ou de « texte

écrit ». La seconde opposition concerne la nature même des phénomènes : le texte est ainsi

avant tout perçu comme un objet, un « document », alors que le discours comporte une

dimension processuelle, comme le laisse entendre la nature déverbale du nom

« communication ».


119

Il est intéressant de noter que cette seconde opposition semble assez souvent retenue en

linguistique53 : on prendra pour exemple la réflexion présentée dans Brown & Yule 1983 (pp.

23-25) et qui oppose le texte en tant que produit (« text-as-product view ») au discours en tant

que processus (« discourse-as-process view ») qui le fabrique.

Intéressons-nous tout d’abord au texte : ce dernier peut, dans le cadre que nous venons

d’évoquer, être défini comme « the verbal record of a communicative act » (Brown & Yule

1983 : p. 6) ou encore « the phonologically transcribable product of everyday language

behaviour » (Lyons 1977 : p. 631 ; cité dans Cornish 1999 : p. 33). Cette conception est

exprimée de manière absolument explicite par Cornish 1990 :

« le texte est la trace enregistrée d’un acte de communication (d’une énonciation) donné, qu’il ait

eu lieu au moyen de la forme parlée ou écrite ; au niveau de celle-là, il comprend non seulement le

contenu verbal des énoncés produits, mais également le contour intonatif, les emphases, et tout

l’ensemble des signes paralinguistiques mis en jeu au cours de l’acte en question. Au niveau de

celle-ci, il se compose, en plus du contenu verbal, de l’ensemble des signes de ponctuation et des

phénomènes typographiques tels que la mise en page, l’emploi d’italiques, et la présence de

graphiques, d’images ou de photos. » (Cornish 1990 : p. 82)

A en croire ces définitions, si le concept de discours est historiquement second par

rapport à celui de texte, un texte donné constitue néanmoins la trace d’un discours. Cette

vision semble cependant contradictoire avec celle qui présente le texte comme élément

impliqué dans la construction du discours ; c’est par exemple la position adoptée par Prince

1981 pour qui le texte est un « set of instructions from a speaker to a hearer on how to

construct a particular discourse model » (Prince 1981 : p. 235), par Gumperz 1992, qui parle

de « contextualization cues », et même par Cornish 1990 qui poursuit :

« En tant que tel, le texte représente un vivier d’indices qui va permettre à l’interlocuteur ou au

lecteur de reconstruire le discours que le locuteur ou le scripteur, selon toute probabilité, aura

construit (dans le cas de l’interlocuteur, il s’agirait alors d’une conversation ou d’une forme de

dialogue, et donc d’une construction mutuelle du discours en question). » (Cornish 1990 : p. 82)

Deux conceptions possibles du concept de texte semblent ainsi s’opposer : le « texte-

trace » et le « texte-indice ». Cette dualité est possible à maintenir à condition de prendre en

considération l’aspect dynamique du discours : considérant que le phénomène « discours »

évolue dans le temps, le texte peut très bien être la trace d’un discours à l’instant t et servir

d’indice pour l’évolution de ce même discours à l’instant t+1. Ce type de justification 53 A titre d’exemple, on pensera à Widdowson 1979, Grize 1981, Adam 1990, Cornish 1990 ou encore

Apothéloz 1995.


120

implique cependant que nous ayons une définition unifiée du concept de discours en fonction

de ce concept temporalisé de « texte ».

Nous allons à présent nous intéresser au concept de discours dans un cadre comparable

à celui utilisé pour le texte. Ainsi, si l’on reprend les définitions données plus haut, le discours

peut être appréhendé, par opposition au texte, comme « a communicative act » (Brown &

Yule 1983 : p. 6), « everyday language behaviour » (Lyons 1977 : p. 631 ; cité dans Cornish

1999 : p. 33) ou encore « un acte de communication » (Cornish 1990 : p. 82). Ces définitions

oppositives, ainsi que la position d’Apothéloz 1995 (« la relation entre discours et texte est

une relation entre une activité (elle-même décomposable en une suite d’actes énonciatifs) et la

trace laissée par cette activité » ; pp. 157-158), semblent compatibles avec la conception du

discours en tant que processus.

On pourrait en rester là, mais les choses se compliquent si l’on reprend la définition

donnée par Cornish 1990 ; en effet il est question dans cette définition de « construire », de

« reconstruire » et même de construire « mutuellement » le discours. Ce discours que l’on

construit ne peut pas être le « discours-acte de communication » que nous venons de postuler ;

s’il est question de (re)contruction, c’est en fait un autre aspect du concept de discours que

l’on évoque, un aspect plus cognitif. Cornish 1990 et (particulièrement) 2003a montrent bien

cette dualité du discours perçu à la fois comme acte de communication et comme activité

d’interprétation. Cornish 2003a propose tout d’abord la définition suivante du concept de

discours :

« Discourse : the hierarchically structured, situated sequence of indexical, utterance and

illocutionary acts carried out in pursuance of some communicative goal, as integrated within a

given context. » (Cornish 2003a : p. 3)

Une page plus loin, après avoir explicité le concept de texte, l’auteur défini le discours

de la manière suivante :

« Discourse, on the other hand, designates the outcome of the hierarchically structured, mentally

represented sequences of utterance, illocutionary and indexical acts which the participants are

engaging in as the communication unfolds. » (ibid. : p. 4)

Page suivante, on trouve cette troisième définition :

« the situated construction and interpretation of a message via a given text relative to some

context, in terms of the speaker’s or writer’s intentions » (ibid. : p. 5)

Ces trois définitions constituent autant d’éclairages sur les aspects multiples du

discours. Ainsi, la première conforte la vision classique du « discours-acte de


121

communication » : l’approche s’inscrit dans une conception pragmatique de la

communication, fondée sur la théorie des actes de parole mentionnée au chapitre 1 de cette

thèse54 et centrée, comme cette théorie, sur le locuteur. Les deuxième et troisième définitions

adoptent quant à elles une position plus explicitement cognitive : il y est question de

représentation mentale (deuxième définition) et d’« interprétation » (troisième définition) des

actes de communication : le discours est donc ici présenté comme un processus de

construction et d’interprétation d’un message, et pas simplement comme une activité de

production de la part du locuteur55.

Ce rapide survol de quelques définitions relationnelles et contrastives des concepts de

texte et de discours nous pousse ainsi en définitive à concevoir deux concepts de texte et deux

concepts de discours. Parti d’une distinction consensuelle entre « texte-produit » et

« discours-processus », nous aboutissons finalement à d’une part un « texte-trace » ou un

« texte-indice », et d’autre part un « discours-acte de communication » ou un « discours-

processus d’interprétation ». Une telle situation est envisageable, mais pose en tout état de

cause un problème certain pour qui voudrait donner une vision unifiée d’un objet « discours »

homogène. On peut comprendre dès lors un deuxième type de stratégie qui aborderait le

concept de discours non plus de manière contrastive, mais de manière plus interne et positive ;

c’est en conséquence vers ce type d’approche que nous nous tournons à présent.

3.1.2 Discours et cohérence

Adopter une stratégie interne de définition du discours peut conduire à proposer le

concept de cohérence comme caractéristique définitoire du discours. Comme nous l’avons vu

plus haut, cette démarche se heurte à de nombreux problèmes : les premières tentatives,

centrées à vrai dire sur le texte plus que sur le discours, et qui tentaient de formaliser la notion 54 Searle 1969, qui est à l’origine de la terminologie utilisée dans Cornish 2003a, aurait sans doute parlé d’actes

« référentiels » plutôt qu’« indexicaux ». Nous noterons de plus que parler d’actes « propositionnels », qui

regroupent les actes « référentiels » et les actes « prédicatifs », aurait permis de ne pas omettre ces derniers, dont

Francis Cornish a lui-même montré la pertinence dans le cadre de l’anaphore (notamment avec le concept de

« segment indexical »). 55 Nous laisserons de côté une analyse détaillée de la seconde définition, mais nous soulignerons sa particularité

qui consiste à présenter en fait le discours comme la résultante (« the outcome ») d’une suite d’actes représentés

mentalement, et pas simplement la représentation de cette suite d’actes ; une telle conception, non explicitée par

Cornish 2003a, semble impliquer une hiérarchie à trois niveaux avec un « discours-acte de communication »

(niveau 0) interprété lors du « discours-processus d‘interprétation » (niveau 1) et dont le résultat serait cette

troisième conception.


122

de cohérence par une ensemble de (méta-)règles, ont abouti à un échec. On a alors proposé de

dissocier les concepts de texte et de discours, le premier étant caractérisé par la cohésion,

linguistiquement codée dans le texte, alors que le second s’appuie sur la cohérence, propriété

cognitive. Or, contrairement à la propriété de grammaticalité des phrases, la cohérence du

discours est, nous l’avons dit, une propriété graduelle : un discours peut être plus ou moins

cohérent, tel discours peut être plus cohérent que tel autre, pis encore, un discours peut être

incohérent.

Se pose alors un problème existentiel au sens fort du terme : si la cohérence est la

propriété définitoire d’un discours et qu’un discours peut être sans cohérence, un tel discours

est-il toujours un discours dans ce cas-là ? En d’autres termes, un discours cesse-t-il d’être un

discours s’il n’est pas cohérent ? Il est important de remarquer que cette question a aussi été

posée concernant la phrase et sa propriété de grammaticalité. Le cœur du problème réside

dans la notion même de règle. On pourra alors par exemple penser à la distinction opérée par

Searle 1965 entre règles « constitutives » et règles « régulatives » : dans ce cadre la cohérence

pourrait ainsi être associée à un ensemble de règles régulatives et non pas constitutives du

discours ; elle en expliquerait le fonctionnement, sans pour autant le définir. Une autre option

consiste à abandonner purement et simplement le principe de règle au profit de celui de

contrainte : la cohérence serait alors liée à la satisfaction potentiellement partielle d’un

ensemble ordonné de contraintes ; on peut penser dans cette perspective aux travaux d’Adam

Buchwald au sein d’une version bidirectionnelle de la Théorie de l’Optimalité (Buchwald et

al. 2002), ou encore à la notion de « caractérisation » proposée dans le cadre des Grammaires

de Propriétés (cf. Blache 2001).

Reste cependant le problème majeur lié à la nature fondamentalement cognitive et

interprétative de la cohérence : quelle que soit l’approche de la cohérence imputée au

discours, que ce soit en termes de (méta-)règles, de contraintes, à un niveau global ou local

(avec la notion de « relations de cohérence », cf. les travaux de Hobbs ou la RST de Mann &

Thompson), le phénomène consiste toujours en un processus cognitif d’interprétation, et ne

semble donc pas être une propriété inhérente à l’objet sur lequel porte cette interprétation.

Cette réflexion nous pousse à abandonner le concept de cohérence comme définissant le

discours : la cohérence n’en est en effet ni une propriété nécessaire ni une propriété suffisante,

ni même, en définitive, une propriété spécifique tout court.


123

Si l’on veut sauvegarder le principe d’un concept linguistique « discours » en dépit de

cet échec de l’héritage générativiste de l’analyse du discours, la seule solution semble être de

s’accrocher à l’héritage structuraliste qui pose le discours comme unité supérieure à la phrase

ou, a minima, comme unité compositionnelle régie par des règles spécifiques56 ; dans cette

seconde perspective, la définition d’une unité minimale entrant dans la constitution du

discours constitue une condition indispensable. Etudions ces options tour à tour.

Comme l’a indiqué Benveniste 1966 le passage de la phrase au discours constitue un

saut phénoménal qui nous pousse hors de la sphère de la linguistique structurale. Le concept

de phrase pose en fait deux problèmes majeurs, l’un interne et l’autre plus externe. Le

problème interne du concept de phrase réside dans l’absence de pertinence linguistique de ce

concept. En effet, comme le souligne Roulet et al. 2001 (p. 60), le concept de phrase « n’est

pas pertinent au niveau de la syntaxe de la langue ; à titre d’exemple, on notera que la

tagmémique (cf. par exemple Pike & Pike 1983) a ainsi montré qu’au sein d’une phrase

regroupant une proposition principale et au moins une proposition subordonnée, la

proposition subordonnée occupe en réalité une position de constituant au sein de la

proposition principale ou de l’un de ses constituants. Milner 1989 a de plus montré que la

coordination de deux propositions ne justifiait pas le recours à la phrase en tant qu’unité de

rang supérieur : en effet, la coordination de deux syntagmes nominaux occupent la même

position et a la même fonction qu’un syntagme nominal simple ; il n’y a dès lors pas de raison

de postuler que la coordination de deux propositions donne naissance à une unité supérieure

« phrase » (Milner 1989 : p. 482). La phrase, d’un point de vue interne, ne constitue pas une

unité différente de la proposition, et n’a donc, en ce sens, aucune raison d’être :

« il n’y a pas de différence de propriétés entre phrase et proposition. La phrase est une proposition.

La proposition est une phrase. » (Milner 1989 : p. 508 ; cité dans Roulet et al. 2001 : p. 61)

D’un point de vue plus externe, on notera que, dans la perspective de l’analyse de

données orales authentiques, la phrase se révèle être là aussi une unité non pertinente

(Blanche-Benveniste et al. 1990 ; Di Cristo 2000). Ceci, malgré les propositions récentes de

Charolles & Combettes 199957, nous pousse à écarter la phrase en tant que candidat au statut

d’unité entrant dans la composition de l’unité « discours ».

56 Correspondant alors à une unité formelle émergente 1 telle que définie par Reboul et Moeschler 1998 : pp. 23-

24. 57 Ces auteurs postulent en effet (pp. 107ff) que les principes qui unissent les syntagmes au sein de phrases ne

sont pas fondamentalement différents de ceux qui unissent les phrases entre elles au sein du discours, rejetant par


124

Dès lors, plusieurs candidats au statut d’unité discursive minimale sont disponibles :

• une première proposition consiste à recourir à la conception de « phrase en usage »

(cf. Reboul & Moeschler 1998) ou « énoncé » ;

• une seconde solution, proposée notamment par les tenants de la théorie des actes de

langage, et reprise dans Grosz & Sidner 1986 ou dans Cornish 2003a, consiste à

adopter l’acte ;

• une troisième solution consiste à postuler l’unité « clause » (cf. par exemple

Berrendonner 1990 et 1993), définie comme unité minimale à fonction

communicative, articulant les niveaux de la micro- et de la macro-syntaxe ;

Si nous nous en tenons à cette liste bien évidemment non exhaustive des unités

minimales potentielles du discours, il semble que nous puissions regrouper les deux premiers

candidats (l’énoncé et l’acte de langage) et les séparer du troisième (la clause).

Définir l’énoncé comme « phrase en usage », comme le propose Reboul & Moeschler

1998, implique la pertinence linguistique de l’unité « phrase » ; or, comme nous venons de le

voir, cette unité ne semble pas pouvoir être retenue.

L’acte de langage tel que le définit Searle 1965 et 1969, s’il semble a priori se

distinguer du concept de phrase ou de proposition, repose en fait directement sur ce dernier :

les travaux de Searle, en effet, on principalement porté sur l’acte illocutionnaire réalisé lors

d’une production verbale, l’objectif étant d’en fournir une typologie et d’en expliquer les

règles de fonctionnement et de reconnaissance-compréhension. Or, comme l’indique, Searle

1965, un acte illocutionnaire implique généralement un contenu propositionnel indiqué par la

structure de la phrase :

« From a semantical point of view, we can distinguish between the propositional indicator in the

sentence and the indicator of illocutionary force. […] we can say for the purpose of our analysis

that the sentence has two (not necessarily separate) parts, the proposition-indicating element and

the function-indicating device. » (Searle 1965 : p. 226)

Le concept d’acte de langage se retrouve alors intimement lié au concept de phrase, ce

qui pose les problèmes que nous savons. Cette vision même de l’acte de langage a de plus été

remise en cause, notamment dans Rubattel 1987 et Auchlin 1993, qui montrent que des là même une dichotomie opposant linguistique de la lange et linguistique de la parole ; comme le souligne à juste

titre Roulet et al. 2001 (pp. 69-70), cette position, élude l’importance de la description de la relative stabilité

spécifique aux structures textuelles.


125

segments textuels non dotés d’une forme propositionnelle peuvent fonctionner comme des

actes58 ; comme l’indique Roulet et al. 2001 (p. 64), c’est le cas notamment pour des

syntagmes prépositionnels tels que « malgré la pluie » fonctionnant dans le discours de

manière identique à « bien qu’il pleuve », bien qu’il ne soit pas, contrairement à ce dernier,

pourvu d’une forme propositionnelle. C’est principalement pour cette raison que ce concept

d’acte a été abandonné par Roulet et al. 2001 alors qu’il constituait l’unité fondamentale de la

version originale du modèle présentée dans Roulet et al. 1985.

Dans ces conditions, Roulet et al. 2001 s’appuie sur le concept de clause proposé par

Berrendonner (Berrendonner & Reichler-Béguelin 1989 ; Berrendonner 1990 et 1993). La

clause peut être définie fonctionnellement comme « l’unité minimale de l’action langagière »

(Berrendonner 1993 : p. 22) ; c’est la plus petite unité délimitée par un passage en mémoire

discursive59. On voit que ce concept de clause, l’une des propositions récentes dans le

domaine de la délimitation de l’unité minimale du discours, est en fait intimement dépendant

d’une conception cognitive. Roulet et al. 2001 remarque que cet état de fait est plutôt logique

et s’étonne du fait que l’on ait envisagé la recherche d’une unité minimale simplement

linguistique pour le discours :

« Relevons en passant qu’il est pour le moins surprenant qu’on ait pu songer à définir une unité

pragmatique ou discursive à partir d’une forme linguistique. On a de bonnes raisons de penser que

la définition de l’unité textuelle minimale dépend davantage de l’organisation de l’activité

discursive que de la structure de la langue […]. » (Roulet et al. 2001 : p. 63)

En effet il semble logique que le concept de clause comporte une dimension cognitive :

la quête des unités semble avoir suivi le cheminement général de la thématique de la référence

et de l’anaphore (cf. chapitres 1 et 2), voire même de la linguistique en général, depuis des

conceptions logico-sémantiques (unité « phrase » ou « proposition ») jusqu’à des conceptions

cognitivistes (unité « clause ») en passant par des conceptions pragmatiques (unité « acte de

langage »).

Si nous acceptons, en plus de la dimension textuelle, la dimension cognitive du

discours, il est cohérent de proposer une unité qui les prenne toutes deux en compte. La clause

semble réaliser cette bidimensionnalité : en plus de l’aspect cognitif que nous venons de

mentionner, la clause, tout comme son unité supérieure, la « période », est définie par des

58 Ce constat a conduit à l’introduction du concept de semi-acte. 59 La mémoire discursive peut être définie comme « toutes et rien que les connaissances valides pour les

interlocuteurs et publiques entre eux » (Berrendonner 1993 : p. 48).


126

propriétés formelles textuelles ; le passage en mémoire discursive, qui sépare deux clauses, est

ainsi notamment indiqué par la possibilité d’utiliser indifféremment un pronom ou un

syntagme nominal pour marquer une relation de coréférence. Les exemples suivants, extraits

de Roulet et al. 2001 (p. 65), illustrent ce principe :

Ex (23) a. Mon voisin croit qu’il / *le brave homme est malade.

b. Mon voisin est venu me voir. Il / le brave homme croit qu’il est malade.

c. Mon voisin, il / le brave homme est malade.

L’exemple (23a), bien que composé de deux propositions est ainsi présenté comme

n’impliquant qu’une seule clause, du fait de l’impossibilité de substituer un syntagme au

pronom si l’on veut conserver une lecture coréférente avec l’expression « mon voisin » (cf.

principe C de la Théorie du Liage). Les exemples (23b) et (23c), en revanche, semblent

permettre une telle substitution60 : on considèrera donc que ces deux exemples sont composés

de deux clauses, chacune effectuant une opération en mémoire discursive.

Rappelons que le « sauvetage structural » que nous tentons d’opérer implique non

seulement l’identification des unités minimales du discours (et nous reconnaissons que la

clause est un bon candidat), mais aussi un ensemble de règles ou de principes spécifiques au

discours. Nous avons vu plus haut que les tentatives d’identification de règles de discours,

fondées sur le concept de cohérence, ont abouti à un échec ; ceci nous avait d’ailleurs conduit

à rejeter le concept interprétatif de cohérence. On se retrouve alors non seulement dans

l’impossibilité de fournir un principe spécifique de composition du discours à partir des

clauses, mais à bien y regarder, on est aussi dans l’incapacité de recourir au critère de

permutation-coréférence évoqué ci-dessus sans recourir par là même à un processus

interprétatif inférentiel.

On est donc apparemment confronté à un cercle vicieux : on ne peut pas conserver la

cohérence comme caractéristique interprétative du discours, ce qui nous pousse à essayer de

définir la structure discursive en termes d’unités minimales et de relations spécifiques ; les

unités minimales les plus plausibles, les clauses, impliquent pour leur identification un

principe interprétatif spécifique dont nous nous retrouvons dépourvu. Cette situation explique

la position de différents chercheurs qui rejettent purement et simplement la notion même de

60 L’exemple (23c) nous semble cependant plus délicat que l’exemple (23b).


127

discours en tant qu’objet d’étude. C’est ce point de vue que nous allons expliciter pour

terminer ce chapitre.

3.2 A-t-on besoin d’un objet « discours » ?

Plusieurs approches proposent d’analyser la communication langagière dans un contexte

interactionnel et cognitif sans pour autant avoir recours au concept de discours. Parmi ces

approches, la Théorie de la Pertinence (ci-après « RT » pour « Relevance Theory ») constitue

sans doute la plus explicite et la plus répandue : on pensera bien sûr aux travaux fondateurs de

Deirdre Wilson et de Dan Sperber (cf. Sperber & Wilson 1986, 1995, 2002, Wilson &

Sperber 2002), mais aussi aux travaux de Diane Blakemore (cf. Blakemore 2002) ou encore à

la critique du discours formulée dans Reboul & Moeschler 1998. Nous nous contenterons

dans cette dernière section de mentionner les grands principes de RT et de montrer comment

l’interprétation multidimensionnelle d’une production langagière située peut être représentée

sans recourir au concept de discours ; pour ce faire, nous suivrons les grandes lignes de

Wilson & Sperber 2002.

3.2.1 RT et la cognition

Selon les auteurs, la pertinence est une propriété fondamentale de la cognition ; ainsi,

tout stimulus externe ou toute représentation interne qui fournit une entrée aux processus

cognitifs peut être pertinente pour un individu donné à un moment donné (Wilson & Sperber

2002 : p. 250). Les interactants utilisent cette propriété de la cognition humaine dans le cadre

de la communication sans avoir recours au Principe de Coopération ou aux Maximes

Conversationnelles proposés par Grice 1989.

Dans le cadre de RT, un stimulus est pertinent pour un individu lorsque son traitement

dans un contexte donné fournit un « effet cognitif positif » (« positive cognitive effect »,

ibid. : p. 251), lié à une modification non triviale dans la représentation mentale de l’individu.

L’effet cognitif le plus important est l’« implication contextuelle », une conclusion obtenue à

partir de l’ensemble formé par un stimulus et un contexte. Parmi les effets cognitifs pouvant

être obtenus, on inclura aussi le renforcement, la révision ou l’abandon d’assomptions.

Mais la pertinence est une propriété graduelle et relative : un stimulus donné peut être

plus ou moins pertinent que tel autre pour un individu dans un contexte : on parlera alors de

pertinence en terme de pondération entre effet et effort cognitif. Dans le cadre de RT, on dira

que, toutes choses étant égales par ailleurs, plus l’effet cognitif fourni par le traitement d’un


128

stimulus est important, plus ce stimulus est pertinent. De manière symétrique, étant donnés les

degrés variables de travail que peut engendrer le traitement cognitif d’un stimulus (en

fonction de sa saillance notamment, ou de la difficulté d’accès ou de traitement de ses

implications contextuelles), on considèrera que, toutes choses étant égales par ailleurs, plus

l’effort cognitif requis pour le traitement d’un stimulus est important, moins ce stimulus sera

pertinent.

Ce fonctionnement inhérent à la cognition humaine est résumé dans le Principe Cognitif

de Pertinence qui stipule que la cognition humaine tend à s’orienter vers la maximisation de

la pertinence (ibid. : p. 254 ; notre traduction).

3.2.2 RT et la communication

La tendance générale de la cognition à maximiser la pertinence rend possible la

prédiction et la manipulation partielle des états mentaux d’autrui. De manière plus spécifique,

RT s’attache à la « communication ostensive-inférentielle », qui met en jeu des processus

linguistiques de codage-décodage ainsi que des processus cognitifs d’inférence, et qui

implique deux niveaux d’intentionnalité :

• l’intention informative : l’intention d’informer quelqu’un de quelque chose.

• L’intention communicative : l’intention d’informer quelqu’un de son intention

informative.

On dira donc que la compréhension est atteinte quand l’intention communicative est

satisfaite. Afin de satisfaire cette intention, le locuteur aura recours à un « stimulus ostensif »

dont la fonction est d’attirer l’attention des interlocuteurs. RT pose que l’utilisation d’un

stimulus ostensif génère des attentes de pertinence précises et prévisibles qui permettent aux

interlocuteurs d’identifier le sens du message voulu par le locuteur.

Ainsi, la tendance générale décrite par le Principe Cognitif de Pertinence encourage les

interlocuteurs à penser qu’un stimulus ostensif produit par le locuteur est pertinent. Ce

phénomène est capturé par le concept de Principe Communicationnel de Pertinence qui

indique que chaque stimulus ostensif implique la présomption de sa propre pertinence

optimale (ibid. : p. 256). Le concept de Pertinence Optimale implique d’une part qu’un

stimulus est suffisamment pertinent pour compenser l’effort de traitement consenti par les

interlocuteurs, et d’autre part que ce stimulus est le plus pertinent qui soit compatible avec les

préférences et les capacités du locuteur (ibid. : p. 256 ; notre traduction).


129

3.2.3 RT et la compréhension

Dans le cadre de RT, le processus de compréhension implique la satisfaction de

l’intention communicative et la reconnaissance de l’intention informative du locuteur. Dans la

communication verbale, cette reconnaissance est fondée sur le fait que « l’énoncé encode des

formes logiques (des représentations conceptuelles, aussi fragmentaires et incomplètes soient-

elles) manifestement choisies par le locuteur comme entrée du processus inférentiel de

compréhension de l’interlocuteur » (ibid. : p. 260 ; notre traduction). Ces formes logiques,

moins que propositionnelles, servent donc d’entrée au processus inférentiel de compréhension

qui comporte trois volets (ibid. : pp. 260-261) :

• Explicatures : construction d’une hypothèse appropriée concernant le contenu explicite

de l’énoncé par le biais de décodage, désambiguïsation, résolution référentielle, et

autres processus pragmatiques ;

• Prémisses implicitées : construction d’une hypothèse appropriée concernant les

assomptions contextuelles recherchées par le locuteur ;

• Conclusions implicitées : construction d’une hypothèse appropriée concernant les

conclusions contextuelles recherchées par le locuteur ;

Les auteurs insistent sur le fait que ces trois sous-tâches du processus de compréhension

ne sont pas séquentielles, mais simultanées et interactives :

« These sub-tasks should not be thought of as sequentially ordered. The hearer does not FIRST

decode the logical form of the sentence uttered, THEN construct an explicature and select an

appropriate context, and THEN derive a range of implicated conclusions. Comprehension is an on-

line process, and hypotheses about explicatures, implicated premises and implicated conclusions

are developed in parallel against a background of expectations (or anticipatory hypotheses) which

may be revised or elaborated as the utterance unfolds. In particular, the hearer may bring to the

comprehension process not only a general presumption of relevance, but more specific

expectations about how the utterance will be relevant to him (what cognitive effects it is likely to

achieve), and these may contribute, via backwards inference, to the identification of explicatures

and implicated premises. » (ibid. : pp. 261-262)

Le processus de compréhension lui-même est guidé par la procédure suivante, qui

s’appuie sur les différents concepts fondamentaux de RT :

« Follow a path of least effort in computing cognitive effects: test interpretive hypotheses in order

of accessibility; stop when your expectations of relevance are satisfied » (ibid. : p. 261)


130

3.2.4 Synthèse

Cette rapide présentation des grands concepts de la Théorie de la Pertinence a laissé de

côté des notions importantes telles que celle de « contexte », liée à celle de « savoir

mutuellement manifeste », ou encore la distinction proposée par Blakemore entre « sens

propositionnel » et « sens procédural » ; elle nous a néanmoins permis d’esquisser une

approche de la communication humaine organisée autour d’un principe fondamental (décliné

sous les deux aspects complémentaires que sont le Principe Cognitif et le Principe

Communicatif de Pertinence), sans pour autant faire appel à un quelconque objet « discours ».

Il convient de noter que plusieurs des différentes dimensions proposées dans les

approches du discours que nous avons évoquées plus haut peuvent être prises en compte dans

RT61 : on pensera notamment à la structure intentionnelle et à l’état attentionnel de Grosz &

Sidner 1986, ou encore aux formes d’organisation sémantique, informationnelle,

opérationnelle, énonciative, polyphonique, etc. du Modèle Genevois. Certains aspects,

cependant, plus liés à une approche socio-interactionnelle de la communication, semblent ne

pas faire l’objet d’études systématiques dans le cadre de RT, faute sans doute de chercheurs

intéressés …

Nous ne trancherons pas ici le débat qui oppose depuis de nombreuses années les

partisans du discours aux adeptes de la pertinence, mais nous pensons qu’il est intéressant de

mettre en évidence le fait que le discours ne va pas de soi, ne constitue pas une donnée

immanente inévitable, mais plutôt une proposition d’objet construit par et parfois pour

certaines approches théoriques.


Après avoir, dans le chapitre précédent, montré les apories liées aux descriptions

traditionnelles de l’anaphore, nous avons suggéré que le concept alors encore nébuleux de

discours pouvait nous permettre de proposer des solutions intéressantes. Que le lecteur se

rassure, telle est toujours notre opinion malgré la situation complexe qui semble se dessiner

concernant le concept même de discours. Le présent chapitre a ainsi été le lieu d’un rapide

survol « historico-conceptuel » de ce concept : nous avons ainsi montré comment,

conformément à l’évolution que nous avons soulignée pour la thématique de la référence en

61 Une visite de la bibliographie RT en ligne (www.ua.es/dfing/rt.htm) permet d’avoir un aperçu des domaines

nombreux abordés par les chercheurs travaillant dans le cadre de RT.


131

général et de l’anaphore en particulier, le concept de discours semble pouvoir être abordé dans

un contexte cognitif après être passé par des étapes plus strictement linguistique (approches

structurale et générative des textes) et pragmatique (le discours-action des philosophes du

langage).

On peut donc considérer, et cela a été l’objectif de notre seconde section, que le

discours est un phénomène complexe et multidimensionnel se développant de manière

simultanée dans de nombreuses dimensions. On retiendra que le discours implique une

activité langagière multidimensionnelle, structurée linguistiquement, située et appréhendée

dans un cadre cognitif.

Nous avons cependant montré dans la dernière partie de ce chapitre que concevoir le

discours en tant qu’objet d’étude posait des problèmes nombreux ; nous avons notamment

souligné deux difficultés majeures : d’une part, une définition unique du discours est difficile

à concevoir, que ce soit en termes relationnels (vis-à-vis du texte) ou en termes internes (par

le biais du concept de cohérence ou par l’identification d’unités minimales et de règles

spécifiques) ; d’autre part, une grande partie des phénomènes impliqués par le concept de

discours sont explicables dans le cadre de la théorie de la pertinence, qui ne fait pas appel à ce

concept.

Etant donnés ces éléments, nous remarquerons que, si nous n’avons pas d’arguments

majeurs pour soutenir le concept de discours, nous ne proposons pas pour autant de le rejeter

en bloc. En effet, il est selon nous important de souligner que les travaux se réclamant de

l’analyse du discours trouvent une certaine forme d’homogénéité dans la démarche

d’ensemble et les concepts fondamentaux qu’ils proposent : la réflexion est menée sur des

données textuelles attestées dans un cadre multidimensionnel mêlant les dimensions

strictement linguistique, pragmatique et cognitive pour l’étude de la communication humaine.

En conséquence, la voie que nous proposons constitue en quelque sorte une solution

intermédiaire (et donc, fatalement, inadéquate pour les partisans des deux camps) au problème

du statut du discours ; cette solution consiste à penser le discours (et l’« analyse du discours »

à vrai dire, cf. chapitre 4), comme une heuristique complexe de l’activité de

communication humaine par l’intermédiaire d’un texte verbal, para-verbal et non

verbal, à la fois trace de et indice pour les processus cognitifs (au sens large) qui

président à sa production et à son interprétation situées.


132

C’est à partir de cette définition du discours que nous allons à présent tenter de montrer

comment fournir des réponses satisfaisantes aux problèmes posés par les descriptions

traditionnelles de l’anaphore.

133

Chapitre 4

Anaphore et discours : Solutions, nouveaux problèmes et changement de perspective

134


1 Anaphore et discours : solutions et nouveaux problèmes … .................. 136 1.1 Anaphore et deixis : pour une approche discursive................................................... 136

1.1.1 Anaphore et deixis : rappel de la distinction classique ........................................ 136 1.1.2 Typologie des usages référentiels : une approche discursive .............................. 138

Limites d’une typologie traditionnelle étendue ........................................................ 138 Une approche discursive « cognitive-attentionnelle » .............................................. 139

1.1.3 Solutions discursives............................................................................................ 141 Déclencheur d’antécédent et antécédent ................................................................... 141 Cas problématiques de deixis textuelle / discursive.................................................. 142 Une approche discursive praxéologique ................................................................... 144

1.1.4 Synthèse ............................................................................................................... 148 1.2 Autonomie référentielle, coréférence et reprise ......................................................... 149

1.2.1 Le concept d’autonomie référentielle .................................................................. 149 1.2.2 L’anaphore pronominale : coréférence et reprise ................................................ 153

L’anaphore évolutive ................................................................................................ 153 L’anaphore situationnelle.......................................................................................... 155

1.3 Synthèse ......................................................................................................................... 156 2 Anaphore pronominale et discours............................................................ 156 2.1 Fonctionnement référentiel des expressions indexicales : généralités...................... 157

2.1.1 Expressions définies............................................................................................. 157 2.1.2 Expressions démonstratives ................................................................................. 158 2.1.3 Expressions pronominales.................................................................................... 159

2.2 Anaphore pronominale et discours ............................................................................. 161 2.2.1 Référence et responsabilité partagée.................................................................... 161 2.2.2 Typologies attentionnelles ................................................................................... 163 2.2.3 La Théorie du Centrage : un modèle de l’anaphore discursive............................ 167

Principes généraux .................................................................................................... 167 Centres prospectifs et rétrospectifs ........................................................................... 168 Types de transition .................................................................................................... 169 Quelques exemples ................................................................................................... 171 Limites et évolutions................................................................................................. 173

2.3 Interdépendance de l’anaphore et du discours .......................................................... 177 Discours et relations discursives ............................................................................... 178 Relations discursives et anaphore ............................................................................. 180

2.4 Synthèse ......................................................................................................................... 181 3 Synthèse générale ........................................................................................ 181

Chapitre 4 – Anaphore et discours

135

Le chapitre 2 nous a permis de souligner les problèmes liés aux descriptions classiques

de l’anaphore en linguistique et en pragmatique (avec notamment les concepts

d’incomplétude, de saturation, ou de champs de résolution pour l’anaphore et/ou la deixis) ;

nous avons postulé que le passage au niveau d’analyse du discours pouvait apporter des

solutions intéressantes. Après avoir, dans le chapitre précédent, donné un aperçu de quelques

aspects fondamentaux du discours, et proposé une définition opératoire de ce concept, nous

montrerons, dans la première partie du présent chapitre, en quoi le discours répond de

manière concrète aux problèmes que nous avons soulevés. Nous nous attacherons tout d’abord

à l’étude de la distinction deixis / anaphore avant de nous pencher sur les cas spécifiques

d’anaphore qui posaient problèmes dans le cadre traditionnel (les concepts d’autonomie

référentielle, de coréférence et de reprise seront évoqués à ce moment-là).

La seconde partie constituera une évocation des problèmes nouveaux posés par

l’adoption de ce cadre discursif et cognitif concernant la thématique de l’anaphore. En effet,

s’il est vrai que le recours au concept de discours permet de résoudre nombre de problèmes

posés par les descriptions traditionnelles de l’anaphore, nous montrerons que ce concept

introduit néanmoins plusieurs problèmes nouveaux. Nous évoquerons notamment le

fonctionnement discursif des expressions indexicales définie, démonstrative et pronominale

avant de focaliser notre attention sur ces dernières. Nous montrerons finalement que l’on peut

considérer l’anaphore et le discours comme unis dans une relation d’interdépendance

dynamique.

Nous terminerons ce chapitre par une synthèse générale qui reprendra les principaux

points développés aussi bien dans ce chapitre que dans les chapitres précédents.


136

1 Anaphore et discours : solutions et nouveaux problèmes …

Comme nous l’indiquions en fin de chapitre 2, les descriptions traditionnelles de

l’anaphore posent des problèmes difficiles à surmonter sans adopter un point de vue discursif.

Parmi ces problèmes, nous retiendrons d’une part les problèmes de différentiation des unités

et des concepts de deixis et d’anaphore, et d’autre part les problèmes de description et

d’explication de certains cas d’anaphore à l’aide des concepts d’autonomie référentielle, de

coréférence et de reprise. Nous allons donc aborder ces problèmes, et faire état de quelques

solutions discursives.

1.1 Anaphore et deixis : pour une approche discursive

La distinction classique des concepts d’anaphore et de deixis, que nous rappellerons

dans une première partie de cette section, pose deux problèmes majeurs liés (cf. chapitre 2, §

3.2) : le premier problème concerne l’impossibilité d’une typologie exhaustive des formes

linguistiques impliquées ; c’est précisément cette impossibilité qui a poussé certains auteurs à

proposer une distinction des usages déictiques et anaphoriques des expressions indexicales ;

cette typologie des usages référentiels est, comme nous l’avons mentionné, elle aussi

problématique étant donnés les chevauchements d’usages et les frontières floues qui les

séparent parfois. En conséquence, nous consacrerons la deuxième partie de cette section aux

solutions proposées par une approche discursive de ce problème.

1.1.1 Anaphore et deixis : rappel de la distinction classique

Cette distinction entre anaphore et deixis trouve une expression devenue classique dans

Halliday & Hasan 1976 qui propose d’opposer « endophore » et « exophore » :

« We shall find it useful in the discussion to have a special term for situational reference. This we

are referring to as EXOPHORA, or EXOPHORIC reference; and we would contrast it with

ENDOPHORIC as a general name for reference within the text. » (Halliday & Hasan 1976 : p. 33)

Les déictiques sont ainsi « exophoriques » (ils signalent la nécessité de récupérer leur

référent dans la situation d’énonciation) alors que les anaphoriques sont

« endophoriques » (ils signalent la nécessité de récupérer leur référent à partir du texte).


137

La figure 11 ci-dessous (cf. figure 6, chapitre 2, § 3.2) est une reproduction du schéma

présenté par Halliday & Hasan 1976 illustrant cette distinction :

Reference

[situational] [textual]

exophora endophora

[to preceding text] [to following text]

anaphora cataphora

Figure 11 : Types de référence selon Halliday & Hasan 1976.

Il est tentant, dès lors que l’on remarque une relation intime entre un type de référence

et certaines unités linguistiques, d’assimiler ces formes avec la deixis (référence exophorique,

liée à la situation) ou l’anaphore (référence endophorique, liée au texte). Une telle approche

conduit à poser une typologie des formes déictiques et des formes anaphoriques, typologie

dont nous avons déjà montré les difficultés (possibilité d’usages anaphoriques de « déictiques

purs », fonctionnement déictique de certaines unités lexicales, etc.). Halliday & Hasan 1976

souligne d’ailleurs explicitement cette impossibilité :

« A reference item is not of itself exophoric or endophoric; it is just ‘phoric’ – it simply has the

property of reference. Any given INSTANCE of reference may be either one or the other, or it

may be both at once. We shall see in this chapter that there are tendencies for particular items or

classes of items to be used exophorically or endophorically; but the reference relation is itself

neutral: it merely means ‘see elsewhere’. » (Halliday & Hasan 1976 : pp. 36-37)

La solution abordée par nombre de sémioticiens et de pragmaticiens consiste alors à

postuler que, si une typologie des formes référentielles n’est effectivement pas envisageable,

une typologie des usages représente une voie plus prometteuse. Nous allons à présent rappeler

les difficultés de ce type d’approche et montrer en quoi l’adoption d’une perspective

discursive permet d’apporter des solutions intéressantes.


138

1.1.2 Typologie des usages référentiels : une approche discursive

Limites d’une typologie traditionnelle étendue

La typologie binaire proposée dans Halliday & Hasan 1976 a rapidement montré ses

limites descriptives : comme le montre la citation précédente certains usages peuvent être

simultanément endo- et exophoriques, ce qui constitue un élément délicat dans l’optique de la

conservation de catégories distinctes d’usages ; nombre d’auteurs proposeront en réponse à

ces problèmes une typologie plus complexe, telle que celle présentée par Levinson 2004 et

représentée dans la figure 12 ci-dessous62 :

Figure 12 : Classification des usages indexicaux selon Levinson 2004 (corrigée).

On remarquera que cette typologie intègre les usages endo- et exophorique proposés par

Halliday et Hasan 1976, mais les subordonne à la nature déictique ou non de l’usage : dans

cette perspective, un usage déictique peut s’appuyer sur la situation d’énonciation (il est alors

exophorique), mais peut aussi s’appuyer sur le texte (on parlera alors de « deixis

textuelle/dicursive »). Parallèlement, un usage non déictique pourra s’appuyer sur le texte (il

sera alors endophorique) ou sur des informations non textuelles dans le cas des usages non

déictiques empathique ou mémoriel (« recognitional »).

Dans ce contexte, étant donné le rejet des équations déictique = situationnel et

anaphorique = textuel, il semble difficile de définir de manière robuste ce qui fait l’unité de la

catégorie « déictique » par rapport à la catégorie « non déictique ». Une telle typologie semble

en fait d’une part s’appuyer sur Halliday & Hasan 1976 et d’autre part isoler trois

62 Nous reproduisons ici la figure 7 de notre chapitre 2, § 3.2.2 (corrigée conformément à la note 12).

endophoric


139

excroissances ad hoc dont le seul objectif serait de rendre compte de certains exemples

problématiques :

• une excroissance déictique non exophorique : la deixis texuelle/discursive ;

• et deux excroissances non déictiques non endophoriques : la deixis empathique et la

deixis mémorielle ;

Cette démarche, à bien y regarder, ne constitue ainsi pas une réelle évolution de la

conception proposée par Halliday & Hasan 1976 : elle récupère tout au plus les concepts

d’endo- et d’exophore sans les intégrer réellement au sein d’une structure homogène et créée

des catégories ad hoc destinées à classer certains cas difficiles, comme par exemple les cas de

« pronoms de paresse » (cf. Geach 1962, Lyons 1977), ou de « deixis textuelle impure » (cf.

Lyons 1977) mentionnés au chapitre 2. En conséquence, nous argumenterons dans la suite de

cette section en faveur d’une approche discursive de la distinction deixis / anaphore : nous

introduirons notamment deux aspects de l’approche discursive, cognitif-attentionnel et

praxéologique, et nous livrerons à l’étude des cas problématiques que nous venons de

mentionner dans ce cadre discursif explicité.

Une approche discursive « cognitive-attentionnelle »

Rappelons que nous avons défini (chapitre 3) le discours comme une heuristique

complexe de l’activité de communication humaine par l’intermédiaire d’un texte verbal, para-

verbal et non verbal, à la fois trace de et indice pour les processus cognitifs (au sens large) qui

président à sa production et à son interprétation situées. Dans ce cadre, nous proposons

d’adopter une approche cognitive qui, comme l’indique Cornish 1999 à la suite de Ehlich

1982 et Bosch 1983, consiste à penser la deixis et l’anaphore comme autant de procédures

destinées à coordonner les modèles mentaux construits par les interactants dans le

déroulement de l’activité de communication.

La deixis est ainsi une procédure employée par le locuteur, impliquant un élément

verbal, para-verbal ou non verbal, et destinée à permettre la (re-)focalisation de l’attention de

l’interlocuteur sur un objet de son modèle mental supposé ; l’anaphore, quant à elle, est une

procédure strictement verbale employée par le locuteur et destinée à maintenir la focalisation

de l’attention de l’interlocuteur sur un objet de son modèle mental supposé :


140

« Deixis on this view is the use of a member or members of a set of devices, whether linguistic or

paralinguistic63 in character, whose object is to ensure the refocusing of the interlocutor’s attention

on a particular discourse entity […] while anaphora, is the use of a member (or members) of a

complementary set of purely linguistic devices […] whose role is to ensure that the interlocutor

maintains the focus of attention already established at the point where the anaphor occurs. »

(Cornish 1999 : pp. 25-26)

Nous noterons que, dans cet extrait, Cornish 1999 postule que les formes déictiques et

les formes anaphoriques constituent deux ensembles distincts et complémentaires. Comme

nous l’avons montré précédemment, cette position, dont le rejet justifie notre démarche

actuelle, nous semble impossible à tenir ; Cornish 1999 pose d’ailleurs lui-même un cadre

plus compatible avec notre approche lorsque, quelques pages plus tôt, il affirme que, malgré

l’existence de formes apparemment spécialisées dans un type d’usage, la distinction deixis /

anaphore n’est fondamentalement pas assimilable à une typologie des formes linguistiques :

« It is important to bear in mind, however, that although the various types of indexical expression

at issue here may be said to be specialized, in terms of their formal properties, in the manifestation

of either deixis or anaphora, it is in fact the use of a given type of expression in a particular context

which constitutes deixis or anaphora. » (Cornish 1999 : p. 23).

En résumé, la procédure déictique est destinée à induire la focalisation de l’attention de

l’interlocuteur sur un objet qui ne disposait pas de ce statut focal alors que l’anaphore est une

procédure destinée à préserver le statut focal privilégié d’un objet du modèle mental supposé

de l’interlocuteur.

Nous avons montré dans le chapitre précédent que le statut informationnel d’une entité

de discours ne peut se résumer à une distinction binaire de type donné / nouveau ; Prince

1981, notamment, a montré la pertinence d’une analyse plus fine, assimilable à un gradient de

familiarité supposée. De manière similaire, la distinction deixis / anaphore, fondée sur le

statut des objets de discours au moment de leur focalisation ou de leur maintient en position

focale par l’expression indexicale, ne doit plus être considérée en termes catégoriels, mais

plutôt en termes graduels : les usages déictiques consistent dès lors en des procédures agissant

sur les objets de discours les moins « familiers » (les plus « nouveaux ») alors que les usages

anaphoriques seront à mettre en relation avec les objets les plus « familiers » (« évoqués »),

quelle que soit la raison de cette familiarité élevée (saillance co-textuelle ou situationnelle).

63 Nous remarquerons que Cornish 1999 (note 3, p. 25) classe les phénomènes prosodiques et notamment

intonatifs (« accent and pitch level ») au sein des éléments paralinguistiques ; nous sommes en désaccord avec

cette classification (par ailleurs réfutée par Cornish 2003a) et détaillerons notre position chapitres 5 et 6.


141

Cette transposition cognitive de la thématique deixis / anaphore implique

nécessairement un questionnement sur les correspondances unissant certaines configurations

linguistiques à certains objets mentaux en fonction de l’état attentionnel des interactants. C’est

notamment à ce thème, qui constitue l’un des nouveaux problèmes posés par notre

changement d’approche, que nous consacrerons une part importante de la seconde section de

ce chapitre.

1.1.3 Solutions discursives

Le chapitre précédent nous a permis de poser les bases d’une approche discursive ; nous

venons de proposer la transposition de l’opposition traditionnelle entre deixis et anaphore en

termes discursifs et cognitifs, et plus simplement situationnels ou « géographiques » ; il

semble tout de même important de s’interroger sur le gain descriptif et explicatif qu’une telle

approche représente par rapport à la conception traditionnelle. Une solution de facilité

consisterait à abandonner les exemples problématiques en même temps que l’opposition

traditionnelle, mais il nous semble important de nous rappeler que ce sont ces problèmes qui

nous ont en quelque sorte poussé à adopter un cadre différent : il sera alors logique, loin de les

éviter, de centrer sur eux les nouvelles analyses. Nous allons auparavant, afin de clarifier nos

analyses, introduire les concepts de « déclencheurs d’antécédent » et d’« antécédent » tels

qu’ils sont définis par Francis Cornish.

Déclencheur d’antécédent et antécédent

Nous venons de voir que l’« origine » co-textuelle ou situationnelle d’un objet au sein

d’un modèle mental, tout en restant un paramètre important dans le fonctionnement des

expressions indexicales, peut être considérée comme une dimension orthogonale par rapport

au statut attentionnel des objets mentaux. Cette dissociation des deux dimensions correspond

approximativement à la distinction opérée par nombre d’auteurs entre entités du monde réel et

objets mentaux.

Une distinction comparable est matérialisée par le couple conceptuel « déclencheur

d’antécédent – antécédent » proposé par Francis Cornish (cf. Cornish 1986 pour une première

formulation ; Cornish 1999 : pp. 41ff)64. Selon l’auteur, la notion traditionnelle d’antécédent

utilisée en relation avec le concept d’anaphore remplit en réalité deux fonctions distinctes :

64 Comme le précise l’auteur (Cornish 1999 : p. 43), cette dissociation conceptuelle, notamment par le choix du

terme « trigger / antécédent », n’est pas sans rappeler le concept de déclencheur proposé par Hawkins 1977 ;


142

• d’une part, l’antécédent traditionnel est une expression linguistique cotextuelle dotée

de traits formels contribuant à déterminer la forme de l’expression anaphorique,

notamment pronominale (ibid. : pp. 41-42). Le concept de « déclencheur

d’antécédent » (ou « antecedent trigger ») est destiné à désigner cet aspect formel ;

• d’autre part, l’antécédent est aussi une unité signifiante dotée d’une dénotation qui,

toujours selon l’analyse traditionnelle, permet de définir le sens et la référence de

l’expression anaphorique (ibid. : p. 42). Ce sens et cette référence de l’expression

anaphorique, ou, en termes plus cognitifs, son interprétation, sont capturés par le

concept d’« antécédent » par contraste avec celui de « déclencheur d’antécédent »

mentionné ci-dessus.

Cette distinction doit impérativement être interprétée dans le cadre discursif que nous

avons commencé à exploiter plus haut et que nous préciserons, concernant tout

particulièrement l’anaphore pronominale, dans la seconde section de ce chapitre. Nous

retiendrons pour l’instant la distinction entre « déclencheur d’antécédent » en tant qu’entité

formelle (situationnelle ou textuelle) du monde réel et « antécédent » en tant qu’entité

cognitive associée à l’expression anaphorique65. Nous exploiterons cette distinction

lorsqu’elle permettra de mieux éclairer nos analyses.

Cas problématiques de deixis textuelle / discursive

Parmi les problèmes liés à l’approche traditionnelle de la distinction deixis / anaphore,

nous avions isolé une catégorie particulière, la catégorie ad hoc « deixis textuelle », et, plus

particulièrement, trois cas assimilables à celle-ci. Un premier cas concernait la possibilité

pour une expression donnée d’être simultanément utilisée de manière déictique et de manière

anaphorique ; étudions l’exemple 24, emprunté à Levinson 2004 (p. 99) et déjà cité chapitre

2 :

Ex (24) I’ve been living in San Francisco for 5 years and I love it here.

sans entrer dans les détails, nous noterons avec F. Cornish que ces concepts ont cependant été développés de

manière indépendante et ne sont pas équivalents. 65 Il est important de souligner l’indépendance interprétative de l’expression anaphorique : c’est par elle-même

(insérée dans un « segment indexical » et une relation prédicative) qu’elle obtient sa désignation (définit son

« antécédent »). Nous reviendrons plus en détail sur ce point plus loin dans ce chapitre.


143

Selon la description traditionnelle (position d’ailleurs adoptée par Levinson 2004),

l’endroit désigné par l’adverbe locatif « here » dépend du lieu de l’énonciation : il est donc en

ce sens déictique ; cependant, cet adverbe constitue une reprise de et coréfère avec « San

Francisco » dans le cotexte gauche : il est donc anaphorique au sens traditionnel. Dans le

cadre discursif que nous venons d’évoquer, a contrario, l’adverbe « here » pourra ici être

considéré de manière univoque comme anaphorique : l’objet introduit par l’expression « San

Francisco » dans le cotexte gauche occupe une position élevée dans la pile66 qui modélise

l’état attentionnel des interactants ; l’adverbe peut alors aisément être interprété comme une

instruction de maintenir cet objet discursif dans cette position privilégiée. Cette analyse nous

semble par ailleurs confirmée par le fait (non envisagé dans nombre d’analyses) que

l’énonciation de (24) ailleurs qu’à San Francisco (bien clairement moins acceptable qu’une

version recourrant à « there ») pourrait toujours, selon certains locuteurs, mener à la

désignation de la ville de San Francisco par l’adverbe « here ». On pourra dès lors considérer

que c’est l’expression cotextuelle « San Francisco » qui constitue le déclencheur d’antécédent

dans cet exemple, et pas la situation géographique des interactants.

Les deux derniers exemples problématiques concernent respectivement ce que Lyons

1977 a appelé la « deixis textuelle impure » (« impure textual deixis » ; Lyons 1977 : p. 670)

et l’utilisation de « pronoms de paresse » (« pronouns of laziness » ; cf. Geach 1962 (pp.

125ff). Considérons les exemples suivants :


B : That’s a lie



L’exemple 25 n’est pas assimilable à un usage anaphorique au sens traditionnel, « that »

ne coréfèrant avec aucune expression du cotexte ; une approche déictique textuelle /

discursive classique expliquerait une éventuelle référence à la phrase prononcée par A, mais

pas à son énonciation en contexte. On se trouve donc, si l’on se contente de l’approche

traditionnelle, dans une situation intermédiaire (cf. Levinson 1980 : p. 87) qui a valu à ce

phénomène le qualificatif « impur » attribué par Lyons 1977.

66 Les notions de pile et d’état attentionnel sont celles introduites au chapitre 2 dans le cadre du modèle proposé

par Grosz & Sidner 1986.


144

L’exemple (26) est présenté comme particulièrement problématique pour la notion

traditionnelle d’anaphore car le pronom « it » ne coréfère avec aucune expression du cotexte ;

la solution envisagée traditionnellement (cf. Levinson 1980 : p. 87) consiste tout de même à

postuler que ce pronom désigne une entité de manière indirecte, par l’intermédiaire d’une

expression présente dans le cotexte (ici le syntagme nominal « The man who gave his

paycheque to his wife ») ; c’est ce second aspect qui lui vaut son rapprochement avec la deixis

textuelle / discursive.

Ces deux exemples ne peuvent pas recevoir d’explication discursive satisfaisante avec

les seuls éléments que nous avons présentés jusqu’ici ; nous allons en conséquence introduire

un second aspect discursif, intentionnel et praxéologique celui-là qui permettra non seulement

de fournir une description et un explication homogène de ces phénomènes, mais aussi de

postuler un ensemble fini d’objets mentaux possibles.

Une approche discursive praxéologique

Notre définition du discours implique la notion d’activité de communication ; on

retrouve cette conception dans nombre de travaux héritiers de la théorie des actes de langage :

on pensera ainsi notamment aux logiques illocutionnaires de Searle & Vanderveken 1985 ou

encore de Trognon & Brassac (1988, 1992, 1993) ou à la version standard du Modèle

Genevois (Roulet et al. 1985).

Comme nous l’avons mentionné chapitre 3, Searle 1965 considère l’acte de langage, et

plus précisément l’acte illocutionnaire (en tant qu’acte fondamental d’une énonciation)

comme l’unité minimale de la communication linguistique : « To put this point more precisely, the production of the sentence token under certain conditions is

the illocutionary act, and the illocutionary act is the minimal unit of linguistic communication »

(Searle 1965 : p. 221)

Notre conception se distingue cependant de cette approche des actes de parole en ce

sens que nous pensons important de prendre en considération trois points

fondamentaux souvent négligés : nous critiquerons ainsi ce que nous appelons les tendances

unipolaire, désincarnée et parcellaire de la théorie classique.

L’aspect unipolaire de l’approche classique est lié au fait que cette dernière s’appuie

fondamentalement sur le concept de « production » de l’énonciation, et non sur ceux de co-

construction ou de reconstruction qui impliquent a minima la prise en compte de

l’interlocuteur par le locuteur ou, plus justement, la participation active de l’interlocuteur à la


145

communication67. Il semble pourtant fondamental de prendre en considération l’aspect

interactif de la communication, envisageable comme une entreprise collaborative

(re)constructive et probabiliste (Cornish 2003a : p. 5) ;

Deuxièmement, il nous semble aussi fondamental de prendre en compte la dimension

intentionnelle de la communication : l’activité de communication donnée, comme toute

activité humaine, constitue avant tout un moyen d’atteindre des objectifs. Grosz & Sidner

1986 ainsi que la Théorie de la Pertinence accordent une place prépondérante aux intentions

tant dans le cadre de la structuration que dans celui de la compréhension du discours. A

contrario, le cadre classique de la théorie des actes de parole néglige totalement cette

dimension fondamentale de l’interaction langagière : les actes constituent pour leurs analystes

des données désincarnées qui constituent les unités fondamentales d’architectures logiques.

L’approche classique, finalement, nous semble parcellaire car elle place

systématiquement les seuls actes illocutionnaires au cœur de la réflexion praxéologique. En

effet, comme nous venons de le rappeler ci-dessus avec la citation de Searle 1965, les travaux

fondateurs (d’Austin et de Searle), tout comme les travaux dérivés (les « logiques

illocutoires ») et les travaux critiques afférents (on pensera notamment aux travaux réalisés

dans le cadre de la Théorie de la Pertinence) se sont toujours organisés autour de l’acte

illocutionnaire. Ainsi, Vernant 1998, fort critique à l’égard de la théorie classique concernant

la tendance unipolaire que nous avons mentionnée plus haut, se cantonne au même cadre

général et ne propose, avec sa notion d’« interacte », qu’une nouvelle déclinaison d’une

logique illocutionnaire.

Nous noterons cependant qu’une vision praxéologique, même parcellaire (c'est-à-dire

uniquement illocutionnaire), permet tout de même de rendre compte de l’un des deux

exemples problématiques de deixis textuelle / discursive qu’il nous restait à traiter et que nous

répétons ci-dessous :


B : That’s a lie

67 On pensera par exemple aux travaux de Bakhtine sur le dialogisme, sur lesquels s’appuie Roulet et al. 2001 ou

encore aux travaux des énonciativistes tels que ceux de Culioli qui se démarquent d’une vision purement codique

de la communication centrée sur le locuteur (ou plutôt l’énonciateur) au profit des concepts de jeu et de plasticité

dans l’ajustement lié à la co-construction ou à la reconstruction du sens (Culioli 1990 : pp. 25-27).


146

Cet exemple d’utilisation du pronom démonstratif distal « that » pose comme nous

l’avons dit un problème pour une description classique, y compris avec l’adoption de la

catégorie ad hoc qu’est la deixis textuelle / discursive. Pour constituer un cas de deixis

textuelle / discursive, il faudrait en effet que « that » désigne la phrase de A, or une phrase (si

tant est que cette unité soit pertinente) n’a pas de valeur de vérité, et ne peut donc être ni vraie

ni fausse, ni a fortiori un mensonge. Une solution alternative consisterait à dire que le pronom

« that » désigne la proposition exprimée par la phrase de A qui peut, elle, recevoir une valeur

de vérité ; cependant, la qualification apportée par B (« a lie ») nous permet d’écarter aussi

cette seconde solution : une proposition peut être vraie ou fausse, mais elle ne peut pas être un

mensonge, à la différence de son assertion par un individu. L’entité désignée par « that », son

antécédent au sens défini plus haut, peut donc être assimilée à l’assertion de la proposition

exprimée par A, c'est-à-dire à l’acte illocutionnaire accompli par A lors de l’énonciation ; le

déclencheur d’antécédent est ici le fait que A effectue cet acte d’assertion dans l’interaction.

On pourra définir le fonctionnement du pronom démonstratif « that » dans cet exemple

comme déictique, destiné à promouvoir l’acte illocutionnaire accompli par A à un statut

privilégié au sein des modèles mentaux des interactants.

Cet exemple est intéressant à trois titres principaux. Premièrement, il confirme

l’importance de la qualification rétroactive de l’acte (ou de l’« interacte » selon Vernant 1998)

opérée lors de l’interlocution : l’acte de communication n’est dès lors plus à considérer

comme l’apanage exclusif du locuteur, mais plutôt comme l’œuvre collaborative (ou

compétitive, mais en tout cas commune) des participants à l’interaction.

Deuxièmement, on voit que le cotexte immédiat de l’expression indexicale, ce que

Cornish 1999 appelle le « segment indexical », joue un rôle crucial dans la détermination du

référent : le calcul menant à cette détermination du référent n’est ainsi plus considéré comme

fondé uniquement sur la forme de l’expression indexicale, mais aussi sur les propriétés du

segment textuel qui la contient (sens contextuel de la prédication hôte, aspect, temps,

modalité, etc. ; cf. Cornish 1999). Nous reviendrons plus loin sur ce point fondamental pour la

thématique de l’anaphore.

Troisièmement, on notera que nous avons dû recourir à la notion d’acte illocutionnaire

afin d’expliquer la possibilité de référence déictique présente dans l’exemple (25). Ceci

montre que la dimension praxéologique de l’interaction peut fournir des entités constitutives

des modèles mentaux des interactants. On se rappellera aussi, d’autre part, le fait que les

éléments textuels peuvent eux aussi constituer des référents au sein des modèles construits par


147

les interactants : on retrouve là la version classique du phénomène de deixis textuelle /

discursive68, dont (27) ci-dessous est un exemple emprunté à Hengeveld 2004 :

Ex (27) My brother-in-law, if that’s the right word for him, is a poet.

La Grammaire Fonctionnelle du Discours (« Functional Discourse Grammar » ou

FDG ; cf. Hengeveld 2004), analyse ces deux possibilités comme la prise en compte

d’éléments des niveaux « interpersonnel » et « expressif » au sein du niveau

« représentationnel » ; c’est alors le « contexte communicationnel » qui, enrichi par les entités

fournies par ces niveaux, joue le rôle d’intermédiaire (Hengeveld 2004 : p. 11). En termes

plus triviaux, il semblerait donc que les interactants soient capables de « faire feu de tout

bois » dans la communication : toutes les dimensions de la communication (aspects

praxéologiques, sémantiques et purement formels) peuvent ainsi être mises à profit et fournir

les référents qui peuplent leurs modèles mentaux.

Nous noterons que certains, au sein de la FG, notent le caractère surprenant de la prise

en compte de l’illocutionnaire dans le cadre de la structure de la clause (cf. par exemple

Anstey 2002 : p. 4 à propos de Hengeveld 1989). Le passage au niveau discursif, par le biais

du niveau interpersonnel de la FDG, réduit le caractère apparemment ad hoc de cette prise en

compte, mais il nous semble que, si la prise en compte de l’acte illocutionnaire permet

d’expliquer les cas problématiques du type de (25), elle ne constitue qu’un premier pas dans

la démarche praxéologique. En effet, une vision praxéologique élargie semble pouvoir

apporter quelques éléments de réponse concernant le problème de la deixis textuelle impure

représenté par l’exemple (26) que nous répétons ci-dessous :



Une praxéologie étendue, fondée par exemple sur l’inventaire des actes de parole

proposé par Searle 1969, permet ainsi de proposer que le pronom « it » désigne le référent lié

à l’acte référentiel (type d’acte propositionnel selon Searle 1969) correspondant à « his

paycheque ». Cet acte référentiel implique l’adjectif possessif « his » qui fonctionne ici de

manière anaphorique (selon la conception définie plus haut) : ce pronom constitue une

instruction consistant à désigner un objet bénéficiant d’un statut privilégié (nous dirons

« focalisé ») au sein du modèle mental, en l’occurrence le premier individu mentionné. L’acte

68 Par opposition aux cas problématiques qui nous ont intéressé jusqu’à présent.


148

référentiel réalisé par l’intermédiaire de l’expression « his paycheque » peut être vu comme

une fonction reliant un salaire à son possesseur représenté comme objet mental « focalisé ».

Cet acte constitue le déclencheur d’antécédent lié au pronom « it ».

Le pronom « it » permet alors la constitution rétroactive de cet acte référentiel en tant

qu’objet discursif et réitère la procédure associée en la désignant : celle-ci associe alors un

salaire à l’objet mental « focalisé » à ce moment-là de l’interaction, c'est-à-dire au second

individu mentionné ; ce second acte référentiel constitue l’antécédent du pronom « it » qui

semble donc être en quelque sorte un déictique de procédure anaphorique.

Cette proposition, qui mériterait bien entendue d’être approfondie, montre selon nous

l’intérêt potentiel d’un élargissement de l’approche praxéologique, au-delà et en deçà du seul

illocutionnaire. Insistons cependant sur le fait qu’une telle « brèche praxéologie », représentée

par l’intégration de l’illocutionnaire au sein de la structure de la clause en FG (au sein du

niveau interpersonnel), couplée à la prise en compte d’éléments du niveau expressif de la

FDG, pourrait conduire à une prolifération des éléments composant les modèles mentaux des

interactants. Ce risque constitue l’un des problèmes majeurs posés par le type d’approche

discursive que nous proposons ; une telle thématique, cependant, dépasse largement le cadre

de cette thèse : ainsi, elle ne sera pas traitée ici plus avant, mais fait l’objet d’un article en

préparation.

1.1.4 Synthèse

Nous avons tenté de montrer dans cette section qu’une approche classique de la

distinction deixis / anaphore n’était pas, en définitive, directement transposable dans le cadre

d’une approche discursive : l’opposition formulée en termes de lieu de résolution y est

considérée comme orthogonale à la nature de l’opération effectuée sur les composants des

modèles mentaux des interactants. Dans cette perspective, la deixis et l’anaphore se

distinguent par le fait que la première permet la focalisation d’un objet mental ne bénéficiant

pas d’un statut privilégié, alors que la seconde préserve ce statut concernant un objet mental

donné. L’anaphore constitue dès lors une instruction de continuité alors que la deixis

s’apparente à une instruction de changement.

Cette approche de l’indexicalité dans un cadre discursif, si elle permet de résoudre

nombre de problèmes, en pose également plusieurs nouveaux concernant notamment la nature

et le mode d’introduction des objets composants les modèles mentaux des interactants ainsi

que la nature exacte des procédures utilisées par ces derniers dans le cadre de la co-


149

construction de la communication. Nous aborderons certains de ces problèmes dans la

seconde partie de ce chapitre, mais il est auparavant important de terminer notre inventaire

des solutions apportées par l’approche discursive aux problèmes posés par les descriptions

classiques du phénomène de l’anaphore. Nous venons de traiter de la relation deixis /

anaphore, mais le chapitre 2 avait aussi mis en évidence les problèmes liés à la vision

antécédentiste de l’anaphore. C’est à présent vers cette thématique que nous allons donc nous

tourner.

1.2 Autonomie référentielle, coréférence et reprise

L’approche classique de l’anaphore peut être représentée par la conception milnérienne

(Milner 1982) selon laquelle l’anaphore implique un processus de saturation sémantique

d’expressions dépourvues de référence virtuelle (les « anaphorisants » de Milner 1982) à

partir d’expressions qui en sont pourvues (les expressions « anaphorisées »). Une telle

conception pose trois problèmes majeurs concernant respectivement le concept d’autonomie

référentielle, et ceux de coréférence et de reprise, associés plus spécifiquement à l’anaphore

pronominale. Analysons ces problèmes tour à tour.

1.2.1 Le concept d’autonomie référentielle

Rappelons (cf. chapitre 2, §1) que le concept de référence virtuelle est posé en relation

avec celui de référence actuelle : ainsi, un segment de réalité, s’il constitue la référence

actuelle d’une expression donnée, doit remplir l’ensemble de conditions définies par sa

référence virtuelle. Une expression dont la référence virtuelle permet seule de définir sa

référence actuelle, indépendamment de son énonciation, est alors caractérisée par son

« autonomie référentielle ».

Les groupes nominaux sont ainsi selon Milner référentiellement autonomes :

« [dans un groupe nominal] plusieurs unités lexicales peuvent intervenir, et les références

virtuelles de chacune se combinent pour contraindre une référence actuelle possible ; mais une

référence actuelle donnée n’est associée qu’à la combinaison d’ensemble et non pas à chacune des

unités combinées. » (ibid. : pp. 10-11)

Appliqué à un groupe nominal comportant un article défini (la « description définie »

chère aux philosophes du langage), ce principe implique qu’une référence actuelle pourrait

être attribuée à l’expression sur la base de sa référence virtuelle compositionnelle et ce

indépendamment de son énonciation.


150

Ex (28) a. The cat

b. The funny little grey cat

L’observation des exemples (28a) et (28b) montre cependant que, bien que la référence

virtuelle du groupe nominal se complexifie (sa saturation sémantique augmente) avec l’ajout

de nouveaux éléments, même le groupe (28b) n’est pas capable de se voir attribuer une

référence actuelle sur la base de sa seule référence virtuelle. Ce fait est illustré par l’anecdote

rapportée par Cornish 1999 (pp. 57-58) : Roy Hattersley, membre du gouvernement Wilson

en 1976, alors en visite en Roumanie, fut interpellé par l’ambassadeur du Royaume Uni à sa

descente d’avion ; ce dernier lui annonça « The Prime Minister has just resigned ! » ; la

confusion éprouvée par Roy Hattersley (de quel premier ministre s’agit-il ? le premier

ministre roumain ou son homologue britannique ?) fut cependant rapidement effacée par les

explications de l’ambassadeur et, comme le souligne Cornish 1999 par un travail inférentiel

particulier de la part de Roy Hattersley. Cet exemple attesté montre l’inaptitude des

descriptions définies à faire preuve d’une véritable autonomie référentielle, c'est-à-dire

indépendamment de leur énonciation.

Seule une description telle que (29) semble supporter cette affirmation :

Ex (29) Le président de la République française élu en 2002.

Il faut bien reconnaître, cependant que de telles descriptions définies complètes sont

l’exception plutôt que la norme dans la communication ordinaire ; cela revient-il à dire pour

autant que les interactants sont incapables d’attribuer une référence actuelle aux descriptions

définies spécifiques telles que celles de l’exemple (28) ? Bien évidemment pas, et il est

heureux qu’il en soit ainsi car, à l’instar de l’article défini, le démonstratif, et même des unités

telles que l’adjectif « local » ou l’adverbe « alentours » suffisent à annuler l’hypothétique

autonomie référentielle de l’expression qui les accueille69. Nous appellerons temporairement

ces unités (article défini, adjectif démonstratif, etc.70) des « marqueurs de non-autonomie

référentielle ».

Il semblerait alors légitime, si l’on tentait de sauvegarder le cadre milnérien, de

s’interroger sur ce processus de perte d’autonomie. L’unique explication nous permettant de

conserver ce cadre consisterait à postuler qu’un marqueur de non-autonomie référentielle 69 Cf. Moeschler & Reboul 1994 : pp. 136ff. pour une présentation plus détaillée de ce phénomène bien connu. 70 Comme on l’a déjà vu au chapitre 2, l’ensemble n’est en fait pas fermé.


151

diminue la référence virtuelle d’ensemble de l’expression ; or, l’approche compositionnelle ne

prévoit que l’ajout de contraintes dans le cadre de la constitution de la référence virtuelle d’un

groupe nominal et une référence virtuelle « négative » semble difficile à envisager… Dans ces

conditions, le concept d’autonomie référentielle semble difficile à conserver.

Une solution alternative consiste à considérer que les marqueurs de non-autonomie

référentielle apportent en fait des contraintes de nature différente de celles apportées par le

nom et ses complémenteurs au sein de l’expression nominale. On reconnaît aisément là la

distinction classique entre « unités lexicales » et « unités fonctionnelles », « mots pleins » ou

« mots outils », etc. Blakemore 1987, dans le cadre de RT, propose une distinction entre

« signification conceptuelle » et « signification procédurale » qui semble recouper la

distinction que nous opérons au sein des expressions nominales entre d’un côté le nom et ses

complémenteurs et d’autre part le marqueur de non-autonomie référentielle : on aurait ainsi

d’une part des expressions (appelons-les « expressions C ») dont l’objectif est d’encoder (pour

utiliser la terminologie de Blakemore) un concept sémantique, et d’autre part des

« expressions P » (nos marqueurs de non-autonomie référentielle), destinées à fournir des

instructions relatives à la procédure d’attribution de référence actuelle pour les expressions C.

Il serait cependant réducteur de vouloir limiter une expression donnée à un seul type de

signification71 : à l’évidence, du fait de leurs marques de genre et de nombre en français, ou

de « distance »72 pour les démonstratifs anglais, les expressions P semblent aussi mettre en jeu

certaines contraintes assimilables à la référence virtuelle. Il semblerait donc qu’une

expression donnée fasse appel à une proportion variable d’éléments de signification

conceptuelle et de signification procédurale. Nous venons de mentionner les expressions P

typiques que sont les définis, les démonstratifs et les pronoms, composées majoritairement de

signification procédurale, mais comportant tout de même des éléments de signification

conceptuelle ; les adjectifs tels que « local » ou les adverbes comme « alentours » semblent

comporter eux aussi les mêmes ingrédients (éléments de signification procédurale et éléments

de signification conceptuelle), mais dans une proportion inverse. Les autres expressions (les

têtes nominales « classiques » et leurs complémenteurs) seraient composées uniquement de

signification conceptuelle. La simplification est extrême, mais elle a l’avantage de souligner

71 Et vice et versa. 72 Nous utilisons le terme de manière très générique ; en effet, la dimension spatiale n’est que l’un des domaines

possibles de manifestation de ce concept de distance, qui peut aussi se traduire dans les dimensions énonciatives

(cf. par exemple Toupin 1998 pour les usages adverbiaux de « this » et de « that »).


152

la différence fondamentale opposant les deux catégories extrêmes et il semble fort que cette

différence soit d’ordre discursif.

En effet, le fait d’appréhender ce problème dans un cadre discursif nous permet de

proposer que nos « marqueurs de non-autonomie référentielle », ou « expressions P »,

constituent des instructions destinées à guider l’intégration, au sein des modèles mentaux

construits par les interactants, les représentations liées au segment de texte qui les contient.

Ainsi, si l’on considère que les usages référentiels des expressions nominales permettent la

désignation d’un référent situé dans le modèle mental construit par chaque interactant, on peut

analyser l’apport des expressions P non pas comme des contraintes pesant sur le « segment de

réalité » désigné (pour utiliser la terminologie de Milner 1982) mais comme un indicateur de

procédure de construction et/ou d’identification de l’objet mental. La nature exacte de ces

procédures fait partie des problèmes nouveaux posés par l’adoption d’un cadre discursif ; il

semblerait alors que l’on ne fasse que repousser les difficultés d’un cran. Nous montrerons

dans la section 2 de ce chapitre qu’il n’en est rien, une approche discursive permettant la

description et l’explication des choix linguistiques des interactants.

Nous avons montré dans cette section que la notion d’autonomie référentielle semblait,

de par son applicabilité restreinte, peu pertinente pour la caractérisation du fonctionnement

référentiel des expressions nominales utilisées dans la communication ordinaire. La non-

autonomie référentielle semble donc être la norme alors que l’autonomie référentielle

constitue presque une bizarrerie. Ce phénomène trouve selon nous un début d’explication

intéressante dans l’identification des expressions P, dont la signification majoritairement

procédurale permet d’expliquer le fonctionnement dans un cadre discursif. Cette démarche

implique cependant une description précise du fonctionnement de ces expressions P au niveau

d’analyse « discours » et notamment une description détaillée du fonctionnement de l’article

défini et du démonstratif au sein de ces expressions. Cette analyse détaillée dépassant le cadre

restreint de cette thèse, nous ne la traiterons pas de manière très approfondie ici ; le lecteur

pourra cependant trouver des éléments spécifiques dans Hawkins 1977a et 1977b, Corblin

1983 et 1987, Apothéloz 1995, Cornish 1999, Salmon-Alt 2001 ou encore Charolles 2002,

notamment concernant la distinction des procédures définie et démonstrative.


153

1.2.2 L’anaphore pronominale : coréférence et reprise

L’anaphore pronominale reçoit dans Milner 1982 une caractérisation fondée sur les

concepts de coréférence et de reprise. Rappelons cette position :



termes hétérogènes, l’un autonome, l’autre non-autonome. » (ibid., p. 19)

Cette conception de l’anaphore pronominale repose en fait sur les principes de la

distinction classique entre deixis et anaphore ; l’anaphore, notamment, est ainsi

fondamentalement assimilée à une relation endophorique (intra textuelle) qui l’unit à une

expression explicite du cotexte (cf. aussi Zribi-Hertz 1992). Les phénomènes d’anaphore

évolutive et d’anaphore situationnelle constituent, comme nous l’avion mentionné chapitre 2,

autant de problèmes pour cette approche ; étudions-les tour à tour.

L’anaphore évolutive

L’anaphore évolutive implique une différence significative entre les références de

l’anaphorisé apparent (l’expression nominale « autonome ») et de l’anaphorisant. On peut

donner la définition suivante des référents évolutifs :

« Un énoncé est un exemple de référent évolutif s’il décrit ou implicite un processus ou une suite

de processus tel(le) que l’objet du premier processus est identique d’un point de vue numérique à

celui qui émerge du dernier processus alors même que les processus intervenus l’ont modifié au

point qu'il ne mérite plus sa dénomination initiale. » (Reboul et al. 2004, p. 13)

Un exemple célèbre de référent évolutif est donné dans Brown & Yule 1983 (p. 202) :

Ex (30) Kill an active, plump chicken. Prepare it for the oven, cut it into four pieces

and roast it with thyme for 1 hour.

Cet exemple est dans l’ensemble conforme à la définition donnée ci-dessus : une série

de processus est décrite qui génère un objet (un plat de poulet rôti au thym) pour lequel la

dénomination d’origine (« un poulet vif et gras ») n’est plus applicable. Ainsi, comme nous

l’avions suggéré chapitre 2, § 3.1.2, la position qui consisterait à affirmer que la dernière

occurrence du pronom « it » dans l’exemple (30) est coréférente avec « an active, plump

chicken » n’est pas tenable. De plus, dire que le pronom constitue une reprise de ce groupe

nominal impliquerait qu’une substitution n’apporte aucune modification sémantique ; à


154

l’évidence, cette proposition n’est pas tenable non plus et transformerait une recette de cuisine

en une séance de sadisme animalier.

Dans une approche discursive telle que nous l’avons envisagée au chapitre 3, le locuteur

réfère à (à l’aide d’une expression linguistique qui désigne) un objet du modèle mental

construit par et pendant l’interaction : cet objet est construit et modifié de manière dynamique

par le texte en tant qu’ensemble d’instructions. Un pronom anaphorique permet ainsi la

désignation d’un objet bénéficiant d’un statut privilégié, mais est suffisamment sous spécifié

sémantiquement pour continuer à être employé, marquant ainsi la continuité référentielle tout

en permettant l’évolution phénoménologique du référent au sein des modèles mentaux des

interactants.

On voit que les référents évolutifs sont pris en compte de manière naturelle par une

approche discursive : en effet, le fait que la dénomination d’origine d’un objet mental ne soit

plus applicable malgré sa désignation par un pronom anaphorique ne constitue qu’un cas

extrême de la modification « normale » des objets mentaux dans le cadre de la

communication. Le rôle des prédications venant modifier l’objet, ainsi que le cotexte

immédiat de l’anaphorique, le « segment indexical » (Cornish 1999 ; mais cf. aussi Yule 1982

et Ziv 1996), jouent bien entendu un rôle crucial dans cette évolution progressive. Observons

l’exemple (31) emprunté à Cornish 1999 :

Ex (31) Joe ate an apple last night, but it was much too acid for his liking.

Dans cet exemple, si l’expression « an apple » constitue le déclencheur d’antécédent

relativement au pronom « it », l’antécédent de ce dernier n’est pas simplement une pomme

quelconque intacte (désignée par « an apple »), mais la pomme mangée par Joe la nuit

précédant l’énonciation de (31) (Cornish 1999 : p. 44). Il y a bien évolution du référent, même

si l’on ne se trouve pas dans le cas extrême des « référents évolutifs » qui nous intéressent ici.

Nous noterons en conclusion que l’adoption d’une approche discursive induit

nécessairement un nouveau questionnement concernant les contraintes pragmatico-

sémantiques qui expliquent et limitent la possibilité d’anaphore pronominale pour les

référents évolutifs ; ce nouveau problème posé par l’approche discursive, bien qu’important,

ne sera pas traité dans le cadre de cette thèse ; le lecteur trouvera cependant de nombreux

éléments dans Schnedecker & Charolles 1993 et Kleiber 1997.


155

L’anaphore situationnelle

Comme nous l’avons rappelé, l’anaphore, dans l’approche traditionnelle, est

endophorique ; l’anaphore pronominale, en particulier, doit recevoir sa référence virtuelle

d’une unité présente (saturée sémantiquement) dans le cotexte. Des cas tels que (32), (33) et

(34) ci-dessous sont alors évidemment problématiques :

Ex (32) [La compagne de l’auteur, sortant de sa chambre, agitant un livre qu’il croyait

perdu]

Il était sur l’ordinateur !

Ex (33) [Exemple emprunté à Cornish 1999 (p. 136) ; Chez un antiquaire : le vendeur

rassure le client intéressé par un guéridon endommagé]

Il est facile à réparer.

Ex (34) [Exemple emprunté à Cornish 1999 (p. 131) ; dans une piscine découverte du

Sud-Ouest de la France. Un client à l’accueil s’adressant à F. Cornish qui

partait :]

Elle est froide ?

L’appellation même d’anaphore situationnelle semble quelque peu contradictoire au

sein du cadre traditionnel : le terme « anaphore » est, nous venons de le rappeler,

généralement lié à l’endophore alors que l’adjectif « situationnelle » range le phénomène du

côté de l’exophore. Dans un cadre discursif, a contrario, une telle dénomination prend tout

son sens : l’anaphore consiste en une instruction concernant un objet privilégié des modèles

mentaux des interactants (on pourra dire de manière non technique « focalisé »), or, ce statut

privilégié peut résulter de configurations textuelles et/ou situationnelles. L’anaphore de

l’approche classique (avec reprise et coréférence) pourrait donc être définie discursivement

comme un cas particulier d’« anaphore textuelle », opposée à l’anaphore situationnelle qui

nous intéresse ici.

Les exemples (32), (33) et (34) nous montrent que l’accession d’un objet mental au

statut « focal » à partir d’une configuration situationnelle comporte plusieurs modalités. Les

exemples (32) et (33) sont liés à la coprésence de l’élément situationnel et du pronom

anaphorique : en (32), l’accession au statut focal de l’objet mental est assurée par une


156

monstration de la part du locuteur ; en (33), en revanche, si monstration il y a, celle-ci n’est

pas (aussi) ostensive (on pourra penser au regard insistant du client sur le guéridon).

L’exemple (34), finalement, montre la possibilité d’anaphore situationnelle sans coprésence

de l’élément situationnel et du pronom anaphorique : le pronom « elle » est univoquement

compris comme désignant l’eau du bassin sans pour autant que celui-ci (et donc a fortiori

l’eau contenue) soit en vue. L’exemple (34) confirme la proposition de Kleiber 1994

concernant l’importance de la saillance de la situation d’énonciation (et pas nécessairement de

l’élément situationnel) dans ce cadre (cf. l’analyse de Cornish 1999 : p. 131).

1.3 Synthèse

Cette section nous a permis de montrer comment l’adoption d’une approche discursive

peut apporter des solutions intéressantes non seulement aux problèmes de distinction entre

deixis et anaphore mais aussi aux problèmes posés par une vision antécédentiste de cette

dernière. Nous noterons que l’adoption d’une approche discursive constitue en fait une

transposition de la distinction deixis / anaphore d’un cadre « géographique » (résolution par

recours à la situation ou au cotexte) à un cadre cognitif : le critère définitoire n’est dès lors

plus l’emplacement d’un éventuel « antécédent », mais plutôt le statut de l’objet mental

désigné par l’expression indexicale au sein des modèles mentaux construits par les

interactants. Cependant, comme nous l’avons mentionné, cette transposition génère un

ensemble de problèmes nouveaux ; parmi les différents problèmes que nous avons

mentionnés, nous retiendrons tout particulièrement ceux concernant la nature des procédures

liées à l’usage anaphorique des expressions indexicales. Nous restreindrons plus

particulièrement la suite de ce chapitre à l’analyse du fonctionnement anaphorique des

pronoms dits « personnels » qui constitueront l’objet des analyses présentées dans la

quatrième partie de cette thèse.

2 Anaphore pronominale et discours

La section précédente nous a permis de dessiner quelques pistes concernant les

solutions apportées par une approche discursive aux problèmes de la description traditionnelle

de l’anaphore ; ces pistes ont notamment pris la forme d’une reformulation des concepts de

deixis et d’anaphore en tant que procédures discursives. Parmi les nouveaux problèmes posés

par une telle reformulation, nous retiendrons dans le reste de ce travail ceux concernant le

fonctionnement référentiel des expressions indexicales pronominales ; notre démarche se


157

décomposera en trois étapes : tout d’abord, nous effectuerons une rapide description

comparative du fonctionnement des expressions définies, démonstratives et pronominales

dans l’objectif principal de montrer la spécificité des ces dernières ; nous étudierons ensuite

les conséquences de la mise en correspondance de ces formes linguistiques avec des

procédures référentielles spécifiques, notamment concernant la possibilité d’une typologie. La

troisième partie de cette section, finalement, proposera l’étude de la Théorie du Centrage

comme modèle explicatif de l’interprétation anaphorique dans le discours.

2.1 Fonctionnement référentiel des expressions indexicales : généralités

Le questionnement concernant le fonctionnement des formes anaphoriques dans le cadre

de la communication se traduit fréquemment par une analyse des expressions définies,

démonstratives et pronominales : on retiendra des travaux tels que par exemple Hawkins

1977a et 1977b, Corblin 1987, Apothéloz 1995, Cornish 1999, Salmon-Alt 2001 ou encore

Charolles 2002 pour des analyses de tout ou partie de ces expressions. Nous allons suivre

cette voie et présenter succinctement le fonctionnement de ces trois types d’expressions.

2.1.1 Expressions définies

On considère généralement depuis Russell 1905 que le fonctionnement référentiel des

expressions définies implique la satisfaction de conditions d’existence et d’unicité : une

phrase dont le sujet est une expression définie n’est vraie que si le référent de cette dernière

existe et est unique et si ce que l’on en prédique est vrai. Strawson 1977 proposera un recours

au concept de présupposition : l’existence et l’unicité du référent désigné par une expression

définie font alors partie des présupposés d’un énoncé ; leur non-satisfaction entraîne

l’impossibilité de pouvoir attribuer une valeur de vérité à la phrase hôte.

L’adoption de l’approche discursive que nous proposons induit la relativisation de ces

contraintes à un univers cognitif restreint : l’existence et l’unicité du référent seraient alors à

considérer dans le cadre plus restreint des modèles mentaux des interactants ; une simple

transposition cependant ne résoudrait ni les problèmes posés par les cas d’anaphore

associative (cf. Gaiffe et al. 1997) concernant la contrainte d’existence, ni le problème de la

non spécificité du critère d’unicité. Concernant ce second point, Corblin 1987 précise en effet

que le critère d’unicité se retrouve aussi bien dans les expressions définies que dans les

expressions démonstratives ou pronominales qui « impliquent [toutes] d’une manière ou

d’une autre singularité » (p. 102).


158

Comme le soulignent par exemple Apothéloz 1995 (pp. 55ff) ou Salmon-Alt 2001 (pp.

31ff), des solutions alternatives aux contraintes d’existence et d’unicité ont été proposées par

exemple par Hawkins 1977 et 1978, Marandin 1986, Kleiber 1986 et 1990, Corblin 1987 et

Gaiffe et al. 1997 ; ces propositions, bien que divergentes par certains aspects, caractérisent

fondamentalement la référence « définie » comme impliquant une procédure singularisante

indirecte (de nature lexicale et fondée sur des connaissances d’arrière plan) au sein d’un

domaine d’interprétation. L’identification du référent d’une expression définie s’appuie ainsi

sur sa référence virtuelle, mais implique l’identification couplée d’un domaine

pertinent (Hawkins 1977 ; Gaiffe et al. 1997), « un domaine dans lequel son contenu soit en

mesure de constituer un signalement singularisant » (Corblin 1987 : p. 244). La mise en

rapport avec le « domaine d’interprétation » (Salmon-Alt 2001) est indirecte car fondée sur la

référence virtuelle de l’expression définie et fait en général appel à des informations

extratextuelles de nature encyclopédique et stéréotypique (Hawkins 1977a ; Kleiber 1990).

On notera finalement avec Kleiber 1986 que la référence définie implique une forme de

continuité avec les « circonstances d’évaluation » déterminées par l’ensemble des

informations prédiquées du référent depuis son introduction (cf. Apothéloz 1995 : pp. 64ff

pour une présentation plus détaillée).

2.1.2 Expressions démonstratives

Les expressions démonstratives sont souvent présentées comme des formes

concurrentes des expressions définies (cf. Apothéloz 1995) ; nombre de travaux, en effet, ont

eu pour objectif principal de distinguer les contraintes d’usages de ces deux types

d’expressions indexicales.

Dans ce cadre, la plupart des auteurs considèrent la référence démonstrative comme

plus directe que la référence définie : la désignation du référent se fait ainsi sans recours

fondamental à la référence virtuelle de l’expression ; en conséquence, l’expression

démonstrative « a besoin d’un contexte qui doit lui-même fournir un moyen d’isoler l’objet

désigné » (Salmon-Alt 2001 : p. 36). On retrouve cette proposition dans Hawkins 1977 qui

suggère une contrainte de « perceptibilité » concernant la référence démonstrative, par

opposition à l’unicité et l’exhaustivité de la référence définie.

Une seconde caractéristique de la référence démonstrative concerne la possibilité de

reclassification associée à l’anaphore démonstrative par opposition à l’anaphore définie.

Comme le souligne Salmon-Alt 2001, libéré de sa fonction identificatrice (cruciale dans le


159

cadre de la référence définie), la référence virtuelle de l’expression démonstrative peut

permettre une reclassification du référent. Corblin 1987 propose que cette différence de

fonction de la référence virtuelle explique en grande partie l’opposition défini / démonstratif :

dans le cadre de l’anaphore définie, la distance sémantique entre l’antécédent et l’expression

anaphorique est nécessairement limitée (relations d’identité, de synonymie, d’hyperonymie,

de métonymie) ; dans l’anaphore démonstrative, a contrario, et étant donnée la perceptibilité

du référent, cette distance peut être plus importante, autorisant des cas tels que (35) ci-

dessous, emprunté à Apothéloz 1995 (p. 62), où « ce compagnon » anaphorise « un arbre »73.

Ex (35) Un arbre dressait ses branches tordues non loin de là. Il décida de passer la

nuit près de ce compagnon.

Cette caractéristique de reclassification n’est pas sans rappeler l’analyse de Kleiber

(1986 et 1990) qui propose une prédominance du démonstratif lorsque l’énoncé contenant

l’expression anaphorique constitue une rupture avec les circonstances d’évaluation attachées

au référent.

On notera finalement que Corblin 1987 oppose expressions définies et démonstratives

dans le cadre de sa Théorie des Contrastes. Ainsi, l’anaphore définie est présentée comme

reposant sur un contraste entre domaines lexicaux alors que l’anaphore démonstrative

implique un contraste à l’intérieur d’un domaine donné, plus précisément entre les éléments

de la classe virtuelle englobant le référent. Un tel contraste devient déterminant, notamment

lorsque d’autres éléments de la même classe sont activés dans la suite de la communication,

comme dans l’exemple (36) ci-dessous emprunté à Corblin 1987.

Ex (36) Une voiture était rangée devant la porte. C’est cette voiture que j’ai prise et

non la tienne.

2.1.3 Expressions pronominales

Cette rubrique consacrée aux « expressions pronominales » sera en fait centrée sur les

pronoms dits « personnels » de troisième personne. Selon Kleiber 1994, et comme nous

l’avons défendu, les pronoms personnels tels que « il » ou « he » entrent de plein droit dans la

catégorie des expressions référentielles : ces pronoms ne sont pas de simples substituts

formels à un antécédent textuel explicite. Au même titre que les autres expressions étudiées

73 On notera que l’expression définie telle que « du compagnon » à la place de « ce compagnon » permettrait

difficilement cette interprétation.


160

ici, ces marqueurs sont dotés de signification conceptuelle et de signification procédurale (cf.

§ 1.2.1). La signification conceptuelle des pronoms personnels est à mettre en relation avec

les marques de genre, de nombre et, pour l’anglais, le trait humain / non-humain pour la

troisième personne du singulier. Nous n’aborderons pas plus avant les caractéristiques des

systèmes de l’anglais et du français dans ce domaine, mais reviendrons ci-dessous sur

l’interaction de la signification conceptuelle avec la signification procédurale dans le cas des

pronoms (cf. § 2.2.1).

La signification procédurale des pronoms est, dans un cadre cognitif, en général

présentée (cf. par exemple de Mulder & Tasmowski-De Ryck 1997 dans le cadre de la

référence évolutive) comme une instruction de continuité attentionnelle et référentielle.

Cornish 1999 souligne une différence de comportement des pronoms selon que ceux-ci sont

accentués ou pas. Ainsi, si les pronoms inaccentués, « clitiques » ou « conjoints » (cf. par

exemple Charolles 2002 : pp. 187ff) sont l’archétype même de ce fonctionnement de

continuité ; les pronoms accentués, en revanche, semblent se comporter de manière plus

complexe. Observons les exemples (37) ci-dessous.

Ex (37) a. Paul called Jim a Republican. Then he insulted him.

(he-Paul / him-Jim)

b. Paul called Jim a Republican. Then HE insulted HIM.

(HE-Jim / HIM-Paul)

Les exemples (37a) et (37b), empruntés à Lakoff 1971, montrent que l’accentuation des

pronoms « he » et « him » (marquée ici par les majuscules) induit une différence dans

l’interprétation de ces derniers ; on constate par exemple que « he » inaccentué fonctionne de

manière anaphorique en prorogeant le statut focal de l’objet mental associé à « Paul », ce qui

n’est pas le cas de sa contrepartie accentuée. Nous traiterons ce phénomène de manière

détaillée dans le chapitre 6 de cette thèse, en relation avec l’analyse du rôle discursif de la

prosodie. Pour l’instant, nous centrerons nos analyses sur le fonctionnement des pronoms

personnels clitiques ou inaccentués et c’est de ces expressions qu’il sera question lorsque nous

parlerons d’« anaphore pronominale » dans la suite de ce chapitre.

Présenter l’anaphore pronominale comme une simple instruction de continuité

concernant la focalisation d’un objet mental constitue bien évidemment une simplification


161

schématique. Comme le souligne Salmon-Alt 2001 (p. 39), une telle approche n’explique pas

le fonctionnement détaillé de ces expressions lorsque, par exemple, plusieurs objets mentaux

peuvent prétendre au statut privilégié (« focal ») dont il est question. En définitive, la question

centrale consiste à savoir comment une expression sémantiquement aussi réduite peut

fonctionner référentiellement dans la communication. C’est plus précisément vers cette

thématique que nous allons à présent nous tourner.

2.2 Anaphore pronominale et discours

Plusieurs réponses peuvent être fournies à la question du fonctionnement référentiel des

pronoms personnels. Nous allons aborder plusieurs de ces réponses dans les rubriques

suivantes de cette section : nous commencerons ainsi par souligner la contribution de ce que

F. Cornish appelle le « segment indexical » dans le fonctionnement référentiel des pronoms

personnels ; cette contribution est plus particulièrement liée au sens conceptuel de

l’expression anaphorique, qu’elle vient en quelque sorte compléter. Nous évoquerons ensuite

le rôle joué par une forme de typologie attentionnelle associant formes linguistiques et statuts

des objets mentaux désignés ; cet aspect concerne plus spécifiquement l’aspect procédural des

expressions indexicales en général et des pronoms personnels anaphoriques en particulier.

Nous présenterons finalement plusieurs modèles qui intègrent certains des paramètres

précédents et ont pour objectif de rendre compte de manière systématique des aspects liés à la

production et à la perception des anaphores pronominales dans la communication.

2.2.1 Référence et responsabilité partagée

Le point que nous allons aborder constitue l’une des explications les plus importantes de

la possibilité d’attribution référentielle univoque pour les anaphores pronominales en dépit du

faible contenu conceptuel de ces dernières. Le lecteur trouvera dans le chapitre 3 de Cornish

1999 une présentation détaillée et argumentée des éléments que nous allons évoquer ici.

Cornish 1999 propose que l’expression anaphorique74 désigne un référent non

seulement en fonction de ses sens conceptuel (genre, nombre, humain/non-humain) et

procédural (référent ayant un statut attentionnel) privilégié, mais aussi crucialement en

fonction des indices fournis par la proposition (le « segment indexical ») qui la contient ; le

prédicat, notamment, joue dans cette perspective un rôle déterminant. Ainsi, le prédicat,

74 Notamment lorsque celle-ci est pronominale, mais aussi, en fait, lorsque cette expression est ambiguë

(polysémie, homophonie/homographie, etc.).


162

« unité sémantico-grammaticale » (ibid. : p. 70) permet l’assignation de deux composants de

sens à l’expression anaphorique : son statut argumental ou prédicatif et l’ordre de l’entité

désignée. Nous n’aborderons pas ici ce second point (déjà évoqué chapitre 1) et allons

focaliser notre attention sur le premier.

Le rôle joué par la structure du segment indexical (et notamment par le prédicat en son

sein)75 dans l’attribution du statut argumental ou prédicatif à une expression anaphorique peut

être mise en évidence à l’aide des exemples (38) et (39) ci-dessous.

Ex (38) [Bill baille]

Bill : I’m really tired, you know.

Jane : (a) But you don’t regret it/*so, do you ?

(b) But you don’t sound it/so, actually.

L’exemple (38), inspiré de l’exemple (3.4) de F. Cornish (ibid. : p. 72) propose deux

réponses alternatives de Jane ; ces deux réponses diffèrent par la nature du prédicat au sein du

segment indexical (les structures syntaxiques des segments sont identiques). Le pronom « it »

peut être caractérisé comme un pronom défini intrinsèquement argumental, par opposition à

« so », typiquement prédicatif (ibid. : p. 73). Cette distinction est flagrante en (a), où le verbe

factif « regret » exclut la possibilité de reprise par « so » au profit de « it », argumental. La

possibilité (plus variable selon les locuteurs) d’avoir aussi bien « it » que « so » dans (b)

résulte de la nature même du verbe recteur « sound » : ce verbe (et par extension l’ensemble

des verbes d’apparence physique en anglais) a ainsi la capacité d’invalider la lecture standard

du pronom « it » et de forcer un statut prédicatif pour son référent.

Ex (39) (a) La vie à l’époque était une lutte, et elle devait le/*la rester.

(a’) Life at the time was a struggle, and (it) was to remain so/*it.

(b) La vie à l’époque était une lutte. Il fallait la/*le prendre à bras le corps sans relâche.

(b’) Life at the time was a struggle. One had to take it/*so on without weakening.

75 Concernant la structure de la clause dans son ensemble, on notera avec Cornish 1999 (p. 73) que le fait que

l’expression anaphorique soit sujet syntaxique (« argument externe ») au sein du segment indexical impose au

référent de cette dernière un statut argumental.


163

Les exemples (39), empruntés à Cornish 1999 (p. 74), montrent un phénomène similaire

pour le français (les traductions anglaises sont de F. Cornish). En effet le segment indexical de

(39a) est organisé autour de la quasi-copule « rester » qui régit le pronom neutre « le » ;

l’impossibilité d’accord avec « une lutte » (« la » est ici exclu), féminin, constitue un indice

explicite du statut prédicatif du référent désigné par « le »76. L’exemple (39b), a contrario,

interdit l’usage du neutre « le » au profit du féminin « la » ; il y a accord entre le pronom et le

déclencheur d’antécédent « la vie » par le fait que c’est la locution verbale « prendre à bras le

corps » qui joue ici le rôle d’élément recteur au sein du segment indexical et qui induit un

statut argumental au référent désigné par « la »77. On remarquera finalement que c’est la

nature du segment indexical (notamment par le biais des statuts mentionnés) qui impose la

différence de déclencheurs d’antécédent notée par F. Cornish.

Notons enfin que l’aspect, le temps et le mode du verbe recteur au sein du segment

indexical, tout autant que la nature même de ce dernier, constituent autant d’éléments

déterminants dans l’attribution référentielle liée à une expression indexicale donnée (cf.

Cornish 1999 : pp. 83-98).

Nous retiendrons donc qu’un aspect important de la possibilité de désignation univoque

des pronoms personnels dans la communication, en dépit de leur relative pauvreté

conceptuelle, réside dans le fait que ces derniers ne désignent pas seuls ! Le pronom lui-

même, bien sûr, mais aussi la nature, l’aspect, le temps et le mode du verbe recteur au sein du

segment indexical constituent un véritable faisceau d’indices permettant l’identification d’un

référent au sein des modèles mentaux des interactants. Cette position revient à considérer que

les caractéristiques du segment indexical complètent en quelque sorte la composante

conceptuelle de la signification des pronoms personnels ; ceci constitue une approche

linguistique élargie du fonctionnement de ces expressions. Cette approche nous semble

pouvoir être complétée avec profit par une analyse plus cognitivo-pragmatique, centrée sur la

signification procédurale de ces expressions, vers laquelle nous nous tournons à présent.

2.2.2 Typologies attentionnelles

Nous l’avons répété à maintes reprises, dans une approche discursive cognitive-

attentionnelle, le fonctionnement anaphorique est lié au maintient d’un objet mental dans une

position privilégiée au sein des modèles mentaux des interactants. Nous avons remarqué par

76 L’impossibilité d’utiliser « it » en (39a’) va tout à fait dans le même sens. 77 Cette analyse est confortée par l’impossibilité d’utiliser « so » en (39b’).


164

ailleurs (cf. § 2.1.3) que les pronoms semblaient d’une certaine manière être « spécialisés »

dans la manipulation d’objets mentaux de ce type. Ainsi, si une forme indexicale donnée n’est

en relation biunivoque stable avec aucun statut attentionnel particulier, il semble malgré tout

que l’on puisse proposer des associations plus ou moins « lâches » entre formes indexicales et

statut attentionnel du référent. On retrouve là le programme défini par Prince 1981 (cf.

chapitre 3, § 1.3) concernant le problème des relations unissant formes linguistiques et entités

discursives :

« The solution to the problem then may be seen as requiring three parts: (a) a taxonomy of

linguistic forms, both morphological and syntactic; (b) a taxonomy of the values of Assumed

Familiarity; and (c) an account of the correlation between the two. Structural linguistics and

transformational grammar has provided us with the first part, at least for forms that are identifiable

on the level of the sentence or less, and this chapter is an attempt to provide the second. Hopefully,

once the two taxonomies have been arrived at, further research can determine the correlation.

(Prince 1981 : p. 233)

Comme nous l’avons mentionné, Prince 1981 constitue une transition entre une

approche dichotomique « relationnelle » et une approche graduelle, « référentielle » et

cognitive (Gundel 1988) de la distinction « donné » / « nouveau ». Les travaux de Givón

(1983, 1985 et 1990) ainsi que ceux d’Ariel (1994, 1996 et 2000) s’inscrivent à des degrés

divers dans cette perspective « référentielle » et ne sont pas sans rappeler l’« échelle de

familiarité » proposée par Prince 1981.

L’approche de Givón constitue en fait une extension de l’approche fonctionnaliste qui,

rappelons-le, oppose le « donné » (« thème » ou « topique ») au « nouveau » (« rhème »,

« commentaire » ou « focus ») à l’intérieur de l’énoncé. La notion de « topique discursif »

adoptée par Givón (cf. Grobet 2002 pour une analyse critique du concept) s’entend à l’échelle

du texte et correspond grossièrement à ce dont il est principalement question dans celui-ci (cf.

le concept d’« aboutness » proposé par Reinhart 1981). Dans ce cadre, Givón 1983 propose

une correspondance entre la continuité topicale78 et son marquage linguistique sous la forme

d’une échelle telle que celle représentée dans la figure 13 ci-après :

78 Déterminée en fonction de paramètres tels que la distance linéaire (en nombre de propositions ou de phrases)

entre deux désignations d’un référent, les interférences référentielles (nombre de référents entre deux

désignations d’un référent) et l’information thématique (maintient ou changement du protagoniste).


165

zero anaphora < unstressed/bound pronouns or grammatical agreement <

stressed/independent pronouns < R-Dislocated DEF-NPs < neutral ordered DEF-NPs

< L-Dislocated DEF-NPs < Y-moved NPs (‘contrastive topicalisation’) < cleft/focus

constructions < referential indefinite NPs

Figure 13: Echelle de codage du topique selon Givón 1983.

On remarquera notamment que les pronoms inaccentués occupent une place élevée dans

cette échelle, du fait de leur propension à la continuité topicale.

Dans sa Théorie de l’Accessibilité, Mira Ariel postule qu’une expression référentielle

donnée est choisie par le locuteur en fonction de l’accessibilité supposée de l’objet mental

désigné pour l’interlocuteur. Plus cet objet mental sera accessible, plus l’expression utilisée se

situera dans une position élevée au sein de l’« échelle de marquage d’accessibilité »

(« accessibility marking scale ») donnée dans la figure 14 ci-dessous :

zero < reflexives < poor agreement markers < rich agreement markers <

reduced/cliticized pronouns < unstressed pronouns < stressed pronouns < stressed

pronouns + gesture < proximal demonstrative (+NP) < distal demonstrative (+NP) <

proximal demonstrative (+NP) + modifier < distal demonstrative (+NP) + modifier <

first name < last name < short definite description < long definite description < full

name < full name + modifier

Figure 14: Echelle de marquage d’accessibilité selon Ariel 2000.

Dans ce cadre, l’accessibilité supposée d’un référent est calculée par le locuteur en

fonction des deux paramètres principaux que sont la saillance du référent (que celui-ci soit

linguistique ou pas) et l’unité du discours (définie en termes de distance et de degré de

cohésion entre unités). On remarquera ici aussi la position élevée occupée par les pronoms

inaccentués qui constituent des marques d’accessibilité élevée de leur référent.

Les travaux de Jeannette Gundel (cf. notamment Gundel et al. 1993), finalement,

entrent eux aussi dans cette filiation « référentielle ». Ils ont de plus l’avantage de proposer

non seulement une typologie ordonnée des expressions référentielles (de manière similaire à

Givón ou Ariel), mais aussi une topologie cognitive de l’attention. En effet, contrairement aux

approches que nous venons de mentionner, Gundel et al. 1993 va au-delà d’une présentation

de la topicalité ou de l’accessibilité sous forme d’un continuum et postule un gradient d’états


166

cognitifs discrets. La figure 15 ci-dessous est une représentation de cette « Hiérarchie du

Donné » (Gundel et al. 2000 parle de « Hiérarchie de la Donation »).

In focus > activated > familiar > uniquely identifiable > referential > type identifiable

(it) that that N the N indef this N a N

this

this N

Figure 15: Hiérarchie du donné selon Gundel et al. 1993

(repris de Gundel et al. 2000 : pp. 81-82).

L’approche s’appuie sur une vision dynamique de la distinction des deux dimensions

cognitives que sont l’activation et l’attention : comme le résume Huang 2000 à la suite de

Chafe 1994,

« […] activation of a referent in one’s current short-term memory at moment tn is a result of

focusing one’s attention on that referent at a previous moment tn-1. » (Huang 2000 : p. 160)

Comme l’explicite Cornish 1999 (p. 8), les expressions référentielles associées aux états

cognitifs le sont purement à titre illustratif ; nous noterons néanmoins à nouveau la position

élevée occupée par les pronoms dans cette échelle qui nous permet d’expliciter leur

fonctionnement en relation avec la topologie cognitive proposée : les pronoms personnels

semblent donc spécialisés dans la désignation de référents situés dans le focus attentionnel des

interactants. La vision dynamique adoptée permet d’expliquer l’exemple (40) ci-dessous :

Ex (40) (a) I dropped ten marbles and found all of them except for one. It’s probably

under the sofa.

(a’) # I dropped ten marbles and found only nine. It’s probably under the sofa.

Au terme du premier énoncé de (40a), la bille manquante a été introduite dans le focus

par mention explicite (« except for one ») ; celle-ci peut donc être reprise par un pronom,

comme le prévoit la Hiérarchie du Donné. En (40a’), a contrario, le référent correspondant à

la bille manquante n’a pas été explicité : il peut donc difficilement être repris par le pronom

« it », comme le signifie le « # ». Etant « uniquement identifiable », ce référent pourrait être

désigné par une expression telle que « the missing marble ».

Les différentes typologies attentionnelles que nous venons d’évoquer permettent

d’affiner la vision selon laquelle les pronoms réfèrent à un objet mental « privilégié » dans les

modèles mentaux des interactants. La Hiérarchie du Donné, notamment, proposée par Gundel


167

et al. 1993, permet de postuler une association conventionnelle « lâche » entre expressions

linguistiques et zones cognitives discrètes, organisées selon une hiérarchie explicite stricte. De

telles théories constituent des modélisations permettant d’expliciter certaines des contraintes

de production et le déroulement de certains processus de perception impliqués dans l’usage

des pronoms personnels dans la communication79. Nous allons à présent nous tourner vers

l’une des modélisations les plus abouties dans le domaine de l’anaphore discursive

pronominale, la Théorie du Centrage, et montrer certaines de ses limites et des évolutions

qu’elle a motivées.

2.2.3 La Théorie du Centrage : un modèle de l’anaphore discursive

Principes généraux

La Théorie du Centrage (« Centering Theory » ; nous dirons « CT ») reçoit sa première

formulation dans Grosz, Joshi & Weinstein 1983, puis dans Grosz, Joshi & Weinstein 1986,

un manuscrit non publié qui a longtemps servi de référence commune à nombre de travaux. Il

est important de noter que CT constitue en fait un prolongement de deux traditions : d’une

part les travaux de Joshi, Kuhn et Weinstein (Joshi & Kuhn 1979 ; Joshi & Weinstein 1981) et

d’autre part ceux de Grosz (cf. Grosz 1977) et Sidner (cf. Sidner 1979). De nombreux travaux,

à la fois théoriques et expérimentaux, sont venus enrichir le cadre de CT ; nous fonderons

cependant notre présentation sur Grosz et al. 1995a (repris dans Grosz et al. 1995b) et Walker

et al. 1998b, qui comptent parmi les présentations récentes de la théorie les plus exhaustives.

CT a pour objectif principal de rendre compte de la cohérence du « discours » par une

prise en compte de l’interaction du choix des expressions référentielles, de l’état attentionnel

des interactants et des inférences requises pour l’interprétation d’un énoncé au sein d’un

segment de discours (Grosz et al. 1995a : p. 8). Les concepts fondamentaux d’état attentionnel

et de structure discursive (par l’intermédiaire des segments de discours) sont directement

inspirés de Grosz & Sidner 1986 que nous avons présenté au chapitre 3. Nous retiendrons

principalement que la cohérence globale du discours est présentée comme dépendante de la

structure intentionnelle (entre segments de discours et en relation avec le « Discourse

Purpose »), alors que la cohérence locale est liée à l’enchaînement des énoncés au sein même

d’un segment de discours (en relation avec le « Discourse Segment Purpose ») ; l’état

attentionnel, de manière similaire, comporte deux niveaux liés à ces deux niveaux de 79 Nous nous attacherons plus particulièrement aux processus cognitifs d’interprétation des pronoms personnels

dans le chapitre 8 de cette thèse.


168

structure. Hormis quelques exceptions dont nous parlerons plus loin, CT s’intéresse à la

modélisation du niveau local, c'est-à-dire à l’intérieur d’un segment de discours.

Centres prospectifs et rétrospectifs

Chaque énoncé contient un certain nombre de « centres » qui permettent de le relier aux

autres énoncés au sein d’un segment de discours (SD). De manière plus simple, on pourra

considérer qu’un centre correspond à un objet du modèle mental des interactants ; ainsi, dans

« Paul a vu Marie à Lyon », on considèrera que les entités mentales correspondant à Paul,

Marie et Lyon sont les centres de l’énoncé.

Les relations unissant centres et expressions linguistiques ne sont cependant pas

toujours aussi directes ; dans CT, elles sont de deux ordres (cf. Grosz et al. 1995a et 1995b ;

Walker et al. 1998c) : on parlera ainsi de « réalisation » et de « réalisation directe », la

seconde option étant un cas particulier du premier. Depuis Grosz, Joshi & Weinstein 1986

(qui s’appuie sur la sémantique des situations de Barwise & Perry 1983), on dit

• qu’un énoncé E « réalise » un centre c si c est un élément de la situation décrite par E

ou si c est l’interprétation d’une portion de E ;

• qu’un énoncé E « réalise directement » un centre c si c est l’interprétation d’un

syntagme de E.

Ainsi, l’énoncé « Paul a vu Marie à Lyon » réalise le centre rencontre et réalise

directement les centres Paul, Marie et Lyon. De manière schématique, la réalisation directe,

qui nous intéressera ici particulièrement, est liée à la désignation explicite d’une entité du

modèle mental des interactants à l’aide d’un déclencheur d’antécédent de type expression

référentielle.

D’après la contrainte 2 ou « C2 » de Walker et al. 1998c, chaque énoncé E contient un

ensemble partiellement ordonné Cf(E, SD) de « centres prospectifs » (« forward-looking

centers ») dont chaque élément doit être réalisé dans E. On peut concevoir les Cf, en tant

qu’entités introduites dans le modèle mental, comme autant de liens potentiels avec les

énoncés suivants. En ce sens, les centres Paul, Marie et Lyon de l’énoncé pris en exemple

sont les Cf de cet énoncé.


169

L’ensemble Cf(E, SD) est défini en fonction de plusieurs paramètres dont les plus

importants sont la fonction sémantico-syntaxique80 (sujet > objet animé indirect > objet direct

> objet inanimé indirect > autre), l’ordre linéaire d’introduction, le statut par rapport au

recteur (élément de valence > élément de rection) et, comme le souligne Brennan 1995, divers

paramètres prosodiques induisant la saillance d’un élément81. L’ordre des centres Cf(E) est

défini uniquement en fonction de E et sans référence aux énoncés précédents. Depuis Brennan

et al. 1987, on considère que le membre hiérarchiquement le plus élevé de cet ensemble est le

Cp(E) ou « centre préféré » (« preferred center ») de l’énoncé E. Les Cf de notre exemple

peuvent donc être ordonnés de la manière suivante Paul > Marie > Lyon, avec Cp = Paul.

La contrainte 1 ou « C1 » de Walker et al. 1998c précise que chaque énoncé non-initial

de SD est aussi caractérisé par un unique « centre rétrospectif » (« backward-looking center »)

Cb(E, SD)82 correspondant à l’objet mental le plus saillant au moment où l’expression

linguistique qui le réalise est interprétée.

Une dernière contrainte « C3 » postulée par Walker et al. 1998c indique que le Cf(En-1)

le plus élevé réalisé dans En est nécessairement le Cb(En).

Types de transition

Les concepts de centres prospectifs et rétrospectifs que nous venons d’évoquer

permettent de rendre compte de l’enchaînement des énoncés successif au sein d’une segment

de discours ; on parlera alors de trois types de « transition » (Grosz et al. 1995a : p. 11),

principalement définies en fonction des relations entre le centre rétrospectif Cb(En+1) d’un

énoncé et le centre rétrospectif Cb(En) de l’énoncé qui le précède :

• Continuation (« Center Continuation ») : Cb(En+1) = Cb(En) = Cp(En+1). Le Cb de

l’énoncé en cours et de l’énoncé précédent sont identiques et ce Cb est aussi le Cp de

l’énoncé en cours.

• Conservation (« Center Retaining ») : Cb(En+1) = Cb(En), Cb(En+1) ≠ Cp(En+1). Les Cb

de l’énoncé en cours et de l’énoncé précédent sont identiques mais le Cb de l’énoncé

en cours est différent de son Cp.

80 Ce paramètre, et notamment la fonction sujet, semble dominer les autres paramètres. 81 Cf. chapitre 6. 82 Ces diverses notations sont simplifiées en Cf(E) et Cb(E) lorsque le SD est identifié.


170

• Rupture (« Center Shift ») : Cb(En+1) ≠ Cb(En). Les Cb de l’énoncé en cours et de

l’énoncé précédent sont différents.

CT propose deux règles concernant ces transitions :

• Règle 1 : si un élément quelconque de Cf(En) est réalisé par un pronom dans En+1,

alors le Cb(En+1) doit aussi être réalisé par un pronom.

• Règle 2 : une continuation est préférée à une conservation, et une conservation est

préférée à une rupture.

Brennan et al. 1987 utilisent les règles 1 et 2 ainsi que l’ensemble des types de

transitions que nous venons de présenter afin de décrire le fonctionnement discursif des

pronoms personnels. Les auteurs proposent dans ce cadre une première modification à la

version standard représentée par Grosz et al. 1986 en scindant la transition de type « rupture »

en deux types distincts :

• Rupture douce (« Smooth-Shift ») : Cb(En+1) ≠ Cb(En), Cb(En+1) = Cp(En+1). Les Cb de

l’énoncé en cours et de l’énoncé précédent sont différents, mais le Cb de l’énoncé en

cours et son Cp sont identiques.

• Rupture nette (« Rough-Shift ») : Cb(En+1) ≠ Cb(En), Cb(En+1) ≠ Cp(En+1). Les Cb de

l’énoncé en cours et de l’énoncé précédent sont différents, et le Cb de l’énoncé en

cours est aussi différent de son Cp.

Les transitions peuvent alors être représentées à l’aide du tableau 1 ci-dessous :

Cb(En+1) = Cb(En)

ou Cb(En) = [?] Cb(En+1) ≠ Cb(En)

Cb(En+1) = Cp(En+1) Continuation Rupture douce

Cb(En+1) ≠ Cp(En+1) Conservation Rupture nette

Tableau 1 : Transitions possibles dans CT d’après Walker et al. 1998c (p. 5).

La règle 2 est accommodée en conséquence :

Règle 2 : une continuation est préférée à une conservation, une conservation est préférée

à une rupture douce et une rupture douce est préférée à une rupture nette.


171

Quelques exemples

Ex (41) (a) Susan gave Betsy a pet hamster.

(b) She reminded her that such hamsters were quite shy.

(c) She asked Betsy whether she liked the gift.

L’exemple (41) est emprunté à Grosz et al. 1995a (ex. (7) p. 13) ; analysons les

transitions (41a) – (41b) et (41b) – (41c) :

• 41a – 41b : continuation

- Cb(a) [?]

- Cb(b) [ C3 : SUSAN, « she »]83 = Cp(b) [SUSAN, « she »]

• 41b – 41c : continuation

- Cb(c) [C3 : SUSAN, « she »] = Cb(b) [C3 : SUSAN, « she »]

- Cb(c) [C3 : SUSAN, « she »] = Cp(c) [SUSAN, « she »]


(b) She reminded her that such hamsters were quite shy.

(c) Betsy told her that she really liked the gift.

L’exemple (42) est emprunté à Grosz et al. 1995a (ex. (8) p. 13) ; analysons la

transition (42b) – (42c) (la transition (42a) – (42b) est identique à celle de l’exemple

précédent) :

• 42b – 42c : conservation

- Cb(c) [C3 : SUSAN, « her »] = Cb(b) [SUSAN, « she »]

- Cb(c) [C3 : SUSAN, « her »] ≠ Cp(c) [BETSY, « Betsy »]

83 L’expression Cb(b) [C3 : SUSAN, « she »] se lira « le centre rétrospectif de l’énoncé b, Susan, réalisé par le

pronom ‘she’ en vertu de C3 ». En effet, on a Cb(b) [SUSAN, « she »] car (1) Cp(a) [SUSAN, « Susan »] et (2)

SUSAN est réalisé dans b (on a deux pronoms personnels ne pouvant pas coréférer — « she » c-commande

« her » ; et Cf(a) ne contient exactement deux humains de sexe féminin pouvant être repris par un pronom de

genre féminin).

Cont.

Cont.

Cons.


172


(b) Betsy told her that she really liked the gift.

(c) She said it was a fantastic surprise.

Analysons l’exemple (43) :

• 43a – 43b : conservation

- Cb(a) [?]

- Cb(b) [C3 : SUSAN, « her »] ≠ Cp(b) [BETSY, « Betsy »]

• 43b – 43c : rupture douce

- Cb(c) [C3 : BETSY, « she »]84 ≠ Cb(b) [SUSAN, « her »]

- Cb(c) [BETSY, « she »] = Cp(c) [BETSY, « she »]


(b) Betsy told her that she really liked the gift.

(c) Susan said she deserved a present.

Analysons finalement la transition (44b) – (44c) de l’exemple (44) :

• 44b – 44c : rupture nette

- Cb(c) [C3 : BETSY, « she »] ≠ Cb(b) [SUSAN, « her »]

- Cb(c) [C3 : BETSY, « she »] ≠ Cp(c) [SUSAN, « Susan »]

On notera que les exemples (43) et (44) comportent tous deux une première transition

de type conservation qui anticipe en quelque sorte la seconde, de type rupture (cf. Cornish

1999 : pp. 169-170).

84 On considèrera ici que « she » réalise BETSY. Alternativement, on aurait pu proposer que BETSY n’est pas

réalisé dans c, ce qui reviendrait à postuler que « she » réalise SUSAN (seul autre élément de Cf(b) humain

féminin) ; on aurait alors une continuation avec Cb(c) [C3 : SUSAN, « she »] = Cb(b) [SUSAN, « her »] et Cb(c)

[SUSAN, « she »] = Cp(c) [SUSAN, « she »]. C’est en fait le prédicat de (c) et nos connaissances du monde qui

nous font préférer BETSY (c’est le fait de recevoir un cadeau qui peut être une surprise, et pas celui de faire un

cadeau), nous faisant préférer une rupture douce à une continuation et violant par là même la règle 2.

Conservation

Rupt. douce

Rupt. nette


173

La décroissance progressive de la « cohérence » (objet central de CT) entre ces

exemples suggère une préférence pour la continuité discursive ou « topicale » (situation non

marquée, cf. Cornish 1999 : p. 172) sur la rupture.

Abordons à présent le problème plus spécifique de la modélisation du fonctionnement

discursif référentiel des pronoms personnels.

Limites et évolutions

On notera avec Kehler 1997 que l’utilisation de la version standard de CT comme base

pour l’interprétation des pronoms personnels anaphoriques (au sens traditionnel ; les seuls

analysés dans le cadre de CT) ne permet pas la formulation de prédictions précises. Reprenons

avec Kehler 1997 un exemple inspiré de celui proposé par Grosz et al. 1995a (p. 8) :

Ex (45) (a) Terry really gets angry sometimes.

(b) Yesterday was a beautiful day and he was excited about trying out his new sailboat.

(c) He wanted Tony to join him on a sailing expedition, and left him a message on his answering.

(d) Tony called him at 6AM the next morning.

(e1) He was furious for being woken up so early.

(e2) He was furious with him for being woken up so early.

(e3) He was furious with Tony for being woken up so early.

Analysons tour à tour les transitions (d) – (e1), (d) – (e2) et (d) – (e3) en commençant

par la première :

• Dans (d) :

o Cb(d) [TERRY, « him »] ;

o Cf(d) [TONY, « Tony » > TERRY, « him »] d’où Cp(d) [TONY] ;

• (e1) ne réalise directement qu’un seul des Cf(d) par « he », mais ce centre reste à

identifier :

o si, « he » réalise TONY, on a alors Cb(e1) [TONY, « he »] ≠ Cb(d) [TERRY],

ce qui constitue un cas de rupture ;


174

o si, « he » réalise TERRY, on a alors Cb(e1) [TERRY] = Cb(d) [TERRY], ce qui

constitue un cas de conservation.

La règle 2 du modèle standard favorise cette seconde interprétation de « he » comme

réalisant TERRY.

Les transitions (d) – (e2) et (d) – (e3) sont toutes deux beaucoup plus problématiques

dans le cadre de CT.

Concernant (d) – (e2), on notera que (e2) (« He was furious with him for being woken

up so early. ») comporte 2 pronoms ne pouvant pas co-référer (« he » c-commande « him ») ;

ces deux pronoms réalisent donc chacun l’un des deux éléments de Cf(d) [TONY, TERRY].

D’après C3 on a alors Cb(e2) = Cp(d), c'est-à-dire Cb(e2) [TONY]. On obtient alors Cb(e2)

[TONY] ≠ Cb(d) [TERRY], ce qui implique une rupture, quelle que soit la référence des

pronoms « he » et « him ».

Le modèle standard ne permet pas de différencier (et donc de classer) ces deux cas de

rupture, ce qui a pour conséquence d’empêcher la formulation de prédictions concernant la

référence des pronoms concernés.

Adopter le cadre proposé par Brennan et al. 1987, et notamment la distinction entre

rupture douce et rupture nette, couplée à la reformulation de la règle 2, semble permettre de

palier ce problème. En effet, étant donné que Cb(e2) [TONY] ≠ Cb(d) [TERRY],

• si « he », sujet, réalise TERRY, on a alors Cp(e2) [TERRY] ≠ Cb(e2) [TONY], ce qui

constitue un cas de rupture nette ;

• si, en revanche « he » réalise TONY, on a alors Cp(e2) [TONY] = Cb(e2) [TONY], ce

qui constitue un cas de rupture douce.

Dans ce cadre, cette seconde interprétation serait retenue (par la règle 2 amendée) et on

considèrerait que TONY est favorisé en tant que référent de « he », ce qui est manifestement

contraire à l’interprétation.

La seule autre solution consiste alors à postuler que l’énoncé (d) fait partie d’un

segment discursif distinct de celui contenant les énoncés (a), (b), (c) et (e2) ; la transition se

fait alors avec (c), et se résume de la manière suivante :


175

• Dans (c) :

o Cb(c) [TERRY, « he »] ;

o Cf(c) [TERRY, « he » > TONY « Tony »] d’où Cp(c) [TERRY] ;

• Dans (e2) :

o Cb(e2) = Cp(c) car, étant donné le principe syntaxique c (lié à la c-commande),

les deux Cf de (c) sont nécessairement réalisés ; on a donc Cb(e2) [TERRY] ;

o on a ainsi Cb(e2) [TERRY] = Cb(c) [TERRY] ;

o si « he », sujet, réalise TONY, on a alors Cp(e2) [TONY] ≠ Cb(e2) [TERRY],

ce qui constitue un cas de conservation ;

o si « he » réalise TERRY, on a alors Cp(e2) [TERRY] = Cb(e2) [TERRY], ce

qui constitue un cas de continuation.

Le fait de postuler une frontière de segment discursif (qui ne semble pas

fondamentalement contradictoire avec le sentiment de changement de point de vue que nous

éprouvons concernant cet énoncé) permet en définitive d’appliquer le modèle standard et

notamment sa règle 2, qui nous encourage à préférer la continuation à la conservation et donc

à identifier « he » comme référant à Terry, et « him » à « Tony », ce qui est conforme à

l’interprétation.

La transition (d) – (e3), comme le souligne Kehler 1997 est encore plus gênante :

• Dans (d) :

o Cb(d) [TERRY, « him »] ;

o Cf(d) [TONY, « Tony » > TERRY, « him »] d’où Cp(d) [TONY] ;

• Dans (e3) :

o le syntagme prépositionnel « with Tony » réalise TONY qui est Cp(d) ; on a

donc en vertu de C3 Cb(e3) [TONY] ;

o Afin de ne pas violer la condition c liée au concept syntaxique de c-commande,

on est obligé de déduire que « he » ne co-réfère pas avec « Tony » ; dans ce

cas, « he » réalise nécessairement le seul autre centre humain masculin de

Cf(d), c'est-à-dire TERRY.


176

Ceci constitue une violation de la règle 1 (un élément de Cf(d) est réalisé par un pronom

alors que Cb(e3) ne l’est pas). De plus la transition ainsi réalisée serait, dans le meilleur des

cas, une rupture nette (car Cp(e3) [TERRY, « he »] ≠ Cb(e3) [TONY, « with Tony »]).

On peut adopter plusieurs positions face à ce problème. Une première solution, adoptée

par Kehler 1997, consiste à rejeter la validité de l’approche dans son ensemble, et notamment

la règle 1 et le principe d’interprétation immédiate des pronoms personnels proposé dans

Grosz et al. 1995a (note 3, p. 8).

Une approche alternative consisterait au contraire à s’appuyer sur ces principes pour

rejeter les exemples tels que (45 e3), qui n’est pas attesté (cf. Di Eugenio 1998). Ce second

type de démarche nous semble plus cohérent avec le phénomène de « pénalité de nom propre

répété » observé expérimentalement dans des séquences où le Cb est réalisé par la répétition

d’un nom propre en lieu et place d’un pronom (cf. Cornish 1999 : pp. 172ff pour une

présentation de ces expériences et de leurs résultats). Typiquement (cf. Gordon et al. 1993),

ce phénomène se produit dans des séquences ou le nom répété est en position sujet, comme

par exemple dans « Jean voulait partir tôt. Jean avait rendez-vous ... », mais Gordon & Chan

1995 ont aussi observé ce phénomène lorsque le nom répété apparaît en position objet,

comme c’est le cas ici avec (e3). Cette pénalité de traitement nous encourage à classer ce type

d’enchaînement comme marqué et, loin de remettre en cause les principes de CT, constitue à

l’évidence une confirmation des hypothèses du modèle.

Notons qu’une prise en compte élargie du segment indexical dans le cadre de

l’interprétation anaphorique (position que nous adoptons), semble compatible avec ce type

d’approche (cf. la conception avancée par Kameyama 1994).

A un niveau encore plus étendu, il est intéressant de noter un mouvement important au

sein de CT qui propose, selon une logique comparable, une globalisation de la théorie par delà

les frontières des segments discursifs (la nécessité de ce type d’approche a été démontrée avec

notre exemple 45 e2). Ainsi, au sein de CT, on pensera par exemple aux travaux tels que

Brennan 1995 ou au Modèle du Cache de Walker (1996 et 1998). Une autre approche

intéressante, consiste à coupler CT avec différents autres modèles discursifs, globaux ceux-ci

: on pensera dans ce contexte à Roberts 1998 qui propose une intégration avec la sémantique

dynamique de Heim et Kamp (Heim 1982), ou à la Théorie des Veines (cf. par exemple

Cristea et al. 1998, Cristea et al. 2000 et Ide & Cristea 2000), qui propose une globalisation

de CT par l’extension de ses contraintes et règles au sein de « veines » discursives définies


177

dans le cadre des relations de cohérences de la Théorie de la Structure Rhétorique (ou

« RST », cf. Mann & Thompson 1988). Ces évolutions et ces nouveaux modèles du

fonctionnement discursif des pronoms personnels mettent en évidence un point fondamental

de la relation anaphore – discours ; nous avons jusqu’à présent focalisé notre attention sur le

fait que le discours joue un rôle dans la production et l’interprétation des expressions

indexicales ; il est temps à présent de montrer, avec la rubrique suivante que cette relation

n’est pas à sens unique et que le discours, lui aussi a besoin de l’anaphore.

2.3 Interdépendance de l’anaphore et du discours

Comme nous l’avons vu, le texte (au sens de Cornish 1990, 1999 et 2003a), notamment

par l’intermédiaire du segment indexical, joue un rôle crucial dans l’interprétation des

expressions indexicales. Comme l’a montré CT, l’environnement immédiat (notamment la

structure Cf) joue lui aussi un rôle crucial dans ce domaine. Le Modèle du Cache Walker, tout

comme la Théorie des Veines, mettent en exergue l’importance d’un troisième empan

discursif dans l’interprétation de ces expressions. Il semble donc que l’on pourrait concevoir

les effets discursifs sur l’interprétation pronominale à trois niveaux différents de structure : au

sein du segment indexical, tout d’abord, mais aussi entre énoncés au sein d’un segment

discursif, ou encore à l’échelle du texte, entre segments discursifs.

Il est intéressant de remarquer, cependant, que les relations anaphore – discours

semblent plus complexes que ce constat ne le laisse entendre. Ainsi, s’il est indéniable que les

différents niveaux de l’heuristique que constitue le discours contribuent à la détermination des

anaphores, cette dernière semble elle-même jouer un rôle d’importance dans la détermination

de nombreux phénomènes à plusieurs de ces niveaux. Dans ce contexte, nous allons consacrer

cette rubrique au rôle joué par l’anaphore en général et par l’anaphore pronominale en

particulier dans la structuration discursive globale.

Nous avons ainsi vu que l’anaphore pronominale constitue, des trois types que nous

avons évoqués, le type d’expression indexicale impliquant la plus grande continuité

discursive ; ceci est mis en évidence par la relative spécialisation des expressions dans la

désignation des objets mentaux focalisés (Gundel et al. 1993), hautement accessibles (Ariel

1996), familiers (Prince 1981) et topicaux (Givón 1983). Ce statut particulier de l’anaphore

pronominale permet de proposer que cette dernière joue, au niveau discursif, le rôle d’un

véritable indice de continuité, facilitant l’intégration en temps réel du segment indexical au

sein des modèles mentaux des interactants :


178

« […] this function of facilitating the integration of the clause currently being processed with its

discourse context is precisely the role of anaphors of various kinds, whose function is to signal a

particular degree of continuity with regard to emerging contents of the mental discourse model

under construction. » (Cornish 1996 : p. 42)

Cette continuité marquée par les anaphores, comme nous l’avons vu lors du chapitre

précédent, a été fréquemment associée au concept de cohérence. Nous avons mentionné les

problèmes nombreux posés par ce concept, et avons suggéré que le concept de pertinence, tel

que défini dans le cadre de la théorie éponyme pouvait en constituer un substitut avantageux.

Il nous faut cependant noter que les concepts dérivés de « relations de cohérence », « relations

rhétoriques » ou encore « relations de discours » (nous utiliserons cette dernière expression)

peuvent représenter un intérêt tout particulier.

Discours et relations discursives

Le nombre et la nature des relations de discours constituent autant de points

controversés au sein de la littérature sur la question (cf. Hovy 1990 ou Knott & Sanders 1998

pour un aperçu) : on compte par exemple deux relations fondamentales dans Grosz & Sidner

1986 (domination et statisfaction-précédence), plus de cent chez Martin 1992 et la liste

proposée par Mann & Thompson 1988 est explicitement présentée comme ouverte. Une telle

indétermination est selon nous liée à la nature de ces relations : nous n’allons pas nous lancer

ici dans un débat typologique fondé sur l’origine intentionnelle, sémantique et/ou pragmatique

de ces dernières ; au contraire, comme le suggère Knott & Sanders 1998, nous allons nous

placer dans un cadre « psychologique » (p. 136), ce qui nous permettra de la relier avec la

définition du discours que nous avons donnée à la fin du chapitre 3.

Nous avons principalement défini le discours comme une heuristique complexe de

l’activité de communication humaine. Le terme « heuristique » a été retenu car il reflète selon

nous les deux approches fondamentales que l’on peut avoir de la communication : la

production et l’interprétation langagières constituent le résultat d’une modélisation adaptative

et globale de la communication (la construction de modèles discursifs) ; cette modélisation

peut être effectuée à deux niveaux distincts :

• au niveau communicationnel, elle est située et en temps réel, et elle est effectuée par

les interactants-participants ;

• au niveau méta-communicationnel, elle n’est plus située, opère en temps décalé et est

du ressort des interactants-analystes.


179

Cette dichotomie des niveaux et des fonctions discursives n’est pas à concevoir comme

perméable : tout interactant-participant peut assumer la fonction d’interactant-analyste dès

lors qu’il se détache de la situation de communication pour l’appréhender dans sa nature

spécifiquement communicationnelle85. A contrario, la démarche linguistique nous place au

niveau méta-communicationnel et nous coupe en grande partie de la fonction d’interactant-

participants. Il y a donc une asymétrie fondamentale entre d’une part l’interactant-participant

qui peut se détacher temporairement de la situation (en quelque sorte « jouer au linguiste ») et,

d’autre part, le linguiste qui assume fondamentalement la fonction d’interactant-analyste86. Il

n’en reste pas moins que tous deux sont des interactants dont le modèle de l’objet analysé (la

situation de communication ou sa trace textuelle au sens large) est dynamiquement construit

par l’interaction.

Le questionnement de la nature des relations de discours en tant qu’indices utilisés par

les interactants-participants est problématique. Ainsi si certains (cf. Hobbs 1990, Mann &

Thompson 1988, Sanders et al. 1992 et 1993, Knott & Sanders 1998) considèrent la

conceptualisation des relations de discours par les participants comme un préalable à

l’interprétation du discours, d’autres (cf. Grosz & Sidner 1986) voient plutôt les relations

discursives comme des outils analytiques destinés à l’analyse de la structure textuo-

discursive. Notre position est intermédiaire : ainsi, si nous reconnaissons avec Knott &

Sanders 1998 que les relations discursives peuvent être conçues comme des modèles des

différents modes d’intégration des propositions (p. 138), nous insistons sur le fait que de tels

modèles appartiennent au plan méta-communicationnel et ne sont manipulables en tant que

tels que lorsque le participant assume une fonction d’analyste87 ; au plan communicationnel,

les relations discursives n’existent pas en tant que telles mais constituent des effets de bord

d’un principe plus général gouvernant la communication (par exemple des effets cognitifs en

relation avec le Principe de Pertinence ou des épiphénomènes d’un principe global de

cohérence). Cette approche mériterait d’être plus longuement explicitée, mais nous nous

contenterons de ces « préliminaires » pour aborder les liens unissant relations discursives et

anaphore.

85 C’est le cas notamment dans le discours rapporté et, de manière générale, la mention (par opposition à

l’usage). 86 La démarche linguistico-pragmatique cognitive peut cependant être perçue comme une tentative de simulation

de modélisation au niveau communicationnel. 87 Il pourra alors constituer une relation discursive donnée en tant qu’objet mental explicite.


180

Relations discursives et anaphore

Nous nous appuierons dans cette rubrique sur Cornish 2003b dont nous reprendrons

quelques exemples et propositions. F. Cornish s’appuie sur différents exemples tels que (46)

et (47) ci-dessous pour illustrer les approches théoriques qu’il présente (Cornish 2003b : (4a)

et (4b) p. 74 ; Sanders 1997 : 7(3) et 7(4)) :

Ex (46) Théo était épuisé car il avait couru jusqu’à l’université.

Ex (47) Théo était épuisé, puisqu’il était à bout de souffle.

Quelles que puissent être les relations unissant les propositions dans ces deux exemples,

nous insisterons avec Cornish 2003b sur le fait que les hypothèses utilisées pour en

déterminer la nature « ne valent que si le pronom sujet il de la proposition subordonnée

causale coréfère avec le sujet de la principale, assurant ainsi la continuité de la situation

décrite dans les deux propositions » (ibid. : p. 75). Le même raisonnement vaut pour un

exemple tel que (48) (Cornish 2003b : (5) p. 78) :

Ex (48) [Commentaire radio, BBC Radio 4, 12 juin 1984]

The Americans have developed a new method of shooting down

intercontinental ballistic missiles in space: they did it on Sunday.

Cornish mentionne concernant (48)

« un bel exemple de complémentarité entre le fonctionnement des anaphores signalées dans la

2ème phrase (le pronom they + l’anaphorique prédicatif it), d’une part, et l’assignation d’une

relation de cohérence appropriée — ici, celle d’Hypothèse-Preuve » (ibid. : p.78).

L’analyse des nombreux exemples proposés par l’auteur pourrait continuer encore, mais

nous retiendrons pour résumer que l’attribution référentielle des pronoms anaphoriques doit

être effective pour que les relations discursives puissent être déterminées ; cette interaction ne

doit pas être conçue comme séquentielle, mais simultanée. Ce phénomène argumente en

faveur de l’approche interdépendante des notions d’anaphore et de discours que nous

proposions plus haut : l’anaphore peut ainsi être perçue comme facilitant l’intégration du

segment indexical à différents niveaux discursifs (entre énoncés contigus par le biais de

relations discursives au niveau méta-communicationnel ou à l’échelle plus globale du texte,

par un renforcement de la topicalité ou de la cohérence au sein de ce dernier).


181

2.4 Synthèse

Notre objectif principal dans cette seconde section a été d’aborder de manière plus

précise le fonctionnement des expressions indexicales en général et des expressions

pronominales en particulier dans le cadre discursif que nous avons continué de développer à

partir des éléments formulés au chapitre 3. Nous avons ainsi différencié le fonctionnement

référentiel des expressions définies, démonstratives et pronominales avant de nous intéresser

plus particulièrement à ces dernières. Nous avons notamment explicité le rôle fondamental du

segment indexical dans l’attribution référentielle avant de préciser le « statut

cognitif privilégié » dont bénéficient leurs référents. Nous avons de plus présenté un exemple

de modèle, CT, fondé sur Grosz & Sidner 1986 (présenté chapitre 3) qui permettait de

formuler certaines conditions explicites gérant le fonctionnement discursif des anaphores

pronominales à un niveau local. La dernière rubrique de cette section, finalement, nous a

donné la possibilité de montrer, au-delà de la simple dépendance de l’anaphore par rapport au

discours, la fondamentale interdépendance qui unit ces deux notions. Nous pourrons dire en

résumé que si de nombreux éléments discursifs interviennent dans le fonctionnement de

l’anaphore, celle-ci, en retour, joue un rôle déterminant dans la structuration, la production et

l’interprétation de ce dernier.


Nous terminons avec ce chapitre la seconde partie de cette thèse. Cette partie, centrée

sur la thématique de l’anaphore discursive s’est organisée en deux moments. Dans un premier

temps, nous avons tenu à retracer de manière dynamique la constitution de la notion de

discours, de la notion de texte à la vision multidimensionnelle exemplifiée par Grosz &

Sidner 1986 et Roulet et al. 2001. Nous avons introduit, notamment les dimensions cognitive-

attentionnelle et praxéologique qui nous semblent fondamentales. Le chapitre 3 s’est terminé

par une réflexion sur la pertinence d’un objet « discours » par opposition au concept

clairement défini de texte (cf. Cornish 1999 et 2003a) et nous a conduit à proposer une

définition de travail relativement neutre pour le concept de discours.

La seconde phase de cette partie, finalement, par le biais du présent chapitre, a consisté

en une mise en relation des problèmes de l’approche traditionnelle de l’anaphore et de notre

conception du discours. Nous avons précisé, dans l’ultime section de ce chapitre, le

fonctionnement des expressions indexicales et notamment des expressions anaphoriques.

Notre insistance a porté plus particulièrement sur diverses propositions de modélisations des


182

états cognitifs et des contraintes relatifs à l’anaphore discursive pronominale. Notre analyse,

finalement, s’est terminée par la suggestion d’un changement de perspective conduisant à ne

plus considérer l’anaphore comme un problème pour le discours (on parle fréquemment de

« résoudre » les anaphores), mais, au contraire, comme l’un des dispositifs principaux utilisés

par les interactants pour structurer la communication par une forme de « garantie de

continuité » topicale et/ou attentionnelle. C’est principalement cette optique que nous

adopterons dans la suite de ce travail, l’anaphore étant avant tout considérée comme un indice

de structuration discursive, et pas comme une énigme à résoudre.

Notre parcours nous a cependant permis d’isoler le comportement spécifique des

pronoms anaphoriques marqués prosodiquement par l’accent. Ces pronoms, en effet, semblent

assumer un fonctionnement référentiel particulier sensiblement différent de leurs homologues

atones. Ce constat, couplé à la vision multimodale du texte que nous avons choisi d’adopter et

à notre conception de l’oralité comme prototypique de la communication nous encourage

naturellement à approfondir notre approche de la prosodie et à définir de manière plus précise

le rôle de cette dernière au niveau discursif, et plus particulièrement en relation avec

l’anaphore. Ce sont ces éléments qui vont constituer le cœur de la troisième partie de cette

thèse.

183

Partie 3 :

Approches de la prosodie

Partie 3 – Approches de la prosodie

185

La seconde partie de cette thèse nous a permis de commencer à ébaucher notre

conception du niveau d’analyse « discours » ; cette ébauche constitue un élément de réponse

aux problèmes rencontrés par les descriptions classiques de l’anaphore en linguistique ; elle

consiste à considérer le discours comme une heuristique complexe de l’activité de

communication humaine par l’intermédiaire d’un texte verbal, para-verbal et non verbal, à la

fois trace de et indice pour les processus cognitifs (au sens large) qui président à sa production

et à son interprétation situées. Nous proposons ainsi d’envisager le texte dans deux

dimensions orthogonales et complémentaires :

• Du point de vue fonctionnel, nous l’avons mentionné au chapitre 3, le texte est à la

fois trace et indice ; il constitue le résultat et contribue à l’ensemble « point de départ »

des processus impliqués dans le discours ;

• du point de vue formel, le texte est à considérer comme une entité polymorphe

impliquant des ressources verbales, para-verbales et non verbales.

Dans cette troisième partie nous allons aborder ces deux dimensions en relation avec le

phénomène prosodique.

Le premier chapitre de cette troisième partie (chapitre 5) sera pour nous l’occasion de

replacer le concept de prosodie dans son cadre historico-conceptuel et d’en préciser quelques

fondements et enjeux, concernant notamment son statut vis-à-vis de la linguistique, sa

multidimensionnalité et la multiplicité de ses niveaux de représentation.

Le second chapitre (chapitre 6) consistera en une analyse plus détaillée des relations qui

unissent la prosodie et le discours ; nous nous consacrerons plus particulièrement au rôle de la

prosodie dans la structuration textuo-discursive et à son influence sur les expressions

indexicales dans le cadre de l’anaphore.

187

Chapitre 5

Conceptions prosodiques fondamentales

188


1 Prosodie : première approche .................................................................... 189 1.1 Prosodie et pragmatique : destins parallèles .............................................................. 190

1.1.1 Guerre ….............................................................................................................. 190 1.1.2 … et paix.............................................................................................................. 193 1.1.3 Développements récents et perspectives.............................................................. 195

1.2 Suprasegmental, intonation : point terminologique .................................................. 196 1.2.1 Suprasegmental .................................................................................................... 197 1.2.2 Intonation et prosodie........................................................................................... 198

1.3 Synthèse ......................................................................................................................... 200 2 Le macro-système prosodique.................................................................... 201 2.1 Niveaux de représentation............................................................................................ 202

2.1.1 Niveaux de représentation et niveaux d’analyse.................................................. 202 2.1.2 Modalité directe ................................................................................................... 204 2.1.3 Modalité indirecte ................................................................................................ 207

2.2 Multiplicité des paramètres et des dimensions prosodiques ..................................... 210 2.2.1 Prosodie multi-paramétrique................................................................................ 210 2.2.2 Prosodie multi-dimensionnelle ............................................................................ 214

2.3 Espace spectral .............................................................................................................. 220 2.3.1 Statut linguistique ................................................................................................ 220 2.3.2 Vers une intégration linguistique partielle ........................................................... 222

2.4 Ordre métrique et accent ............................................................................................. 225 2.4.1 L’accent : « stress » et « accent »......................................................................... 225 2.4.2 L’ordre métrique comme interface cognitive de haut niveau .............................. 228

2.4 Synthèse ......................................................................................................................... 229 3 Structure(s) et représentation(s) Prosodique(s) ....................................... 230 3.1 Représentations prosodiques : la cas de l’espace fréquentiel ................................... 230

3.1.1 Cadre général ....................................................................................................... 231 3.1.2 Représentation phonétique : l’algorithme MOMEL ............................................ 231 3.1.3 Représentation phonologique de surface ............................................................. 233

3.2 Extensions et applications : ProZed ............................................................................ 237 3.2.1 Extension à d’autres espaces prosodiques ........................................................... 237 3.2.2 L’environnement applicatif ProZed ..................................................................... 238

3.3 Structure(s) prosodiques de l’anglais.......................................................................... 239 3.3.1 Unités prosodiques............................................................................................... 239 3.3.2 Phonologie profonde et phonologie de surface.................................................... 240 3.3.3 Statut phonologique de l’emphase ....................................................................... 243


Chapitre 5 – Conceptions prosodiques fondamentales

189

Les trente dernières années ont donné lieu à une véritable montée en puissance de la

prosodie dans les études linguistiques. Ainsi, jadis en marge de la linguistique et cantonnée,

hormis son rôle lexical, à l’expression graduelle de phénomènes paralinguistiques (affects

notamment) et non linguistiques (origine régionale, âge du locuteur, etc.), la prosodie semble

aujourd’hui omniprésente à de nombreux niveaux de l’analyse. Tout linguiste oraliste, en

définitive, semble pouvoir être tenté par les sirènes prosodiques, au risque de succomber à ce

qu’Albert Di Cristo (à paraître) appelle la « prosodimania ».

Ce chapitre a pour objectif principal d’évoquer le contexte de l’émergence de la

prosodie au sein de la linguistique afin de tenter d’expliquer sa structure et de préciser la

conception que nous proposons de cette partie vivace de la linguistique. Comme nous le

verrons, cette présentation de quelques fondamentaux de la prosodie nous permettra par la

même occasion d’apporter notre pierre à un argumentaire en faveur de l’élargissement (déjà

entamé) de la linguistique, d’une linguistique stricte de la langue à une linguistique

pragmatisée de la parole.

En conséquence, nous structurerons ce chapitre en trois sections principales, suivies

d’une synthèse. Dans la première section, nous tâcherons de préciser le contexte idéologique

qui a présidé à l’intégration (partielle) parallèle de la pragmatique et de la prosodie au sein de

la linguistique. Nous tenterons notamment de souligner les similitudes de ces deux processus

intégratifs afin de les rapprocher et de proposer une perspective d’évolution.

La seconde section sera pour nous l’occasion de préciser plus avant la conception de la

prosodie que nous souhaitons adopter dans ce travail de thèse. Nous nous placerons ainsi

notamment dans le cadre d’une modalité indirecte de mise en relation des aspects prosodiques

formels et fonctionnels. Le concept prosodique sera ensuite présenté comme système à la fois

multiparamétrique et multidimensionnel.

La troisième section, finalement, nous permettra de montrer une application de la vision

de la prosodie proposée dans la section précédente au sein de l’espace lié à la fréquence

fondamentale, ouvrant la voie à une caractérisation prosodique phonologique profonde dans le

cadre des travaux développés par Daniel Hirst et Albert Di Cristo à Aix-en-Provence.

1 Prosodie : première approche

La première section de ce chapitre va être pour nous l’occasion de fournir un cadre à la

conception de la prosodie que nous développerons dans la seconde section et que nous


190

adopterons pour le reste de ce travail de thèse. Cette approche va se décomposer en deux

phases principales. La première phase est motivée par une mise en perspective de la prosodie

en relation avec la linguistique et la pragmatique ; notre objectif dans ce cadre sera de mettre

en évidence certaines des contraintes qui ont présidé à l’intégration partielle de la pragmatique

et de la prosodie au sein d’une linguistique élargie, et de dessiner quelques unes des

potentialités de développement futur.

La seconde phase consistera en un rappel de la florescence terminologique qui entoure

le concept de prosodie ; nous justifierons alors notre préférence pour le terme « prosodie » par

rapport à ces « concurrents ».

1.1 Prosodie et pragmatique : destins parallèles

Le rapide aperçu historico-conceptuel que nous avons déjà évoqué concernant la

thématique de la référence est en définitive, nous l’avons dit, représentatif de l’évolution de la

linguistique dans son ensemble, notamment dans ses relations avec sa voisine pragmatique.

Nous allons évoquer rapidement dans cette rubrique les destins de la pragmatique et de la

prosodie en relation avec celui de la linguistique : cette démarche, c’est notre objectif, nous

permettra de mieux comprendre les positions passée et présente de la prosodie, voire même

peut être de formuler quelques hypothèses concernant son futur … Pour ce faire nous

commencerons par évoquer les aspects ostracistes de la relation linguistique – pragmatique /

prosodie avant de nous intéresser plus particulièrement aux tendances intégratives plus

récentes ; dans chaque cas, nous traiterons du « sort » de la pragmatique avant de parler de

celui de la prosodie.

1.1.1 Guerre …

La formulation est un peut exagérée, nous le reconnaîtrons volontiers, mais force est de

constater que les relations de la pragmatique vis-à-vis de la linguistique ont été pour le moins

tumultueuses. Notre objectif n’est pas ici de nous livrer à une analyse approfondie de la

constitution des champs pragmatique et prosodique, mais plutôt de fournir un éclairage

général. Concernant la pragmatique, le lecteur pourra se référer par exemple à Levinson 1983,

Moeschler & Reboul 1994 ou encore Verschueren 1995 et 1999 pour une exégèse détaillée ;

dans le cadre de la prosodie, on se réfèrera utilement par exemple à Crystal 1969 et 1975,

Ladd 1996 ou Di Cristo à paraître.


191

L’origine du terme « pragmatics » est à trouver dans Morris 1938. La pragmatique est

alors définie comme l’étude des relations qu’entretiennent les signes et leurs interprètes

(« [the study of] the relation of signs to interpreters », Morris 1938 : p. 6). Cette définition est

insérée au cœur d’un projet sémiotique tripartite ambitieux comportant par ailleurs la

sémantique (« [the study of] the relation of signs to the objects to which the signs are

applicable », ibid. : p. 6) et la syntaxe (« [the study of] the formal relation of signs to one

another », ibid. : p. 6). Les jalons été posés pour une pragmatique « gourmande », englobant

presque tous les aspects de la communication par signes :

« Since most, if not all, signs have as their interpreters living organisms, it is a sufficiently

accurate characterization of pragmatics to say that it deals with the biotic aspects of semiosis, that

is, with all the psychological, biological, and sociological phenomena which occur in the

functioning of signs. » (Morris 1938 : p. 30)

Ce type de démarche englobante conforte une vision parallèle de la pragmatique comme

l’étude du langage en usage (« the functioning of signs ») par rapport à l’étude du système de

la langue. On pourra dès lors retrouver l’opposition saussurienne entre langue et parole, et

donc privilégier, dans le cadre du structuralisme et du générativisme la première par rapport à

la seconde. En ce sens, la pragmatique constitue le complémentaire de la linguistique

(représentée ici par l’agrégat sémantique-syntaxe, auquel on ajoutera la phonologie et la

morphologie) au sein de l’ensemble sémiologique.

On comprend alors les approches doublement négatives de la pragmatique par rapport à

la linguistique. Le premier aspect négatif de cette relation est conceptuel. Du fait de la

concurrence entre sémantique et pragmatique dans l’appréhension du sens, une conception

courante consiste à présenter la pragmatique comme le sens moins les conditions de vérité :

« Pragmatics has as its topics those aspects of the meaning of utterances which cannot be

accounted for by straightforward reference to the truth conditions of the sentence uttered. Put

crudely: PRAGMATICS = MEANING – TRUTH CONDITIONS. » (Gazdar 1979 : p. 2)

La pragmatique peut ainsi être schématiquement définie en creux, par opposition à la

sémantique. On notera cependant avec Levinson 1983 (p. 12) qu’une telle attitude fait en

définitive dépendre les frontières de la pragmatique directement de celles de la sémantique.

Ce phénomène a d’ailleurs été largement exploité pour rejeter hors du champ d’application de

la linguistique tout phénomène récalcitrant à ses analyses ; Bar-Hillel 1971 ira même jusqu’à

parler de « pragmatic wastebasket » pour qualifier le statut attribué par nombre de linguiste au

domaine pragmatique.


192

Il est intéressant de noter que les phénomènes associés à la prosodie, même s’ils ont été

identifiés de manière assez fine plus tôt, ont longtemps été marqués du même sceau para-

linguistique. Etudions à ce propos la position de Sapir 1921:

« All that part of speech which falls out of the rigid articulatory framework of language is not

speech in idea, but is merely a superadded, more or less instinctively determined vocal

complication inseparable from speech in practice. All the individual color of speech — personal

emphasis, speed, personal cadence, personal pitch — is a non-linguistic fact, juts as the incidental

expression of desire and emotion are, for the most part, alien to linguistic expression. » (Sapir

1921: p. 47 ; cité dans Crystal 1969 : p. 45)

Les paramètres prosodiques consensuels (« speed » et « personal pitch » notamment)

sont, ont le voit, explicitement présentés comme hors du champs de la linguistique et mis en

relation, la chose est répandue, avec la dimension émotive. Les travaux ultérieurs de Sapir, et

notamment Sapir 1927, abordent les paramètres prosodiques de manière moins « brutale »,

notamment en reconnaissant des configurations linguistiques telles que l’« attitude

interrogative » (cf. Crystal 1969 : p. 45).

Une seconde position, mois radicale, consiste à penser la prosodie dans le cadre utilisé

pour l’étude des phonèmes : cette comparaison, si elle aboutit elle aussi généralement à un

rejet partiel hors des limites de la linguistique, a néanmoins l’avantage de donner à la prosodie

la qualité d’aspirant légitime, contrairement à ce que nous avons vu avec Sapir 1921.

Bloomfield 1933 est selon Crystal 1969 (p. 45) le premier à avoir entrepris ce type de

démarche ; l’auteur propose plus particulièrement de considérer l’intonation et l’accentuation

comme des phonèmes secondaires (étant donnée leur variabilité formelle) au statut imprécis :

« We use features of pitch very largely in the manner of gestures, as when we talk harshly,

sneeringly, petulantly, caressingly, cheerfully, and so on. In English […] pitch is the acoustic

feature where gesture-like variations, non-distinctive but socially effective, border most closely

upon genuine linguistic distinctions. » (Bloomfield 1933 : p. 114 ; cité dans Crystal 1969 : p. 46)

Le qualificatif « effective » est présenté comme particulièrement problématique par

Crystal 1969 (p. 46) ; néanmoins, ce concept d’efficacité, au sein de la dimension sociale elle

aussi mentionnée, nous semble compatible avec la vision de la pragmatique proposée par

Morris 1938 : l’accent n’est pas ici mis sur le système abstrait de la langue, mais plutôt sur

son utilisation concrète dans un contexte social déterminé. Une position similaire est présente

dans Pike 1945 qui propose de concevoir ces paramètres comme « socially significant

gradations […] which affect the meaning of utterances but are not organised into a rigidly

limited set of contrastive units » (Pike 1945 : p. 99). L’intonation, plus particulièrement, voit


193

son espace de déploiement catégorisé en quatre niveaux discrets, mais reste néanmoins perçue

comme secondaire, sens temporaire superposé au sens lexical intrinsèque d’une unité.

L’approche de Martinet (cf. Martinet 1960/1964, 1962), dans le cadre de la Théorie de

la Double Articulation, oppose les éléments prosodiques aux phonèmes, éléments discrets de

la phonématique :

« On classe dans la prosodie tous les faits de parole qui n’entrent pas dans le cadre de la

phonématique, c'est-à-dire ceux qui échappent, d’une façon ou d’une autre, à la deuxième

articulation. » (Martinet 1960 : p. 83)

Les tons sont considérés par l’auteur comme des éléments discrets comparables aux

phonèmes, ce qui justifie leur statut linguistique univoque. L’intonation, a contrario, étant

donné son caractère « automatique » dans la parole et sa résistance à la discrétisation est

pourvue d’un statut plus ambigu, comparable à celui proposé par Pike 1945 :

« On ne saurait donc dénier toute valeur linguistique à l’intonation. […] Les variations de la

courbe d’intonation exercent, en fait, des fonctions mal différenciées, fonction directement

significative comme dans il pleut ?, mais, le plus souvent, fonction du type de celle que nous avons

appelée expressive. » (ibid. : p. 84)

On retiendra finalement que l’intonation est définie de manière négative, par rapport

aux tons et à l’accentuation :

« On aura intérêt à réserver le terme d’intonation à ce qui reste de la courbe mélodique une fois

qu’on a fait abstraction des tons et des faits accentuels. » (ibid. : p. 84)

Nous terminerons cette ébauche d’évocation en constatant la similitude de statut de la

pragmatique et de la prosodie par rapport à la linguistique : toutes deux semblent constituer un

rebus imprécis destiné à accueillir les phénomènes exclus du cadre de la linguistique. On

notera aussi en définitive la tendance commune à définir ces deux champs d’étude de manière

négative, par opposition à des domaines constitués (sémantique et phonologie,

respectivement) dans le cadre desquels il n’entrent pas.

1.1.2 … et paix

La situation a bien évolué depuis cette époque, et ce en raison de mouvements

réciproques de rapprochement de la linguistique d’une part et de la pragmatique et la prosodie

d’autre part. Une fois encore, notre compte-rendu sera nécessairement partiel et sélectif, mais

nous citerons tout de même un ensemble d’éléments qui semblent favoriser cette proposition.


194

La pragmatique a été (et est encore dans une certaine mesure) caractérisée par une

tendance fortement expansive, liée aux influences nombreuses qui ont présidé à son

développement88. Ce champ de recherche a cependant connu, principalement à l’initiative de

philosophes du langage tels que Searle (1969), Bar-Hillel (cf. 1971) ou encore Grice (1975),

un recentrage linguistique qui motive l’appellation actuelle de « pragmatique linguistique »

(on pensera par exemple aux nombreuses études pragmatiques de formes linguistiques telles

que les connecteurs). Ce recentrage s’est accompagné d’une « mise en conformité »

conceptuelle et méthodologique : à titre d’exemple, on notera que la pragmatique s’est dotée

d’unités dont l’identification repose sur celle d’unités (pseudo-)linguistiques (les actes de

paroles, dépendants, selon Searle 1969, de l’unité linguistique « phrase ») ; on soulignera avec

Levinson 1980 l’importance de la grammaticalisation des faits pragmatiques ; on pensera à

l’adoption de méta-règles (cf. Charolles 1978), comparables aux règles linguistiques ; etc.

De manière symétrique à cette « linguistisation » de la pragmatique, on notera une

propension à la « pragmatisation » de la linguistique, et notamment de la sémantique (cf. les

travaux de G. Kleiber dans le domaine de la « pragma-sémantique » ; cf. aussi Tyvaert 1994

pour un exemple concernant l’implication). On pensera dans ce cadre à l’adoption forcenée

par la sémantique générative de l’hypothèse performative (cf. Lakoff 1989 pour un compte-

rendu) ; on n’oubliera pas de noter aussi, dans ce cadre, la mention notoire de la « compétence

pragmatique » (cf. Chomsky 1978) dont nous avons déjà parlé au chapitre 3.

La prosodie, elle aussi, bénéficie à l’heure actuelle d’un statut fort différent de celui

évoqué plus haut. Un tel changement en une trentaine d’années, correspond, selon Di Cristo à

paraître, au passage d’une phase de négligence de la prosodie, véritable « Cendrillon de la

linguistique », à une phase montrant les signes d’une « véritable épidémie de prosodimania ».

Un tel bouleversement résulte, de manière similaire à ce que nous venons de mentionner pour

la pragmatique, d’un double rapprochement. La linguistique a ainsi notamment reconnu le

rôle fondamental de la prosodie dans l’acquisition (cf. Konopczynski 1991), la perception et

la compréhension (cf. Cutler et al. 1997 pour un compte-rendu) du langage ainsi que sa

résistance dans le cadre de l’aphasie (cf. Caplan 1987).

Force est de reconnaître, cependant, que la prosodie a en quelque sorte suivi une

évolution significative, tant méthodologique que conceptuelle, afin de se conformer aux

88 Cf. par exemple les liens historiques avec la philosophie du langage, et ceux soulignés par van Dijk 1978 avec

la psychologie cognitive, la sociologie, l’anthropologie, etc. (cf. Verschueren 1995 pour un bilan).


195

attentes de la linguistique. Cette évolution a notamment été corrélée à de nombreux

développements technologiques (électronique, informatique) et scientifiques (traitement du

signal) qui ont permis l’objectivisation des paramètres prosodiques ; plus important encore, la

discrétisation de l’intonation a constitué un élément clé dans l’intégration de la prosodie au

sein de la linguistique : la prosodie pouvait dès lors se targuer d’une démarche objective et

phonologique en lieu et place de ses caractérisations impressionnistes et graduelles passées. Il

est aussi important de noter que l’ancrage de la prosodie dans le champ linguistique devait

nécessairement s’accompagner de l’adoption d’unités appartenant à la linguistique : un

précédent existait avec les tons lexicaux distinctifs (cf. Martinet 1960), et il était alors naturel

que la structure prosodique soit étudiée en relation avec la syntaxe, ce qui a constitué la

majeure partie des études prosodiques pendant une longue période (cf. par exemple Rossi

1999 (p. 7) pour qui l’intonation est un système destiné notamment à « linéariser la hiérarchie

des structures syntaxiques »).

1.1.3 Développements récents et perspectives

Comme nous venons de l’évoquer rapidement, il semble que la linguistique, après une

phase de réticence, ait finalement intégré partiellement la prosodie et adopté en partie la

pragmatique ; réciproquement, on aura remarqué que ceci a pu se dérouler notamment dans le

cadre de l’adoption de méthodes et de concepts linguistiques par la prosodie et la

pragmatique.

Mais il est intéressant de noter que, dans le cadre de la pragmatisation de la linguistique,

la prosodie tend à s’affranchir des limites strictes de la linguistique phrastique pour

s’intéresser au discours ; on notera que cet élargissement du champs prosodique au sein de la

linguistique s’est fait de manière similaire au cheminement suivi par l’analyse du discours,

notamment par l’intermédiaire de la structure informationnelle qui, comme nous l’avons

suggéré chapitre 3, a constitué une véritable charnière conceptuelle.

La multiplication des publications et des conférences liant aspects pragmatico-discursifs

et aspects prosodiques confirme ce relatif affranchissement de la prosodie des limites

traditionnelles de la linguistique. Les recherches que nous avons effectuées au sein des

groupes ProDiGE (Prosodie, Discours et Grammaire Ecologique) et EPGA (English Prosody

Group of Aix) du Laboratoire Parole et Langage affirment l’importance de cette émancipation

de la prosodie et nous permettent de postuler (dans un cadre plus radical) avec Di Cristo à


196

paraître (p. 22) que « l’étude des fonctions signifiantes de la prosodie ne peut être menée à

bien que dans le cadre de l’analyse du discours, de la conversation ».

Une telle position induit un changement de perspective concernant l’intégration de la

prosodie au sein de la linguistique ; ainsi, si cette intégration a tout d’abord impliqué

l’adaptation de la prosodie au cadre linguistique traditionnel (unités de type phrastiques,

nécessité du caractère discret des unités, mise en correspondance avec une signification

strictement linguistique, etc.), il semble aujourd’hui, sous les pressions conjuguées de la

pragmatique et de la prosodie, que le cadre linguistique lui-même ait évolué : le type de

signification avec laquelle la prosodie entre en correspondance dépasse le cadre étroit d’une

sémantique traditionnelle et intègre de nombreux aspects jadis marqués au fer

paralinguistique89. Nous vivons sans doute depuis une trentaine d’années une phase cruciale

du développement de la linguistique, depuis la linguistique de la langue à une linguistique

intégrant la parole ; la prosodie, dans cette affaire, aura joué et va continuer à jouer, un rôle

déterminant.

1.2 Suprasegmental, intonation : point terminologique

Le rapide tour d’horizon que nous venons d’effectuer concernant les relations prosodie-

linguistique suggère que la prise en compte de paramètres communément présentés comme

prosodiques n’est pas récente90. Une telle lignée d’études s’est bien évidemment

accompagnée d’une impressionnante florescence terminologique. Notre objectif n’est

évidemment pas de nous livrer ici à l’exégèse de tous les termes associés à la prosodie ; nous

consacrerons plus particulièrement cette rubrique à un point terminologique opposant les

termes souvent concurrents « suprasegmental » , « intonation » et « prosodie »91.

89 On pensera dans ce cadre à la proposition visionnaire de Crystal 1969 (p. 190) qui postulait un relâchement de

la contrainte liée au caractère nécessairement discret des unités linguistiques. 90 Hirst 1987 (p. 171) fait par exemple remonter à Steele 1779/1965 (seconde édition enrichie de Steele 1975) la

tradition de l’intonation anglaise. 91 Le lecteur pourra trouver une telle présentation détaillée dans Crystal 1969, et plus récemment Rossi 1999.


197

1.2.1 Suprasegmental

La genèse du terme « suprasegmental » est indissociable du structuralisme américain.

En effet, Hocket 1942 oppose le suprasegmental au segmental de la manière suivante :

« features which clearly follow each other in the stream of speech are segmental. Those which

clearly extend over a series of several segmental groupings are suprasegmentals. » (Hocket 1942 ;

cité dans Crystal 1969 : p. 49)

Une telle conception englobe d’autres phénomènes pouvant s’appliquer à des groupes

de segments, comme par exemple le voisement, la vélarité, l’harmonie vocalique, etc. (cf.

Firth 1948, Crystal 1969, Lehiste 1970). En ce sens, les paramètres que nous appellerons

« prosodiques » font partie de cet ensemble suprasegmental plus grand.

Le terme « suprasegmental », cependant est, comme le souligne Rossi 1999 (pp. 19ff),

éminemment ambigu. Nous n’entrerons pas ici dans le détail de la problématique, mais

mentionnerons tout de même deux des sources principales d’ambiguïté identifiées par

l’auteur92 :

• au sein même du structuralisme américain, des positions telles que celle de Pike 1945

sont difficilement compatibles avec la définition que nous venons de rappeler ; en

effet, Pike 1945 considère que les contours intonatifs sont constitués de « phonèmes

de hauteur (ou « pitch phonemes ») coextensifs à la voyelle et définis en termes de

niveaux intonatifs » (Rossi 1999 : p. 22) ;

• une seconde conception du terme « suprasegmental » est à trouver chez I. Lehiste (cf.

Lehiste 1970) ; celle-ci se place en effet sur le plan perceptif (avec des concepts tels

que « pitch », « stress » et « quantity ») et considère que la caractéristique définitoire

des phénomènes suprasegmentaux est de ne pas pouvoir être identifiés par opposition

paradigmatique, mais uniquement par contraste syntagmatique, c'est-à-dire en relation

avec les autres éléments de même nature dans le cotexte93.

92 Rossi 1999 identifie en fait trois sources principales d’ambiguïté concernant la terme « suprasegmental » ;

nous avons cependant choisi de ne pas inclure ici la mention faite aux travaux d’André Martinet car celui-ci

faisait préférentiellement usage du terme « prosodique » et non pas « suprasegmental » pour caractériser les

phénomènes n’entrant pas dans le cadre de la Double Articulation. 93 C’est principalement cette notion de relativité que retient Ladd 1996 (p. 9) concernant l’accentuation.


198

1.2.2 Intonation et prosodie

Les termes « intonation » et « prosodie » ont été et continuent à être utilisés de manière

souvent interchangeable ; nous allons nous fonder sur Hirst & Di Cristo 1998 dans l’objectif

de préciser l’extension attribuée à chacun de ces termes par les auteurs.

Cette confusion est, selon les auteurs, liée à la double ambiguïté liée à l’usage du terme

« intonation ». La première source d’ambiguïté est liée à l’empan du domaine d’application

du terme :

• conçue de manière large, l’intonation englobe tous les phénomènes liés aux variations

des paramètres tels que la fréquence fondamentale, l’intensité, la durée ou les

caractéristiques spectrales, que ces derniers soient spécifiques au niveau lexical (sous

la forme de ton, d’accent lexical ou de quantité) ou plus généraux ;

• conçue de manière plus restrictive, l’intonation ne concerne que les paramètres que

nous venons de mentionner au sein d’un domaine d’application non lexical ; on

mentionnera alors l’« intonation au sens strict » (« intonation proper »).

Le type d’opposition utilisé ici peut être représenté à l’aide de la figure 16 ci-après

empruntée à Hirst & Di Cristo 1998 :

Figure 16 : Distinction entre prosodie et intonation en fonction du domaine d’application

(Hirst & Di Cristo 1998 : p. 4).

La seconde source d’ambiguïté réside selon les auteurs dans les usages divers observés

dans le cadre de la distinction entre niveau formel abstrait et niveau physique concret. Ainsi,

certains auteurs privilégient une association du terme « intonation » avec la variation d’un

unique paramètre physique (la fréquence fondamentale, considérée comme paramètre le plus

important) alors que d’autres (cf. par exemple Rossi 1981 et 1999, Beckman 1986, von

Heusinger 1999) incluent les variations d’intensité et de durée segmentale dans leur concept


199

formel d’intonation. Dans ce cadre, Hirst & Di Cristo 1998 propose cette seconde acception

comme premier aspect de leur conception de la notion d’« intonation ». La figure 17 ci-

dessous (Hirst & Di Cristo 1998 : p. 5) résume cette position :


avec prise en compte des paramètres physiques (Hirst & Di Cristo 1998 : p. 5).

La prosodie est ici le concept englobant.

Les auteurs proposent cependant un deuxième aspect relatif à leur notion

d’ « intonation » :

« We also propose to use the term intonation with a second meaning, to refer to a specifically

phonetic characteristic of utterances, a construction by which the prosodic primitives on the lexical

level and the non-lexical level, however we choose to represent these formally, are related to

acoustic prosodic parameters. » (Hirst & Di Cristo 1998 : p. 7)

L’intonation, en ce sens, constitue une interface entre les composantes phonologiques

(lexicale et non-lexicale) de la prosodie et sa composante physico-acoustique (paramètres

prosodiques physiques). Dans cette perspective, on peut concevoir l’intonation comme la

partie prosodique de la phonétique. Cette proposition est représentée par la figure 19 ci-après :


200

Figure 18 : Représentation conjuguée des deux aspects de l’intonation selon

(Hirst & Di Cristo 1998 : p. 7).

Cette approche, si elle a l’avantage de proposer une distinction entre les niveaux

d’analyse prenant à la fois en compte les aspects pluri-paramétriques de la prosodie et la

spécificité lexicale de son niveau phonologique, contribue selon nous à perpétuer la

complexité terminologique présentée comme problématique.

1.3 Synthèse

Cette première section nous a permis de préciser les circonstances de l’intégration de la

prosodie dans une linguistique progressivement pragmatisée ; cette révision dynamique du

champs de la linguistique explique selon nous les développements présents des études

prosodiques et nous permet d’envisager leurs évolutions futures sous l’angle d’une

redéfinition des critères de « linguisticité ». Le gradient linguistique proposé par Crystal 1969,

ainsi que les propositions de Di Cristo à paraître concernant une catégorisation tripartite des

contrastes linguistiques (discrets, scalaires et graduels) semblent constituer respectivement

une prémonition précoce et une concrétisation de ces tendances dynamiques.

Cette section liminaire a aussi été pour nous le lieu d’un rapide point terminologique qui

nous a permis de poser les bases de notre choix du terme « prosodie » dans le cadre général de

l’étude de la production et de l’interprétation linguistique élargie des paramètres physiques de

la parole que sont la fréquence fondamentale, l’intensité, la durée et les caractéristiques

spectrales.


201

Le cadre est à présent posé pour que nous tentions, dans la section suivante, la

formulation progressive de la conception de la prosodie que nous adopterons dans la suite de

ce travail de thèse.

2 Le macro-système prosodique

Nous allons proposer une explicitation de la conception de la prosodie qui va servir de

cadre non seulement à l’étude des relations prosodie – discours (chapitre 6), mais aussi à la

partie expérimentale de ce travail de thèse (chapitres 7 et 8). Notre démarche va se

décomposer en quatre phases, dans l’objectif de permettre la mise en relation de formes et de

fonctions prosodiques au sein du cadre d’analyse que nous aurons explicité. L’ensemble de

nos propositions sera majoritairement fondé sur les propositions de l’Ecole Aixoise, telle

qu’elle est représentée par les travaux d’Albert Di Cristo et Daniel Hirst.

Dans un premier temps, nous préciserons ainsi les niveaux de représentation permettant

l’interfaçage de la substance et des fonctions prosodiques, explicitant par là même les

positions relatives de l’acoustique, de la phonétique et de la phonologie prosodiques.

La seconde rubrique de cette section sera centrée sur les aspects formels de la prosodie

et leur organisation ; nous adopterons dans ce cadre une démarche résolument ascendante et

progressivement structurée, destinée à expliciter la conception que nous adoptons concernant

notre objet d’étude. Nous insisterons notamment sur les aspects multiparamétrique et

multidimensionnel de la prosodie.

La troisième rubrique nous donnera l’opportunité de préciser la place que nous

souhaitons accorder aux paramètres spectraux : ainsi, après avoir précisé le statut

généralement para-linguistique accordé à ces paramètres, nous proposerons certains

arguments en faveur de leur intégration au sein du système de la prosodie linguistique.

La quatrième et dernière rubrique proposera une rapide évocation de la position qui

nous semble correspondre à l’« ordre métrique » proposé par A. Di Cristo ; nous ferons

notamment l’hypothèse d’une hiérarchisation des ordres structurels, plaçant ainsi l’ordre

métrique à l’interface des niveaux prosodiques phonologiques et des fonctions cognitives de

haut niveau.


202

2.1 Niveaux de représentation94

La reconnaissance d’une distinction minimale entre deux niveaux d’analyse (l’un

formel, l’autre fonctionnel) semble être une conception consensuelle non seulement en

linguistique en général mais aussi concernant la prosodie (cf. ‘t Hart & Collier 1975) ; pour la

prosodie, nous pourrons dès lors postuler que le niveau formel trouve son expression typique

dans l’acoustique du signal, alors que le niveau fonctionnel, que nous détaillerons plus loin,

doit s’apparenter à la signification prosodique. On pourra envisager deux modalités de mise

en relation de ces deux niveaux : une modalité directe et une modalité indirecte, médiatisée

par au moins un niveau intermédiaire. Nous allons analysé un exemple de chacune de ces

modalités après avoir effectué un rapide point terminologique concernant le choix du terme

« représentation ».

2.1.1 Niveaux de représentation et niveaux d’analyse

Le problème de la distinction terminologique entre niveau de représentation et niveau

d’analyse est soulevé par Hirst et al. 2000. Les auteurs opposent :

• d’une part les représentations cognitives, internes aux locuteurs et dont la nature reste

l’objet d’hypothèses diverses ;

• d’autre part, les représentations analytiques, physiques, liées aux choix opérés par le

chercheur, et correspondant ainsi à des « niveaux d’analyse ».

Le statut des représentations intermédiaires (entre le niveau purement physique et le

niveau purement cognitif) constitue selon les auteurs une question empirique, ce qui justifie

leur préférence pour une utilisation générique du terme « représentation » et par extension

« niveaux de représentation » à « niveau d’analyse ».

On retrouve ce thème dans l’approche épistémologique de la linguistique développée,

dans le cadre de sa Théorie des Opérations Enonciatives, par A. Culioli (cf. Culioli 1990 : pp.

21ff). Selon l’auteur, en effet, la démarche linguistique suppose trois niveaux de

représentation. Le niveau 1 est le niveau des représentations mentales des énonciateurs (et

donc inaccessibles au linguiste). Le niveau 2 est dédié aux représentations linguistiques,

traces de l’activité de représentation du niveau 1 ; Culioli 1990 (p. 22) formule de manière

explicite le caractère plurivoque des relations qu’un « marqueur » du niveau 2 entretient avec

94 Notre analyse de la thématique de la structuration des représentations entre substance et fonctions prosodiques

est fondée sur Hirst et al. 2000 dont elle reprend l’organisation d’ensemble et nombre de propositions.


203

une ou plusieurs valeurs du niveau 1 (et réciproquement). Le niveau 3, finalement, est celui

des représentations méta-linguistiques, construites par le chercheur, et dont l’objectif est de

représenter les éléments du niveau 2.

Mettons ces deux approches en parallèle :

• le niveau 1 de Culioli 1990 correspond aux représentations cognitives proposées par

Hirst et al. 2000 ;

• le niveau 3, si l’on utilise les critères de nature physique et de choix opérés par le

chercheur, est sans conteste une représentation analytique ;

• le statut du niveau 2, en revanche, si l’on a recours aux mêmes critères, est plus

complexe : linguistique, ce niveau est physique mais ne résulte pas de choix

conscients et explicites du chercheur mais de ceux, peut-être moins conscients et

explicites de l’énonciateur.

Nous noterons cependant que Culioli 1990 propose de construire le niveau 3 afin que

celui-ci soit

« dans une relation d’adéquation (de correspondance) au niveau 2, telle que, par le biais de cette

relation explicite entre 2 et 3, nous puissions simuler la correspondance entre 1 et 2. » (Culioli

1990 : p. 23)

Ainsi, si l’on prend en compte d’une part la nature analytique du niveau 3 (qui

représente le niveau 2) et d’autre part la proportionnalité du rapport niveau 3 – niveau 2 par

rapport au rapport niveau 2 - niveau 1, il nous semble envisageable de considérer le niveau 2

(linguistique) comme analytique.

Ceci nous pousserait à considérer tout niveau de représentation externe aux énonciateurs

(c'est-à-dire accessible au linguiste) comme analytique. Le niveau des représentations

mentales, interne aux énonciateurs, serait alors le seul niveau cognitif. Une telle conception

est compatible avec la conception des plans communicationnel et méta-communicationnel que

nous évoquions en fin de chapitre 4 : ainsi, si les interactants ont la possibilité de prendre du

recul par rapport au niveau communicationnel c’est peut-être en raison de la nature

fondamentalement identique (modulo une différence des degrés de conscience impliqués) de

la démarche de communication et de la démarche de méta-communication (dont une partie

spécialisée constitue la linguistique).


204

Cette réflexion, une fois encore, mériterait d’être approfondie, mais nous remarquerons

pour terminer qu’elle est néanmoins compatible avec le choix du terme générique

« représentation » proposé par Hirst et al. 2000 ; c’est donc en conséquence ce terme que nous

adopterons pour le reste de ce travail.

2.1.2 Modalité directe

Une première manière d’envisager les relations entre niveau formel (acoustico-

phonétique) et niveau fonctionnel (signification prosodique) consiste à proposer une relation

directe. Cette position est défendue par exemple par M.-A. Morel & L. Danon-Boileau dans le

cadre de leur modèle énonciatif de l’intonation (cf. Morel & Danon-Boileau 1998 et Morel

2000)95.

Cette approche, du fait même de l’absence de médiation entre forme brute et fonction,

repose sur une interprétation iconique de configuration globales concernant des paramètres

prosodiques tels que la fréquence fondamentale, l’intensité, la durée et les pauses :

« Nous postulons que chaque indice (hauteur, intensité, durée, pause-silence) a une valeur iconique

de base, puis une valeur conventionnelle. Le poids de la valeur iconique est considérable en raison

du fait que l’intonation, contrairement aux autres phénomènes de la langue, est de l’ordre du

continu et du non segmenté. Or, selon nous, la conventionalité du langage découle de la

segmentation qui bloque la mise en jeu analogique du sens. La valeur conventionnelle des indices

de l’intonation existe cependant, mais elle ne se cristallise que lorsque plusieurs indices se

conjuguent régulièrement. C’est dans ces cas-là que l’on voit se dessiner clairement les valeurs

correspondant aux fonctions précédemment évoquées (séquenciation, expressivité, etc.). » (Morel

& Danon-Boileau 1998 : pp. 11-12 ; cité dans Simon 2004 : p. 26)

Le domaine de la fréquence fondamentale est divisé en quatre niveaux (de 1 à 4), eux-

mêmes regroupés en deux plages : la plage basse (de 1 à 2,5) et la plage haute (de 2,5 à 4).

Dans ce cadre, les variations reflètent la « coénonciation », « façon dont celui qui parle

envisage la réception de son discours par celui auquel il s’adresse. » (Morel 2000 : p. 61). Des

variations au sein de la plage basse constituent une rupture de coénonciation, un signe

iconique de repli sur soi, impliquant l’absence totale d’anticipation de la pensée du

coénonciateur ; un tel phénomène se produit selon les auteurs lorsque l’énonciateur est surpris

(il est accaparé sur son discours) ou bien lorsqu’il « développe la croyance que l’autre n’a pas

accès à ce qu’il dit, qu’il est le seul à pouvoir l’asserter. » (Simon 2004 : p. 28 à propos de

Morel 2000 : p. 63). On dira alors qu’il y a « égocentrage en plage basse ». A l’inverse, des

95 Nous appuierons principalement dans cette rubrique sur le compte-rendu fourni par Simon 2004 (pp. 26-30).


205

variations situées en plage haute constituent un positionnement à l’intérieur de la

coénonciation, impliquant une prise en compte et une anticipation de la pensée du

coénonciateur, un appel à l’autre ; sur un mode consensuel, ce positionnement représente

l’entérinement ou la recherche d’un accord avec le coénonciateur, alors que sur un mode

discordant, on aura alors affaire à un « égocentrage en plage haute », lié à la défense d’une

position jugée non compatible à celle supposée présente chez le coénonciateur.

L’intensité est liée à la « colocution », la gestion du droit à la parole dans l’interaction.

On a alors deux possibilités principales :

« Si [le locuteur] veut prendre la parole, l’intensité monte, s’il la conserve elle se stabilise, s’il

l’abandonne ou s’il considère ce qu’il dit comme un à-côté de son discours, elle chute. » (Morel &

Danon-Boileau 1998 : p. 14 ; cité dans Simon 2004 : p. 27)

Le paramètre de durée syllabique est lié à la « formulation », « l’état de mise en mots »

(Simon 2004 : p. 28). Morel 2000 (p. 65) défend plus particulièrement la thèse très contestée

de l’isochronie syllabique pour le fançais : dans ce contexte, le maintient de l’isochronie est

un signe iconique de formulation normale alors qu’un allongement de la durée syllabique

signifie la difficulté éprouvée par l’énonciateur pour poursuivre sa mise en mots (hésitation) ;

a l’inverse, on observera une accélération du débit, liée à une diminution de la durée

syllabique, dans le cas des incises (ou « parenthétiques »).

La pause, finalement, considérée comme une charnière, un « tournant au sein d’un cadre

déjà constitué » (Morel & Danon-Boileau 1998 : p. 14 ; cité dans Simon 2004 : p. 28).

Comme nous l’avons vu précédemment, le caractère conventionnel des significations

prosodiques est obtenu, selon les auteurs, lorsque plusieurs paramètres sont associés. A titre

d’exemple nous retiendrons qu’une chute conjuguée de la fréquence fondamentale et de

l’intensité signifie une rupture volontaire avec la thématique préalablement développée

(Simon 2004 (p. 29) à propos de Morel & Danon-Boileau 1998 : p. 17). Morel & Danon-

Boileau 1998 fournit ainsi (p. 20) un tableau précisant les valeurs associées aux couplages

divers des paramètres prosodiques analysés.

Si nous reconnaissons avec Simon 2004 (p. 30) que le modèle de Morel & Danon-

Boileau 1998 constitue une tentative de prise en compte conjuguée des aspects iconiques et

conventionnels de la prosodie. Cette tentative se fait malheureusement selon nous au

détriment d’une rigueur élémentaire concernant la démarche tant énonciative que strictement

prosodique.


206

En effet, l’approche de Morel & Danon-Boileau 1998 se veut fondée sur la théorie

culiolienne dont nous avons fait mention ci-avant en 2.1.1. Cette hérédité apparente est liée

notamment à un grand nombre d’emprunts terminologiques (intérieur, extérieur,

coénonciation, etc.). Certains principes fondamentaux, en revanche, semblent ne pas avoir été

pris en considération, comme par exemple la nature des relations unissant les niveaux 2 et 3 ;

Culioli (1990 : p. 23 puis pp. 28-30) explicite en effet qu’« il n’y a pas [entre les niveaux de

représentation] de relation d’univocité : si la relation était univoque, il n’y aurait qu’à

remonter de niveau en niveau. » (ibid. : p. 23). La démarche de Morel & Danon-Boileau 1998

implique cependant une relation biunivoque entre configurations de paramètres prosodiques

(niveau 2) et phénomènes énonciatifs (niveau 3) ; la construction du niveau 3, de plus, comme

l’explicite Simon 2004 (p. 29), ne repose sur aucune démarche d’explicitation, ce qui est aussi

contraire à la vision culiolienne.

La démarche prosodique est elle aussi problématique : nous retiendrons principalement

des problèmes spécifiques à l’approche de la fréquence fondamentale, d’autres spécifiques à

celle de la durée, et finalement un problème majeur relatif à la démarche dans son ensemble.

Le domaine fréquentiel est ainsi découpé en deux plages définies par rapport aux extrema

atteints par un énonciateur lors d’une interaction ; nous noterons tout d’abord qu’une telle

position est, dans le meilleur des cas, arbitraire et injustifiée ; dans le pire des cas, elle est en

fait directement dérivée des présupposés théoriques de bipolarisation de l’énonciation. On

notera enfin avec Simon 2004 (pp. 29-30) que ce traitement de la fréquence fondamentale ne

tient compte ni des variations de niveau et d’étendue de registre, ni des contraintes

physiologiques liées au phénomène de déclinaison96.

Le traitement de la durée est fondé sur le principe d’isochronie syllabique, classant par

là même de manière univoque le français dans la catégorie des langues à rythme syllabique ; il

est pourtant important de noter avec Pike 1945 (cf. aussi Di Cristo 1999, Lacheret-Dujour &

Beaugendre 1999 et Simon 2004) que la distinction « stress-timed » / « syllable-timed » peut

être conçue comme servant à différencier des structures rythmiques pouvant coexister au sein

d’une même langue. L’approche de Morel & Danon-Boileau 1998, finalement, semble ne pas

tenir compte de l’importance du débit dans la perception des durées syllabiques.

D’un point de vue prosodique général, en conclusion, on notera ainsi d’une part

l’absence de prise en compte de ce que Ladd 1996 appelle les « dimensions orthogonales » de

96 Nous expliciterons ces concepts dans la suite de ce travail.


207

la prosodie (étendue et niveau du registre, débit) et, d’autre part, l’absence de distinction entre

substance et forme prosodique : la mise en relation ne se fait ainsi pas en réalité entre un

niveau formel et un niveau fonctionnel, mais entre le niveau de la substance prosodique et

celui de son interprétation énonciative. Il semble cependant crucial de prendre en

considération non seulement les nombreuses interactions entre paramètres prosodiques mais

aussi entre paramètres prosodiques et paramètres segmentaux : on pensera par exemple aux

effets des consonnes non-voisées sur la fréquence fondamentale (phénomène de « pitch

skip » ; cf. par exemple Di Cristo & Hirst 1986), ou encore aux modifications de la durée

vocalique en fonction de la structure syllabique (cf. Di Cristo 1978).

Ce type de problème, traité de manière plus détaillée plus loin, nous pousse en

conséquence à rejeter le type d’approche représenté par Morel & Danon-Boileau 1998 au

profit d’une modalité indirecte de mise en relation des niveaux formel et fonctionnel vers

laquelle nous nous tournons à présent.

2.1.3 Modalité indirecte

L’architecture des systèmes de représentations proposée par Hirst et al. 2000 consiste à

postuler une médiatisation entre niveau formel (physique) et niveau fonctionnel (au sein du

niveau phonologique profond) via deux niveaux intermédiaires :

« Between the underlying phonological representation and the physical representation we wish

then to postulate two distinct levels: the level of surface phonology and the level of phonetics. The

level of surface phonology is a level of distinctive discrete categories with which we can describe

surface phenomena cross-linguistically. The level of phonetics is the level of continuously variable

phenomena from which we have factored out universal constraints on the production and

perception of sounds. » (Hirst et al. 2000 : p. 54)

Nous remarquerons que cette proposition revient en fait à proposer trois niveaux

intermédiaires entre forme (acoustique) et fonction (signification prosodique) ; ces trois

niveaux sont liés aux représentations phonétique, phonologique de surface et phonologique

profonde.

Cette proposition peut être représentée à l’aide de la figure 19 ci-après :


208

Figure 19 : Schéma des niveaux de représentations de la prosodie

selon Hirst et al. 2000 : p. 55).

Ce modèle est étroitement lié à une conception de la distinction entre phonologie et

phonétique directement empruntée à Troubetzkoy 1939 : la phonologie est ainsi concernée par

des phénomènes discrets, et la phonétique par des phénomènes continus.

Le niveau physique (représenté ici par « utterance ») constitue l’extrémité formelle de

cette structure de niveaux ; concernant la prosodie, ce niveau est lié aux paramètres physiques

continus tels que la fréquence fondamentale et l’intensité en relation avec le temps.

Le niveau de représentation phonétique est lui aussi continu mais prend en compte les

contraintes universelles de production et de perception : cette représentation vise à dépasser la

simple substance acoustique et à rendre compte de la forme prosodique telle qu’elle est perçue

par les interactants ; on pensera par exemple dans ce contexte à la normalisation de la durée

d’un noyau syllabique opérée par les sujets en fonction de la structure syllabique (cf. les effets

intrinsèques et co-intrinsèques proposés par Di Cristo 1978) ; ou encore de manière plus

évidente, à la perception continue de la mélodie, opposée à la discontinuité de la courbe de

fréquence fondamentale97.

Le niveau de représentation phonologique de surface est composé d’unités distinctives

discrètes permettant la description inter-linguistique des éléments phonétiques. L’exemple

donné par les auteurs concerne la durée d’unités phonologiques : 97 Nous traiterons de ces aspects de manière plus détaillée dans la section suivante.


209

« Studies of the duration of phonological units of a large number of languages might well lead us

to the conclusion that only some small finite number of durational distinctions are ever distinctive

on a cross-language basis. This could then lead us to set up discrete surface phonological

categories and we should then hope to be able to predict the observed range of values from an even

more restricted number of underlying representations. » (Hirst et al. 2000 : p. 54-55)

Le niveau de représentation phonologique profond est présenté comme devant fournir

deux types d’information : d’une part les informations formelles nécessaires à la production

d’un énoncé (en relation avec le niveau phonologique de surface) et d’autre part les

informations fonctionnelles nécessaires à l’interprétation sémantique et syntaxique de cet

énoncé. Le niveau phonologique profond est donc présenté (cf. schéma 4 ci-avant) comme

une interface entre le niveau formel le plus abstrait (avec ses « paramètres prosodiques

abstraits ») et le niveau fonctionnel des significations prosodiques.

Les différents niveaux intermédiaires sont de plus caractérisés par une « Condition

d’Interprétabilité » qui stipule que ceux-ci doivent être interprétables non seulement à leur

niveau adjacent plus concret (vers le niveau physique) mais aussi à leur niveau adjacent plus

abstrait (vers le niveau phonologique profond) :

« Interpretability Condition: Representations at all intermediate levels must be interpretable at

both adjacent levels: the more abstract and the more concrete. » (Hirst et al. 2000 : p. 54)

Nous noterons pour terminer que la représentation multi-niveau proposée par Hirst et al.

2000, soulève (nécessairement) sans y répondre nombre de questions fondamentales

concernant notamment la nature et la place de la phonologie prosodique dans l’organisation

linguistique ainsi que la nature de la phonétique, processus interprétatif dynamique comme le

suggère Pierrehumbert & Beckman 1988, ou plutôt véritable niveau de représentation comme

le proposent les auteurs.

L’originalité de la démarche consiste, comme le montre l’application proposée par les

auteurs au domaine tonal, à permettre la formulation de modèles dans le cadre d’une

heuristique de type « analyse par synthèse » ; nous évoquerons plus précisément ces aspects

dans la troisième section de ce chapitre.

Nous adopterons au terme de ce rapide survol de la thématique des niveaux de

représentations le principe d’une distinction multi-niveau entre formes et fonctions

prosodiques ; la rubrique suivante va nous permettre de développer notre conception multi-

paramétrique de la prosodie (inspirée notamment des travaux d’A. Di Cristo) au sein d’un

cadre dérivé de celui de Hirst et al. 2000.


210

2.2 Multiplicité des paramètres et des dimensions prosodiques

La conception selon laquelle la prosodie (ou l’« intonation » selon les choix

terminologiques des auteurs) implique la prise en compte de plusieurs paramètres physiques

est consensuelle (cf. les exemples récents de Couper-Kuhlen & Selting 1996, Ladd 1996,

Hirst & Di Cristo 1998, Rossi 1999, Di Cristo 2000, etc.) ; couplée au fait que chaque

paramètre semble suivre des principes d’organisation qui lui seraient propre, cette conception

nous mène naturellement à postuler que la prosodie constitue en fait un macro-système ou un

système complexe. Cette conception est particulièrement explicite dans les travaux récents

d’A. Di Cristo au sein et en dehors du groupe ProDiGE. C’est donc naturellement cette

version que nous allons choisir comme point de départ afin de proposer nos propres

conceptions multi-paramétriques et multi-dimensionnelles de la prosodie ; ce cheminement

nous permettra finalement d’aboutir à la définition opératoire que nous utiliserons dans la

suite de ce travail de thèse.

2.2.1 Prosodie multi-paramétrique

Analysons la définition de la prosodie proposée par Di Cristo 2000 :

« Envisagée d’un point de vue formel, la prosodie peut être considérée comme un supra-système

intégrant trois ordres structurels interagissants : l’ordre de structuration métrique qui gouverne

l’organisation métrique des énoncés, l’ordre de structuration tonale qui gère les modulations (tons

et intonation) et l’ordre de structuration temporelle qui régit les phénomènes de quantité (pauses et

tempo). La projection concrète de ces ordres structurels est actualisée par le jeu de trois paramètres

prosodiques intrinsèques, tels que la variation de la fréquence fondamentale (F0), de l’énergie et

de la durée (pausale, segmentale, syllabique) et d’un paramètre ‘para-prosodique’, la variation du

timbre. » (Di Cristo 2000 : p. 196)

La démarche adoptée ici prend les allures d’une démarche descendante par laquelle des

« ordres structurels » sont projetés dans des paramètres physiques. Nous allons pour notre part

tout d’abord adopter une démarche ascendante (suggérée par Di Cristo à paraître), fondée sur

la substance prosodique (les paramètres physiques spécifiques) et construisant

progressivement les formes prosodiques (au niveau des phonologies de surface et profonde)

avant d’essayer de conjuguer les deux démarches dans le cadre linguistique pragmatisé que

nous avons mentionné plus haut.


211

Pour une redéfinition des paramètres prosodiques intrinsèques

Di Cristo 2000 inclut dans les paramètres prosodiques intrinsèques la fréquence

fondamentale, l’énergie et la durée. Il nous semble crucial de noter que ces paramètres ne sont

pas tous trois purement acoustiques :

« Duration is often referred to as one of the three prosodic acoustic parameters, the other two being

fundamental frequency and intensity. Unlike the other parameters, however, duration is not purely

acoustic: it is impossible for a machine to produce something like a 'duration curve' in the same

way that machines can produce intensity curves or fundamental frequency curves. In order to

measure duration we need to posit boundaries which are associated with phonological categories

such as phonemes or syllables. » (Hirst et al. 2000 : pp. 54-55)

La notion de durée, en effet, implique nécessairement la définition préalable d’une unité

non nécessairement strictement prosodique (silence, phonème, syllabe) ; ceci nous conduit

donc à réduire notre inventaire des paramètres intrinsèquement prosodiques à la fréquence

fondamentale et l’intensité. Néanmoins, ce rejet ne doit pas être interprété comme la négation

du rôle fondamental joué par la dimension temporelle dans la phonologie et la phonétique

dans son ensemble ; c’est d’ailleurs précisément de cette manière que nous proposons

d’envisager les aspects temporels de la communication verbale, en tant que dimension globale

au sein de laquelle se développent les paramètres prosodiques.

La dimension temporelle permet d’isoler trois états ordonnés correspondant à la

production, à la transmission et à la perception de la substance prosodique : parmi ces trois

états, les deux derniers s’apparentent respectivement au niveau physique et au niveau

phonétique proposés par Hirst et al. 2000.

Nous proposons de parler d’« espace fréquentiel » et d’« espace d’intensité » comme

cadres respectifs des variations de fréquence fondamentale et d’intensité ; ces deux espaces,

tout comme les éléments du système segmental, sont, comme nous venons de le dire,

caractérisés par l’existence d’une dimension temporelle commune qui permet leur

quantification temporelle, la catégorisation de leurs états et leur synchronisation avec divers

phénomènes à d’autres niveaux de l’analyse linguistique.

La discrétisation et l’odre des états permettent d’identifier les caractéristiques concrètes

représentées dans le tableau 3 ci-après :


212

Production

(physiologie)

Transmission

(acoustique)

Perception

(audition)

Espace

fréquentiel Activité musculaire

laryngale

Fréquence

fondamentale (F0) Mélodie

Espace d’intensité Pression sous-glottique Intensité Sonie

Tableau 3 : Caractéristiques concrètes des espaces prosodiques.

Ce mode d’organisation peut être représenté à l’aide de la figure 20 ci-dessous :

Figure 20 : Représentation des espaces prosodiques fréquentiel et d’intensité au sein de la

dimension temporelle commune aux domaines segmental et prosodique.

La topologie de l’espace d’intensité reste moins bien connue que celle de l’espace

fréquentiel ; ceci est notamment dû à la sensibilité de ce paramètre à divers types de

perturbations (changement d’orientation, obstacles, etc.) :

« […] intensity variation will never have communicative significance for the simple reason that

intensity is too susceptible to noise. If the speaker accidentally turns his head or passes a hand

before his mouth, intensity drops of greater magnitude than those caused by the difference between

stressed and unstressed syllables will easily occur. » (Sluitjer & van Heuven 1996 : p. 2372)

Certaines propositions alternatives à la prise en compte de l’intensité globale,

notamment par le recours à la notion de balance spectrale (ou « spectral tilt »), ont été

suggérées notamment par Sluitjer & van Heuven 1993 et 1996 ainsi que par Campbell 1995 et

Dimension temporelle Production > Transmission > Perception

Domaine prosodique

Domaine Segmental

Espace fréquentiel

Espace d’intensité

Act. L.

Press. sous-G.

F0

Intensité Sonie

Mélodie


213

Campbell & Beckman 1995 (cf. Herment-Dujardin 2001 : pp. 52-54 et 152ff pour un compte-

rendu détaillé) ; les protocoles utilisés dans ce cadre permettent de se dispenser d’une distance

micro – sujet constante, contrainte forte pour une utilisation pertinente du paramètre

d’intensité globale. Cette méthode alternative fondée sur la balance spectrale n’étant pour

l’instant pas utilisée dans nos travaux, la suite de notre analyse prendra majoritairement en

compte l’espace fréquentiel, dont la mesure est jugée plus fiable.

Notons pour terminer que la figure 20 ci-dessus ne constitue qu’une simplification du

fonctionnement physiologique de l’appareil articulatoire et de l’appareil perceptif au sein des

espaces fréquentiel et d’intensité. Nous détaillerons plus loin (cf. § 3.2) les contraintes de

production et de perception impliquées dans le fonctionnement de l’espace fréquentiel.

Le paramètre de durée

Nous avons vu précédemment que la durée, généralement présentée comme un

paramètre prosodique intrinsèque, nous semblait plutôt constituer une dimension permettant

l’organisation et la synchronisation des espaces prosodiques entre eux, avec le domaine

segmental et, au-delà, les autres domaines linguistiques.

L’ « ordre temporel » proposé par Di Cristo 2000 n’est donc pas selon nous spécifique à

la prosodie. En revanche, la projection d’une dimension temporelle dans le domaine

segmental correspond à la prise en compte syntagmatique d’unités phonologiques telles que

les segments ou les syllabes. On pourra considérer cette projection comme un point de vue

spécifiquement prosodique (cf. Lehiste 1970) sur des phénomènes plus ou moins exogènes98.

Par assimilation, nous parlerons d’ « espace de durée » comme cadre pour les variations de

durée des unités phonologiques choisies. Ainsi, si nous nous intéressons à l’état de

transmission, on pourra parler de durée acoustique des unités choisies, tout comme l’on parle

de fréquence fondamentale brute dans l’espace fréquentiel ; l’état de perception comprendra

les phénomènes de longueur, au même niveau que la mélodie ou la sonie des espaces

fréquentiel et d’intensité.

98 En effet, si l’on devait retenir le phonème et la syllabe comme unités du plan segmental, on noterait que le

phonème paraît difficilement pouvoir être considéré comme purement prosodique ; le statut de la syllabe est plus

complexe.


214

2.2.2 Prosodie multi-dimensionnelle

Approches relativistes et absolues des variations prosodiques

Jakobson, Fant & Halle 1952 propose une vision opposant les phénomènes segmentaux,

caractérisés par des traits inhérents (c'est-à-dire absolus) et les phénomènes prosodiques,

définis de manière relative :

« [any] opposition of inherent distinctive features [is] definable without any reference to the

sequence. Prosodic features, on the other hand, can be defined only with reference to a time series.

» (Jakobson, Fant & Halle 1952: p. 13 ; cité dans Ladd 1996 : p. 253)

Comme le souligne Ladd 1996, cette position est compatible avec la conception

structuraliste américaine représentée par Pike 1948 (qui insiste sur la hauteur relative d’une

syllabe par rapport à son cotexte) ou encore Lehiste 1970. Cette approche a été explicitée

notamment par Crystal 1969 qui propose par exemple (pp. 14-146) de caractériser la hauteur

d’une syllabe accentuée non tonique en fonction de la syllabe qui la précède selon six niveaux

distinctifs d’amplitude fréquentielle (« pitch-range »).

Ce type d’approche relativiste, que Ladd 1996 (pp. 252ff) baptise « initialising

approach », pose cependant plusieurs problèmes. Les langues tonales telles que le Yoruba

présentent sans doute l’un des problèmes les plus délicats concernant l’approche relativiste ;

observons les exemples (49), (50) et (51) empruntés à Ladd 1996 (p. 254) :

Ex (49) wón tún gbé túwó wá

Ils ont apporté du tuwo à nouveau.

Ex (50) omo won ni e lo fi se oko

C’est leur fils que tu épouses.

Ex (51) èwù ònà Àrà ò tàn

La couleur des habits sur le chemin d’Ara est terne.

Les exemples (49), (50) et (51) ne comportent respectivement que des tons hauts (H),

moyens (M) et bas (L) ; si les tons étaient nécessairement définis par rapport aux tons M et B,

il devrait être impossible de les identifier dans des énoncés tels que (49)99, 100.

99 Le même raisonnement s’applique bien entendu aux tons M de (50) et aux tons L de (51).


215

Une solution à ce problème consiste à adopter une approche proposant de représenter

les phénomènes prosodiques de manière plus absolue (en ayant recours à des modèles de

normalisation ou « normalising models » dans les termes de Ladd 1996). « Absolu »

s’entendra ici de manière restrictive comme « non relatif au cotexte » ; en effet, une méthode

réellement absolue, fondée par exemple sur des valeurs brutes en Hertz pour la fréquence

fondamentale interdirait toute généralisation des observations, notamment entre locuteurs de

sexe différent.

Dans l’espace fréquentiel, le type d’approche préconisé revient à coder la hauteur d’une

syllabe non plus comme relative aux syllabes qui l’entourent, mais en relation avec les

extrema fréquentiels du locuteur (nous parlerons d’ « ambitus » pour caractériser l’écart

compris entre le minimum et le maximum absolus de fréquence fondamentale atteints par un

locuteur). Earle 1975 propose ainsi d’analyser les tons du vietnamien en terme de pourcentage

de l’ambitus : 0% correspond ainsi au minimum et 100% au maximum de fréquence

fondamentale de chaque locuteur. Rose 1987 utilise quant à lui une méthode de normalisation

par transformée z101, fondée sur la distribution des valeurs de fréquence fondamentale d’un

locuteur et qui définit les valeurs de hauteur en terme de fraction d’écart type par rapport à la

moyenne.

Ce type de méthode, s’il permet une description phonétique fine entre locuteurs, postule

en revanche un référentiel défini une fois pour toute en fonction d’un locuteur donné ; on

retrouve par ailleurs une position comparable chez Crystal 1969 (pp. 143-144), qui fait

l’hypothèse d’une « constante fréquentielle » (ou « pitch constant ») liée à la réalisation de

l’« attaque » (ou « onset »), première syllabe accentuée d’une unité intonative102. Deux

phénomènes viennent pourtant perturber cette conception référentielle fixe : les variations de

« niveau et d’étendue fréquentiels » vers lesquelles nous nous tournons à présent.

100 Jakobson & Halle 1971 (p. 37) propose tout de même que, dans ce cas de figure, des « indices de

substitution » (par exemple la dynamique tonale sur le noyau vocalique) puissent compenser l’absence des unités

constrastives. 101 Nous expliciterons cette méthode statistique dans le chapitre 7 de cette thèse. 102 Crystal 1969 prend acte de la possibilité de variation concernant cette valeur d’attaque, mais considère celle-

ci comme exceptionnelle (d’une fréquence de l’ordre de 1 pour 200).


216

Niveau et étendue fréquentiels

Imaginons deux locuteurs : pour des raisons physiologiques, les extrema fréquentiels de

M, locuteur masculin à la voix grave, sont 60 Hz et 140 Hz ; la locutrice F, en revanche,

oscille entre 180 Hz et 340 Hz. Cette configuration est représentée par la figure 21 ci-

dessous :

Figure 21: Espaces fréquentiels pour le locuteur M et la locutrice F.

Ce cas de figure représente deux différences couplées :

• il y a tout d’abord une différence de « niveau fréquentiel » (« (overall) pitch level »),

identifiable par le fait que les valeurs, et notamment la valeur moyenne, de fréquence

fondamentale diffèrent selon que l’on s’intéresse à M (moyenne à 100 Hz) ou à F

(moyenne à 260 Hz) ;

• il y a aussi une différence d’« étendue fréquentielle » (« pitch span »), généralement

liée (cf. Cosmides 1983) à la différence d’ambitus respectifs de M (80 Hz) et F (160

Hz). Patterson & Ladd 1999 et Patterson 2000 démontrent cependant pour l’anglais

britannique qu’une prise en compte des valeurs des pics et des vallées fréquentiels

médians (non initiaux et non finals) sont plus fortement corrélés aux jugements

attitudinaux des sujets.

Comme le souligne à juste titre Ladd 1996 (pp. 260-261), ces deux phénomènes sont

rarement dissociés dans les analyses du fait de leur fréquente variation conjuguée : un niveau

fréquentiel bas s’accompagne généralement d’une étendue réduite alors que niveau

fréquentiel plus élevé s’accompagne en général d’une étendue plus importante (cf. Patterson

& Ladd 1999 et Portes & Di Cristo 2003 pour une confirmation expérimentale récente). Ce

phénomène justifie l’utilisation d’échelles logarithmiques (telle que les échelles en octaves ou


217

en demi-tons) dans le cadre de la modélisation de la perception : étant donnée une fréquence

de 60 Hz, l’octave supérieure (intervalle perceptif reconnaissable) sera perçue à 120 Hz,

générant une étendue de 60 Hz ; avec une fréquence de 180 Hz, l’octave sera perçue à 360

Hz, générant une étendue de 180 Hz, trois fois plus importante que dans le cas précédent.

Une question importante concerne la perceptibilité de ces phénomènes ; plusieurs études

expérimentales récentes confirment que ces dimensions sont bien perceptibles par les sujets :

Portes & Di Cristo 2003 montre ainsi une corrélation inter-juge relativement élevée pour le

français et, plus récemment encore, Carlson et al. 2004 démontre que les sujets suédois sont

capables, une fois le sexe du locuteur connu, d’identifier de manière fiable le niveau

fréquentiel dans lequel se situe un ensemble d’énoncés.

Nous terminerons cette évocation de ce que Ladd 1996 a nommé les « dimensions

orthogonales de l’intonation » par un questionnement concernant le statut linguistique ou

para-linguistique de ces phénomènes. La majorité des études montre l’association forte de

modifications de niveau et d’étendue fréquentielle avec des phénomènes d’expressivité (cf.

par exemple Couper-Kuhlen 1986 : chap. X) ; il est cependant important de noter que

Patterson & Ladd 1999, qui proposait à leur sujet la caractérisation d’énoncés en fonction de

douze étiquettes, n’en ont finalement retenues que sept, dont une nommée « emphasis » (p.

1171) : cette conservation de l’emphase comme catégorie fonctionnelle pertinente constitue

selon nous un argument intéressant en faveur de l’inclusion du niveau et de l’étendue

fréquentiels au sein des catégories linguistiques. Nous reviendrons sur cette question dans le

cadre du chapitre 6 ; au préalable, cependant, nous allons proposer l’extension de ces concepts

orthogonaux aux autres espaces prosodiques.

Extension aux autres espaces prosodiques

Avec les concepts de niveau et d’étendue fréquentiels, nous venons d’évoquer les

« dimensions orthogonales » de l’espace fréquentiel ; il est intéressant de noter que l’espace

de durée, que nous avons défini par analogie avec les espaces fréquentiel et d’intensité,

semble lui aussi pouvoir s’étendre dans une dimension orthogonale103.

Ainsi, si des variations de fréquence fondamentale peuvent être réalisées au sein d’un

niveau et avec une étendue donnés, il semble que des variations de durée d’unités

103 Un raisonnement analogue vaut aussi pour l’espace d’intensité, que nous avons choisi de ne pas analyser pour

les raisons évoquées plus haut.


218

phonologiques puissent elles aussi être considérées comme réalisées dans le contexte d’un

débit (« tempo » ou « speech rate ») particulier.

Tout comme le niveau et l’étendue fréquentiels, le débit est généralement considéré

comme une variable continue liée à l’expression de l’affect (cf. par exemple Ladd 1996 : p.

8). D’autres travaux (cf. par exemple Koopmans-van Beinum & Donzel 1996 ou Batliner et

al. 1997) suggèrent cependant que le débit est étroitement corrélé avec la structuration

informationnelle du discours et permet la désambiguïsation syntaxique, et pourrait donc

prétendre à un statut linguistique.

Interactions entre dimensions orthogonales et dimensions « basiques »

Une volonté d’homogénéisation nous pousse dans un premier temps à rebaptiser les

phénomènes prosodiques que nous avons tout d’abord identifiés (variations de fréquence

fondamentale, d’intensité et de durée des unités phonologiques) comme « dimensions

basiques » par opposition à la dénomination de « dimension orthogonale » proposée par Ladd

1996 concernant le niveau et l’étendue fréquentiels.

Nous proposons néanmoins de remettre en cause cette nomenclature au profit d’une

opposition entre « dimensions localisantes » (ou « dimensions cadre ») et « dimensions

localisées ». Les dimensions localisantes correspondent aux dimensions que nous venons

d’identifier (niveau et étendue fréquentiels et débit) ; les dimensions localisées qui leur

correspondent sont les variations de fréquence fondamentale et les variations de durée des

unités phonologiques. Nous avons choisi cette terminologie dans le but de restituer le

phénomène de réinterprétation phonologique que nous postulons au sein des dimensions

localisantes. Cette proposition constitue en fait une extension du phénomène de normalisation

qui permet une interprétation phonologique uniforme pour tous les locuteurs d’une variété,

quels que soient leur âge (enfant vs. adulte) ou leur sexe, que ce soit au niveau segmental (cf.

Ménard 2002) ou au niveau prosodique.

De manière plus précise, nous proposons, dans le cadre de la démarche de

représentation proposée par Hirst et al. 2000, que la phase critique de représentation

phonologique de surface implique la détermination préalable :

• pour l’espace fréquentiel, d’un empan caractérisé par un niveau et une étendue

fréquentiels donnés ;

• pour l’espace temporel, d’un empan caractérisé par un débit donné.


219

L’interprétation phonologique d’une dimension localisée (variation de F0 ou de durée

d’unités) se fait ainsi à l’intérieur du cadre référentiel que constituent les dimensions

localisantes afférentes.

L’identification concrète des frontières des dimensions localisantes constitue un

problème auquel nous pouvons envisager deux types de solutions. La première solution

consiste à postuler que la détermination d’une dimension localisante se fait sur la base même

de la dimension localisée qu’elle cadre : c’est ainsi parce que l’on aurait un ensemble de

variations de F0 dans une partie élevée de l’espace fréquentiel du locuteur que l’on déduirait

la présence d’un niveau de registre élevé qui permettrait alors à son tour la réinterprétation des

valeurs de F0. Une telle détermination réciproque, bien que conceptuellement intéressante,

pose cependant le même problème que celui rencontré par l’approche relativiste de Jakobson,

Fant & Halle 1952 : comment peut-on postuler une dimension localisante sans éléments

pouvant entrer en relation de contraste syntagmatique ?

La seconde solution, d’ailleurs suggérée par Jakobson & Halle 1971 (p. 37), répond à

ce problème précis : une dimension localisante peut être identifiée sur la base d’indices

acoustico-phonétiques appartenant à d’autres espaces. C’est ce type de fonctionnement que

suggère Carlson et al. 2004 en relation avec les jugements effectués par leurs sujets suédois :

« [A] possibility is that listeners have based their judgments on variation in voice quality. It is

known that stretches of speech produced in a lower pitch range are sometimes characterized with

particular unstabilities in pitch, such as jitter and shimmer, that are due to limitations of the vocal

apparatus. Similarly, in our earlier study on break prediction […], we found that relatively low

pitch regions right before stronger breaks were accompanied by creaky voice. Finally, it has been

shown that some aspects of the vocal source, such as open quotient, which has an impact on the

perceived timbre of a person’s voice, may also covary with pitch level, e.g. […]. » (Carlson et al.

2004 : p. 692)

Cette suggestion d’un rôle important joué par les paramètres spectraux (associés à la

qualité de voix) dans le cadre de l’identification des dimensions localisantes, couplée avec les

fonctions linguistiques potentiellement assumées par ces dernières, nous pousse à nous

interroger plus avant sur le statut linguistique des paramètres spectraux. C’est vers ce

questionnement que nous allons brièvement nous tourner à présent.


220

2.3 Espace spectral

La qualité de voix a bénéficié jusque tout récemment d’un statut comparable à celui de

la prosodie avant son intégration à la linguistique ; toujours associée majoritairement à

l’expression paralinguistique (affects) et non linguistique (âge, sexe du locuteur, état physique

global, etc.), la qualité de voix semble constituer un noyau dur réfractaire à l’intégration

linguistique. Cette rubrique sera organisée en deux phases. Dans la première phase, nous

évoquerons ce statut para / extra linguistique traditionnel de la qualité de voix et tenterons

d’en expliquer certaines des raisons après avoir proposé quelques définitions du concept. La

seconde phase, notamment par un recours à l’hétérogénéité fonctionnelle de la qualité de voix,

nous permettra de proposer des arguments en faveur d’une intégration totale de cet ensemble

de phénomènes au sein de la dimension prosodique.

2.3.1 Statut linguistique

Propositions de définition

L’une des raisons pour laquelle la qualité de voix bénéficie d’un statut marginal réside

sans doute dans la difficulté rencontrée pour la définir de manière univoque. L’une des

premières définitions les plus anciennes de la qualité de voix (dans une acception proche de

celle adoptée aujourd’hui) est à trouver dans Carrel & Tiffany 1960, qui propose de la

concevoir comme

« an aspect of tone which is independent of pitch, loudness, and duration; it is it is the remaining

cue that enables us to differentiate between two tones if the other three variables are the same in

both. » (Carrel & Tiffany 1960 : p. 266 ; cité dans Crystal 1969 : p. 102)

Cette définition négative de la qualité de voix fait clairement référence à l’aspect

perceptif du concept. Des approches plus contemporaines mettent en relation deux aspects

(deux « états » dans notre terminologie) du phénomène. Dans ce cadre, on pourra penser à

Ladefoged (cf. Ladefoged 1971 et 1973 ; Ladefoged & Maddieson 1996 ; Epstein 2002 pour

un compte-rendu) qui propose la mise en rapport du concept de qualité de voix avec

différentes qualités de voix, définies le long d’un continuum dont les degrés regroupent des

descripteurs de production et de perception : une tension forte des cordes vocales sera ainsi

associée à une voix laryngalisée (« creaky voice ») ; une voix soufflée (« breathy voice ») sera

le corrélat perceptif d’un relâchement et d’une occlusion incomplète ; un voix modale

correspondra à une configuration « par défaut » des cordes vocales.


221

Plus récemment encore, Epstein 2002 (pp. 8-9) propose, en s’appuyant sur Laver

1980104, de prendre en compte les trois points de vue que nous avons isolés concernant la

substance prosodique (les « états » de notre terminologie) de manière simultanée : on peut

ainsi concevoir la qualité de voix comme l’ensemble des configurations laryngiennes et supra

laryngiennes représentées par des traces acoustiques et suscitant des percepts distincts tels que

« voix soufflée » ou « voix laryngalisée ».

Un phénomène « para / extra - linguistique » ?

C’est sans doute l’association tenace de la qualité de voix avec l’expression des

attitudes et des émotions qui a joué le rôle le plus déterminant dans sa caractérisation para-

linguistique. Ainsi, cet ensemble de paramètres continus associés à des fonctions non

linguistiques graduelles (attitudes, émotions) ne cadre pas avec le critère de discrétisation des

entités requis par le paradigme traditionnel de la linguistique, hérité notamment de la

phonologie. Un tel statut, y compris dans les travaux récents les plus récents (cf. Gendrot

2001, Campbell & Mokhtari 2003, Gobl & Ní Chasaide 2003, Campbell 2004 ; Ní Chasaide

& Gobl 2004), loin d’être remis en cause, est même présenté comme l’une des spécificités de

la qualité de voix par rapport à la fréquence fondamentale, l’intensité et la durée, ses

concurrents dans le domaine de l’émotion.

Si elle se limitait à ce domaine de l’affect, la qualité de voix pourrait difficilement

prétendre à un statut linguistique reconnu. Bien entendu, tel n’est pas le cas, et nombre de

spécialistes du domaine (nous retiendrons particulièrement C. Gobl et A. Ní Chasaide)

revendiquent pour la qualité de voix, en plus de ses fonctions para-linguistiques, un ensemble

de fonctions linguistiques directes et indirectes vers lesquelles nous nous tournons à présent,

et qui constituent autant d’argument en faveur de l’intégration de la qualité de voix à la

prosodie.

104 On trouvera dans Laver 1980 et 1991 (p. 227), ouvrage de référence sur la question, une description

physiologique extrêmement détaillée (en fonction de configurations laryngiennes et supra laryngiennes

complexes) de différentes qualités de voix.


222

2.3.2 Vers une intégration linguistique partielle

Topologie d’un espace spectral

Nous l’avons vu, le concept de qualité de voix peut être abordé de trois points de vue

différents, chacun correspondant à l’un des états ordonnés que nous avons identifiés à

l’intersection d’un espace prosodique et de la dimension temporelle :

• l’état de production nous permet de concevoir la qualité de voix comme un ensemble

de configurations laryngiennes et supra laryngiennes ;

• l’état de transmission nous fait envisager la qualité de voix comme spectre (ensemble

des fréquences du signal de parole par rapport au temps)105 ;

• l’état de perception, finalement, donne son nom courant à la qualité de voix et semble

pouvoir être caractérisé à l’aide de catégories telles que « voix soufflée »

(« breathy voice » ou « voix laryngalisée » (« creaky voice »).

Il semblent donc que l’« espace spectral » (que nous définirons comme l’espace

prosodique lié à la perception de la qualité de voix) présente une structure comparable aux

autres espaces identifiés (espaces fréquentiel, d’intensité et de durée), ce qui lui permet de se

conformer à la démarche de représentation proposée par Hirst et al. 2000 et que nous

adoptons ici.

On pourra en effet considérer

• d’une part que le spectre constitue une représentation physico-acoustique de l’état de

production, et

• d’autre part, que les variables obtenues par l’application du filtrage inverse soit couplé

au modèle LF (cf. Fant et al. 1985 et par exemple Ní Chasaide & Gobl 2004 pour une

application récent) soit associé à l’algorithme d’extraction du Coefficient Normalisé

d’Amplitude (ou « NAQ », cf. Campbell 2003 et Campbell et Mokhtari 2004)

105 Le fait que nous ayons réservé le terme fréquentiel en relation avec les variations de F0 constitue en fait un

usage presque abusif ; le spectre, en réalité, étant composé de l’ensemble des fréquences du signal, serait sans

doute un meilleur candidat. Notre méthode de dénomination des espaces prosodiques, cependant, s’appuie sur le

terme correspondant à l’entité spécifique de l’état de transmission correspondant : la F0 nous fait donc parler

d’ « espace fréquentiel », et le spectre d’« espace spectral ».


223

constituent une représentation phonétique du spectre, comparable à la représentation

obtenue par l’algorithme MOMEL dans l’espace fréquentiel.

La conformité de l’espace spectral avec la structure postulée implique cependant une

représentation phonologique de surface et une représentation phonologique profonde. Dans le

cadre de l’expression continue d’affects graduels (fonction para / extra – linguistique),

l’espace spectral n’exige aucune discrétisation et l’on peut fort bien concevoir une relation

directe forme (phonétique)-fonction, comparable à celle postulée dans le cadre de l’expression

des émotions par le biais de la F0.

L’espace spectral, cependant, si sa fonction la plus « populaire » est effectivement

l’expression de l’émotion et de l’attitude des locuteurs, présente néanmoins une multiplicité

fonctionnelle qui empiète sur le champ des fonctions linguistiques, permettant ainsi de

supposer un niveau catégoriel de représentation de type phonologique. C’est cette

hétérogénéité fonctionnelle de l’espace spectral que nous allons aborder à présent.

Hétérogénéité fonctionnelle

Comme nous venons de le rappeler, la qualité de voix est indissociable de l’expression

para / extra – linguistique des émotions ; d’autres fonctions sont cependant aussi liées aux

éléments de l’espace spectral, et ce à plusieurs niveaux de l’organisation linguistique106. Dans

le cas présent, nous nous restreindrons principalement aux fonctions liées à la proéminence et

à la constituance prosodique afin de faciliter l’intégration de cette partie de notre étude avec

les remarques que nous allons formuler en 2.4 concernant l’ordre métrique et son rôle

linguistique.

Notons cependant que des distinctions de tons lexicaux ont été identifiées, comme par

exemple l’association d’une voix soufflée à l’un des sept tons du Hmong (cf. Huffman 1987),

106 Nous noterons que Ladefoged & Maddieson 1996 détaille le rôle joué par la qualité de voix au niveau

phonématique : ainsi, une voix soufflée (« breathy voice »), opposée à une voix modale, est un trait distinctif

pour les voyelles en Gujarati ; une voix tendue (« stiff voice »), opposée elle aussi à une voix modale, est un trait

distinctif pour les occlusives voisées du coréen ; notons finalement, au risque de clamer l’évidence, que le trait

de voisement, si fréquent dans le cadre de distinctions consonantiques dans de nombreuses langues, fait partie

intégrante de l’état de production de l’espace spectral. Cette mention du rôle distinctif de l’espace spectral au

sein du domaine segmental viole la séparation de ce domaine et du domaine prosodique, mais constitue

néanmoins un argument de poids concernant le rôle linguistique au sens large que peut assumer la qualité de

voix.


224

ou encore l’opposition des tons yin (voix soufflée) et yang (voix modale) du Wu (cf. Jianssen

& Maddieson 1989)107.

Ní Chasaide & Gobl 2004 montre que le degré de proéminence et la distinction

« accentué / non accentué » (p. 191) dépendent non seulement des paramètres prosodiques

« traditionnels », mais aussi de configurations physiologiques plus tendues se traduisant par

des augmentations indépendantes des paramètres EE (variable représentant la force

d’excitation du modèle dans le modèle LF, cf. Fant et al. 1985) et FA (lié à l’augmentation

d’intensité dans la partie haute du spectre).

Les frontières (notamment finales ; cf. chapitre 6) d’unités prosodiques (cf. Ní Chasaide

& Gobl 2004 : p. 191), sont corrélées avec l’augmentation progressive de la qualité de voix

soufflée, liée à une augmentation du coefficient d’ouverture, de la symétrie des pulsations

glottales, et de la fuite dynamique (paramètres OQ, RK et RA du modèle LF).

On notera finalement la cooccurrence souvent remarquée de « creaky voice » avec les

frontières d’unités prosodiques situées dans le registre bas du locuteur.

La qualité de voix semble en conséquent être caractérisée par un hétérogénéité

fonctionnelle lui permettant d’assumer des fonctions non seulement para / extra –

linguistiques, mais aussi, comme nous venons de le voir rapidement, des fonctions

linguistiques associées au marquage catégoriel de la signification lexicale, de la proéminence

et de la constituance prosodique.

Ces observations constituent selon nous des arguments en faveur de l’existence d’un

niveau phonologique de représentation au sein de l’espace spectral, permettant à ce dernier

d’arborer une structure similaire aux autres espaces et ainsi de prétendre au titre de

« quatrième dimension prosodique » (cf. Campbell et Mokhtari 2003). Cependant, la nature

exacte de ce niveau phonologique de représentation semble bien devoir rester pour l’instant

non encore déterminée.

L’association de faisceaux paramètres prosodiques avec les notions de proéminence et

de constituance prosodique, caractéristiques de l’« ordre métrique » postulé par Di Cristo

2000, nous pousse à nous interroger plus avant, dans le cadre de la rubrique suivante, sur cette

structure organisatrice de la prosodie. 107 Les traits spectraux sont en fait couplés à des valeurs initiales de F0 différentes (F0 plus basse pour le ton

Yin) ; ceci peut s’expliquer par une stratégie de redondance, similaire à celle observée par exemple dans le cadre

du marquage multiple de proéminence à l’aide de la F0, de la durée et du tilt spectral.


225

2.4 Ordre métrique et accent

La définition de la prosodie qui a servi de point de départ à notre analyse mentionnait,

rappelons-le, trois « ordres structurels » (Di Cristo 2000 : p. 196). La rubrique précédente

nous a permis d’aborder l’organisation de la substance fréquentielle, d’intensité et de durée

en trois états ordonnés (production, acoustique et perception) au sein de la dimension

temporelle : on pourra ainsi considérer que l’« ordre tonal » et l’« ordre temporel » proposés

par Di Cristo 2000 correspondent à la structuration (fréquentielle et de durée, respectivement)

que nous venons d’évoquer et à son extension formelle aux niveaux phonologiques (de

surface et profond). Cette extension du phonétique au phonologique correspond à la

construction d’une théorie phonologique qui dépasse les limites que nous avons définies pour

ce travail de thèse (nous livrerons néanmoins en 3.2 une étude plus détaillée des éléments

relatifs à l’« ordre tonal » dans sa globalité, du niveau de la production au niveau

phonologique profond).

Il est cependant intéressant de s’attacher à présent à l’« ordre métrique », dont, jusqu’à

présent, nous n’avons rien dit. La manière dont nous avons abordé les ordres structurels tonal

et temporel est, il faut le reconnaître, partisane, nous arrêtant au seuil de la forme prosodique

(phonologique). Nous assumons cette démarche et répétons notre volonté de ne pas nous

plonger dans l’analyse phonologique détaillée du domaine prosodique, notre préoccupation

première se situant au niveau des interactions entre paramètres prosodiques acoustico-

phonétiques et niveau discursif en relation avec l’anaphore. Nous conserverons donc cette

démarche concernant l’organisation métrique.

L’organisation métrique repose sur la notion d’accentuation, dont la représentation

implique simultanément la proéminence et la constituance (cf. Halle et Vergnaud 1987 et Di

Cristo à paraître pour un compte-rendu) ; les grilles métriques parenthésées constituent un

exemple de ce type de représentation. Attachons-nous plus précisément à la nature de l’accent

en tant qu’élément fondamental de l’« ordre métrique ».

2.4.1 L’accent : « stress » et « accent »

On notera avec Hirst & Di Cristo 1998 que la terminologie de langue anglaise a

longtemps oscillé entre les termes « stress » et « accent ». Le compte-rendu détaillé fourni par

Jensen 2004, sur lequel nous nous appuierons ici, rappelle que le concept de « stress »,

jusqu’au milieu du XXème siècle, a été massivement associé avec l’état de production et

notamment à une effort particulier : on pensera par exemple à Jones 1909 et 1918 qui parle de


226

« degree of force with which a sound or syllable is uttered » (Jones 1918 : p. 245) ou encore à

Pike 1943 (p. 119) qui utilise l’expression « stronger initiator pressure » pour caractériser les

syllabes accentuées (« stressed syllables »).

Gimson 1956 (p. 144) explique cette conception physiologique du concept de « stress »

comme une conséquence du changement terminologique qui avait conduit au remplacement

du terme « accent » (associé aux variations fréquentielles et d’intensité destinées à rendre une

syllabe proéminente). L’auteur s’appuie (ibid. : p. 147) sur Scott 1939 pour rejeter l’inaptitude

de la conception physiologique du « stress » (liée au paramètre d’intensité) à rendre compte

de la proéminence, concept prépondérant de son analyse. On passe ainsi dans les années 1950

d’une mise en avant de ce que nous avons appelé l’état de production à une emphase de l’état

de perception ; on retrouve ce changement de perspective en faveur de la perception chez

Jassem 1952, repris dans Jassem & Gibbon 1980 :

« Whatever cannot be heard by a normal human ear ipso facto lies outside the field which is

covered by phonetics as a strictly linguistic discipline. » (Jassem 1952 cité dans Jassem & Gibbon

1980 : p. 4).

Ce changement de perspective s’accompagne aussi d’un changement dans la prise en

compte des paramètres acoustiques. En effet, de nombreux auteurs (dont d’ailleurs Jones

1909) avaient déjà identifié le rôle crucial joué par les paramètres prosodiques, et notamment

les variations fréquentielles dans le marquage de la proéminence ; dans cette lignée, des

études expérimentales telles que Fry 1958a et 1958b montrent qu’il semble possible

d’associer la perception de proéminence avec l’ensemble ordonné des paramètres acoustiques

suivant : F0 > durée > intensité (Fry 1965 ajoutera la composition formantique (F1, F2) en

queue de liste).

« Sentence intonation [variations fréquentielles au sein d’une syllabe] is an over-riding factor in

determining the perception of stress and [...] in this sense the fundamental frequency cue may

outweigh the duration cue. » (Fry 1958a : p. 151).

On retrouve une position similaire dans Bolinger 1958 qui propose à la fois une

nouvelle conception et un nouveau terme :

« Having given up the more usual definition of stress, I think it is wise, because of association, to

give up the term also. From this point on I shall therefore refer not to stress but to PITCH

ACCENT, or simply ACCENT, meaning prominence due to the configuration of pitches. »

(Bolinger 1958: 127).


227

Les paramètres d’intensité et de durée ne sont pas abandonnés, mais constituent des

indices secondaires utilisés notamment pour la différenciation de deux candidats au statut de

syllabe accentuée (ibid. : p. 138-139).

Adams & Munro 1978, dans une série d’expériences destinées à analyser les corrélats

acoustiques de la production et de la perception de l’accent ont quant à eux montré que les

variations de durée constituaient les indices les plus fiables de la perception de l’accent,

devant celles de fréquence fondamentale et d’intensité. Ces résultats, et la contradiction qu’ils

entraînent avec les résultats précédents, sont expliqués par le fait que les travaux de Fry ou de

Bolinger recourraient à des items isolés ou placés en position finale d’énoncé, position qui

neutralise notamment le rôle joué par le paramètre de durée (phénomène d’allongement final).

Ces résultats sont confirmés par Nakatani & Aston 1978 qui fournit les paramètres

ordonnés suivants : durée > F0 > qualité vocalique (pas d’influence de l’intensité). La notion

de neutralisation des indices acoustiques est elle aussi confirmée, notamment par le fait que la

durée semble neutralisée en fin d’énoncé et la fréquence fondamentale après un mot porteur

d’un accent dit « emphatique » (à mettre en relation avec les phénomènes d’abaissement

observés en position post-focale par Di Cristo & Jankowski 1999).

Une majorité de travaux depuis le début des années 1980 s’est cependant fondée sur les

positions telles que celle de Bolinger ou Fry et analyse majoritairement les proéminences

accentuelles en relation avec la fréquence fondamentale par le biais du concept de « pitch

accent » proposé par Bolinger 1958. Des travaux récents montrent cependant que le sujet n’est

pas clos : Terken 1991 (p. 1773) postule que les sujets utilisent des stratégies différentes

lorsqu’il s’agit de porter un jugement sur la proéminence d’une syllabe ou sur sa hauteur,

suggérant ainsi que l’équation de ces deux phénomènes n’est pas triviale ; de plus, les sujets,

même entraînés n’utilisent pas tous les mêmes stratégies pour identifier les accents (cf.

Streefkerk et al. 1997 ; Silipo & Greenberg 1999 et 2000) ; finalement, le phénomène de

balance spectrale (renforcement de l’énergie dans les fréquences élevées du spectre ; déjà

évoqué en 2.2.1) s’est avéré être un paramètre acoustique comparable à la durée dans les

analyses de Sluijter & van Heuven (1993 et 1996).

Ce passage en revue des conceptions et des études pourrait être continué encore bien

longtemps, mais nous estimons qu’il suffit en l’état à montrer d’une part la complexité de la

caractérisation de l’accent par la substance prosodique, et d’autre part l’impossibilité


228

d’associer ce phénomène à un seul paramètre ; c’est sur ce second point que nous allons nous

appuyer à présent.

2.4.2 L’ordre métrique comme interface cognitive de haut niveau

Comme nous venons de le voir, le concept d’accent semble ne pas pouvoir être rattaché

de manière univoque à un unique paramètre prosodique acoustique. L’accent, en tant

qu’élément fondamental de l’organisation métrique, semble en quelque sorte constituer un

complexe formel associé à l’ensemble des paramètres prosodiques (F0, durée, intensité et

caractéristiques spectrales) dans des proportions qui varient selon les sujets (cf. Streefkerk et

al. 1997 ; Silipo & Greenberg 1999 et 2000) mais aussi selon les langues en fonction de

l’utilisation des ressources prosodiques à d’autres niveaux (par exemple dans le cadre

d’oppositions phonémiques de durée ; cf. Berinstein 1979).

Il semble donc que l’accent soit une forme métrique abstraite identifiée sur la base

d’éléments appartenant aux espaces prosodiques fréquentiel, de durée, d’intensité et spectral.

Se pose alors la question de savoir à quel niveau se fait cette association ; quatre possibilités

sont envisageables, correspondant aux niveaux proposés par Hirst et al. 2000 : l’association

pourrait ainsi s’opérer au niveau acoustique (notre état de transmission), au niveau phonétique

(notre état de perception), au niveau phonologique de surface ou au niveau phonologique

profond. Une association avec un niveau autre que le niveau phonologique profond semble

violer la contrainte d’interprétabilité (cf. Hirst et al. 2000 : p. 54 ; et ici même § 2.1.3) et

remettre en cause l’intérêt de l’existence même des ordres structurels tonal et temporel ; nous

postulerons en conséquence pour l’instant une association avec les formes phonologiques

profondes des différents espaces prosodiques108.

Dans ce cadre, il est alors envisageable de réévaluer le statut de l’ordre métrique et de

postuler que ce dernier serait situé à un niveau d’abstraction plus élevé (étant donnée la

108 La différence de stratégies utilisées par les sujets dans le cadre de la comparaison de proéminences ou de

hauteurs proposée par Terken 1991 pourrait être considérée comme un argument en faveur d’une autre

hypothèse : une association précoce de la forme accentuelle (par exemple avec les éléments de l’état de

transmission ou de perception, c'est-à-dire les niveaux acoustique et phonétique) lors du jugement de

proéminence pourrait en effet justifier les divergences obtenues (le jugement de hauteur serait quant à lui

effectué en suivant la structure interne de l’espace fréquentiel). Nous remarquerons cependant que la nature

métalinguistique de la tâche demandée constitue selon nous un cas de passage au niveau métacommunicationnel

(cf. chapitre 3) qui permet une vision plus consciente et « externalisée » des processus, permettant par là même

un « court-circuitage » artificiel.


229

contrainte d’interprétabilité) que les niveaux phonologiques des espaces prosodiques liés à un

paramètre acoustique. Cette proposition peut être résumée à l’aide de la figure 22 ci-dessous :

Figure 22 : Niveaux de représentation de la prosodie avec intégration du niveau métrique.

Nous pourrions ainsi faire l’hypothèse que l’ordre métrique constitue une interface entre

certaines fonctions cognitives de haut niveau (liées à la proéminence accentuelle et à

l’empaquetage de l’information) et leur implémentation phonologisée au sein des différents

espaces prosodiques. On peut pourrait envisager aussi que d’autres fonctions, moins

strictement linguistiques, ne transitent pas par le niveau métrique, et entre en relation directe

avec le niveau d’abstraction relatif à la phonologie profonde de chaque espace prosodique.

Nous reviendrons sur ce point dans la rubrique 3.3.

2.4 Synthèse

Cette seconde section nous a permis de poser de manière explicite le cadre structurel

que nous souhaitons aborder concernant la prosodie. Nous appuyant sur Hirst et al. 2000,

nous avons ainsi tout d’abord détaillé la structure qui nous semblait la plus adaptée à la

représentation des niveaux d’organisation prosodique. Dans un deuxième temps, nous avons

explicité notre conception multiparamétrique et multidimensionnelle de la prosodie en

proposant quatre espaces prosodiques (fréquentiel, d’intensité, de durée et spectral) insérés

dans la structure organisatrice définie précédemment. Chaque espace est ainsi conçu comme


230

pouvant être représenté, dans la dimension temporelle, de l’état de production à l’état de

perception et, au-delà de cette dimension, au sein d’une structure de représentation

hiérarchisée permettant la mise en relation de la substance prosodique et de sa représentation

phonologique profonde médiatisée par les niveaux phonétique et phonologique de surface.

Nous avons proposé, finalement un niveau hiérarchique supplémentaire, lié au

placement de l’ordre métrique à l’interface des systèmes phonologiques des espaces

prosodiques et des fonctions linguistiques de haut niveau.

Après cette présentation théorique, c’est à présent vers une application concrète d’une

proposition de traitement réversible de l’espace fréquentiel (depuis la substance jusqu’à la

forme phonologique de surface) que nous allons nous tourner dans la section suivante.

3 Structure(s) et représentation(s) Prosodique(s)

La première partie de cette section va s’organiser autour de la présentation de la

méthodologie associée par Hirst et al. 2000 à la démarche indirecte de représentation

prosodique que nous avons évoquée en § 2.1. Plus précisément, nous allons tout d’abord

détailler la représentation de ce que nous avons appelé l’espace fréquentiel, du niveau

physico-acoustique au niveau phonologique de surface ; nous évoquerons ensuite l’extension

de cette méthodologie à d’autres espaces prosodiques avant d’effectuer une rapide

présentation de ProZed, environnement applicatif de cette méthodologie.

La seconde partie de cette section présentera certaines des propositions de Hirst 1998

concernant la représentation phonologique profonde de l’anglais. Etant donné le cadre général

choisi, c’est précisément ce passage de la phonologie de surface à la phonologie profonde qui

semble constituer le cœur d’une théorie prosodique phonologique ; au terme de cette section,

nous aurons ainsi présenté une proposition homogène de représentation de la prosodie de

l’anglais, du niveau concret de la substance au niveau abstrait de la forme phonologique.

3.1 Représentations prosodiques : la cas de l’espace fréquentiel

Cette rubrique va être consacrée à la présentation de la méthodologie proposée par

l’école aixoise (notamment Albert Di Cristo et Daniel Hirst) dans le cadre de la représentation

de la prosodie. Les différentes phases que nous allons suivre correspondent respectivement

aux représentations phonétique et phonologique de surface proposées par Hirst et al. 2000. La

représentation phonologique profonde, objet de la théorie prosodique phonologique, fera

l’objet de la rubrique suivante (§ 3.2).


231

3.1.1 Cadre général

Nous noterons en préambule que nombreux sont les travaux visant la modélisation de

contraintes et des effets de production (cf. les travaux de H. Fujisaki, notamment Fujisaki

1988 et 1997) et de perception (cf. les travaux de l’ « Ecole Hollandaise », notamment ceux

de ‘t Hart ou Terken, notamment ‘t Hart et al. 1990 et Terken 1991 ; ou encore les

modélisations proposées par Rossi et al. 1980 et d’Alessandro & Mertens 1995). Nous

sommes conscient du choix partisan que nous effectuons en ne rendant compte que du modèle

proposé par l’« Ecole Aixoise » représentée par A. Di Cristo et D. Hirst.

Notons cependant que ce choix, hormis le manque évident de place et la thématique

nécessairement restreinte de ce travail de thèse, est aussi motivé par la réversibilité de la

méthodologie proposée, qui constitue selon nous une caractéristique et un avantage

fondamentaux. En effet, un va-et-vient constant entre données empiriques et modèles formels

semble constituer l’archétype de la démarche scientifique contemporaine où se succèdent les

phases inductive et hypothético-déductive ; la linguistique ne saurait déroger à cette tendance

(cf. Culioli 1990). Or, la démarche adoptée ici permet non seulement une abstraction formelle

automatique à partir de la substance prosodique du niveau physico-acoustique, mais aussi la

génération automatique d’une représentation phonétique (et, via synthèse vocale, physico-

acoustique) à partir d’une représentation formelle abstraite. Cette démarche, qui s’intègre dans

la méthodologie générale de l’analyse par synthèse, sera détaillée en 3.1.4 ci-après.

3.1.2 Représentation phonétique : l’algorithme MOMEL

Le représentation phonétique, conçue comme un processus unissant les niveaux

physico-acoustique et phonétique, repose sur l’hypothèse que toutes les langues obéissent à

des contraintes de production et de perceptions identiques ; une représentation phonétique,

dans ce contexte, doit résulter de la dissociation de ces contraintes (cf. Di Cristo 1978).

Niveau physico-acoustique

Concernant l’espace fréquentiel, le niveau physico-acoustique est intimement lié au

paramètre de fréquence fondamentale (ou F0), corrélat de l’activité glottale (état de

production de l’espace fréquentiel). La fréquence fondamentale, dont l’unité est le Hertz, est

généralement représentée dans un espace temps-fréquence qui donne lieu à une représentation

graphique de type « courbe ».


232

A la suite de Di Cristo et Hirst 1986, on considèrera que la courbe de F0 résulte de la

superposition d’une composante microprosodique et d’une composante macroprosodique,

fondement de la représentation phonétique. La composante microprosodique résulte de

l’ensemble des effets liés aux contraintes de production de bas niveau. Di Cristo 1978 propose

une distinction entre effets « intrinsèques » (liés à l’influence locale de la production d’un

segment sur un paramètre prosodique) et effets co-intrinsèques (liés à la coarticulation, et

notamment à l’influence des consonnes sur les voyelles adjacentes) ; au sein de ces deux

catégories, nous pourrons retenir les deux effets suivants concernant l’espace fréquentiel :

• Effets intrinsèques :

o F0 plus élevée pour les voyelles hautes que pour les voyelles basses ; ce

phénomène s’explique par la traction laryngale consécutive au soulèvement de

la langue : toutes choses égales par ailleurs, celle-ci entraîne nécessairement

une augmentation de la tension des cordes vocales et donc de la fréquence

fondamentale ;

o F0 plus basse pour les obstruantes voisées ;

• Effets co-intrinsèques :

o Saut de F0 de l’attaque d’une voyelle précédée d’une consonne non voisée

(« pitch skip ») ;

o Abaissement de la F0 de l’attaque et de la valeur cible d’une voyelle précédée

d’une obstruante voisée.

La composante macroprosodique, vers laquelle nous nous tournons à présent, peut donc

être conçue comme la partie de la courbe de F0 directement liée à la structure organisatrice de

l’espace fréquentiel, c’est-à-dire, en termes triviaux, au « reste » de la courbe de F0, une fois

gommés les effets microprosodiques.

Niveau phonétique

Comme nous l’avons indiqué, le niveau phonétique de représentation est fondé sur la

composante macroprosodique. Etant donnés les effets microprosodiques que nous venons de

mentionner, cette composante est quasi-identique, dans l’espace fréquentiel, à la courbe de F0

obtenue à partir d’une suite de voyelles et de sonorantes (de type « mamama »).


233

Une telle courbe aurait pour caractéristique d’être à la fois lisse et continue (la courbe et

sa dérivée première sont toutes deux continues) ; la fonction la plus simple obéissant à ces

deux caractéristiques est une courbe spline quadratique, qui permet une représentation fine de

courbes de F0 avérées (cf., en plus de Hirst et al. 2000, Hirst 1980, 1983 et 1987, ainsi que

Hirst & Espesser 1993).

L’algorithme MOMEL (pour « MOdélisation MELodique »), développé à partir des

proposition de Hirst 1987 et détaillé dans Hirst & Espesser 1993 et Hirst et al. 2000, permet

l’obtention automatique de l’ensemble de courbes splines quadratiques modélisant au mieux

une courbe de F0 donnée. La figure 23 ci-après représente une courbe de F0 modélisée par

des splines quadratiques à l’aide de l’algorithme MOMEL.

Figure 23 : Courbe de F0 modélisée à l’aide de l’algorithme MOMEL.

Comme on peut le voir, la modélisation effectuée par l’algorithme MOMEL permet

l’obtention de courbes splines quadratiques réalisant l’interpolation d’un ensemble de points-

cibles. Ces points-cibles (ainsi que les courbes auxquelles ils sont liés) sont situés dans

l’espace temps-fréquence et constituent les éléments continus de la représentation phonétique

de la fréquence fondamentale.

Il est important de noter finalement que ce type de représentation est dans une relation

d’équivalence perceptive avec le niveau physico-acoustique ; son application pour l’analyse

de courbes de F0 dans de nombreuses langues (anglais, français, espagnol, italien , arabe,

allemand, suédois et plus récemment le chinois) montre que, bien qu’encore imparfait, cet

algorithme permet d’obtenir des résultats très satisfaisants (cf. Hirst et al. 1993, Véronis et al.

1994, Campione et al. 1997 ou encore Campione 2001 pour une évaluation récente).

3.1.3 Représentation phonologique de surface

Nous venons de voir qu’une représentation phonétique de la fréquence fondamentale

pouvait être obtenue de manière automatique et fiable dans le cadre de l’application de

l’algorithme MOMEL. Qu’en est-il alors d’une représentation phonologique de surface ?


234

C’est à cette question que nous allons répondre en deux temps, rappelant tout d’abord les

caractéristiques de ce type de représentation, avant d’introduire le système INTSINT, destiné

à ce type de représentation.

Niveau phonologique de surface : caractéristiques fondamentales

Hirst et al. 2000 (p. 54) insiste sur l’importance d’un niveau intermédiaire entre le

niveau phonétique (variant et continu) et le niveau phonologique profond (domaine de

l’invariance discrète). Ce niveau, le niveau phonologique de surface, permet ainsi la mise en

correspondance de la représentation phonologique profonde et de la représentation phonétique

(cf. la condition d’interprétabilité) ; cette étape intermédiaire permet ainsi une représentation

phonologisée n’impliquant pas la connaissance a priori du système phonologique profond de

la langue analysée (contrairement au système de représentation ToBI (cf. Silverman et al.

1992). Le système phonologique profond peut ainsi être ensuite appréhendé à partir de la

représentation de surface.

Ce niveau de représentation permet d’autre part la comparaison des systèmes

prosodiques de différents langages. La phonologie de surface est ainsi à mettre en relation

avec le mal nommé109 « Alphabet Phonétique International », dont la fonction est comparable.

Un telle comparaison inter langue a été en partie mise en œuvre dans Hirst & Di Cristo 1998,

ouvrage collectif regroupant l’analyse des systèmes prosodiques de vingt langues dont dix ont

impliqué l’utilisation d’une représentation phonologique de surface réalisée à l’aide du

système INTSINT vers lequel nous nous tournons à présent.

Codage au niveau phonologique de surface : le système INTSINT

Le système INTSINT (« an INternational Transcription System for INTonation », cf.

Hirst & Di Cristo 1998) propose de coder les configurations fréquentielles à l’aide d’un

alphabet limité de symboles tonals. Plus particulièrement, dans le cadre de la méthodologie

proposée, le codage INTSINT concernera les points-cibles obtenus au niveau de

représentation phonétique par l’application de l’algorithme MOMEL.

La conception fondamentale de ce système est que la valeur des points-cibles peut être

appréhendée de manière absolue (en relation avec l’étendue fréquentielle) ou de manière

109 Etant donné son utilisation importante de représentations catégorielles discrètes, l’API est en grande partie un

système de représentation phonologique au sens de Troubetzkoy 1939.


235

relative (en relation avec les points-cibles adjacents, ou uniquement le point-cible précédent

selon la version utilisée).

En conséquence, INTSINT, qui utilise huit symboles,

• en réserve trois à la notation des valeurs absolues qui définissent l’étendue

fréquentielle des locuteurs : M(id), T(op) et B(ottom) ;

• et cinq à la notation des valeurs relatives de hauteur110 : H(igher), L(ower), S(ame),

U(pstepped), D(ownstepped). Ainsi, le symbole H est retenu pour coder un point-cible

dont la valeur est supérieure à celle des points-cibles adjacents ; le symbole L sera

sélectionné pour coder un point-cible dont la valeur est inférieure à celle des points-

cibles adjacents ; le symbole U sera choisi pour coder un point-cible plus haut que le

précédent et plus bas que le suivant ; réciproquement le symbole D codera un point-

cible plus bas que le précédent et plus haut que le suivant ; le symbole S, finalement,

permettra de coder un point-cible de même niveau que le précédent.

Les configurations ainsi obtenues peuvent être représentées à l’aide de la figure 24,

empruntée à Hirst et al. 2000 :

Figure 24 : Configurations tonales et codage INTSINT du point-cible médian.

Nous retiendrons pour résumer que la méthodologie adoptée dans ce travail procède

d’une correspondance indirecte entre substance (niveau physico-acoustique) et forme

prosodique (phonologie) ; une telle méthodologie permet, concernant l’espace fréquentiel, la

génération d’un codage phonologique discret par l’intermédiaire des algorithmes MOMEL

(représentation phonétique) et INTSINT (représentation phonologique de surface). Un tel

codage est représenté dans la figure 25 ci-après :

110 La description donnée ici pour les configurations associées aux symboles D (« downstep ») et U (« upstep »)

correspond à la version « phonologisante », préférée par Hirst et Di Cristo 1998 (p. 15) et utilisée notamment au

sein du groupe ProDiGE (cf. Di Cristo et al. à paraître) ; une version plus « phonétisante » et quantitative,

suggérée elle aussi par Hirst et Di Cristo 1998 (p. 15), est actuellement retenue dans la dernière version de

l’implémentation automatique du codage INTSINT (cf. Auran et al. 2004).


236

Figure 25 : Modélisation MOMEL et codage INTSINT d’un extrait de parole

(emprunté à Di Cristo et al. à paraître).

Comme l’indique la figure 26 ci-dessous, empruntée à Hirst et al. 2000 (cf. aussi Hirst

et Di Cristo 1998), le codage INTSINT peut être effectué indifféremment à l’aide des

symboles orthographiques que nous avons présentés ou à l’aide de symboles iconiques :

Figure 26 : Symboles orthographiques et iconiques du système INTSINT

(emprunté à Hirst 2000 : p. 62).

La figure 27, finalement, représente un tel codage iconique :

Figure 27 : Codage INTSINT iconique (emprunté à Hirst 1999 : p. 62).

La représentation phonologique profonde, en revanche, ne peut faire l’objet d’un

traitement automatique et correspond nécessairement à l’établissement d’une théorie

phonologique telle que celle que nous évoquerons ci-après (cf. § 3.3).


237

Il est auparavant important de souligner deux aspects cruciaux de cette méthode ; en

conséquence, la rubrique suivante traitera de sa possibilité d’extension à d’autres espaces

prosodiques et de son implémentation réversible dans le cadre de l’environnement applicatif

ProZed.

3.2 Extensions et applications : ProZed

3.2.1 Extension à d’autres espaces prosodiques

Hirst 1999, 2000 et 2001 proposent une extension de la méthodologie que nous venons

de présenter pour une prise en compte de l’espace temporel. Une telle extension semble

cohérente avec le cadre général adopté dans cette thèse, notamment concernant la conformité

de l’espace temporel avec les niveaux de représentations et les principes de distinction micro-

/ macroprosodique évoqués plus haut.

Selon Hirst 2001 (p. 2), l’alignement d’une transcription de l’unité phonologique

choisie (phonème, syllabe, etc.) avec le signal de parole constitue une représentation

phonétique de l’espace temporel. Nous pensons qu’une telle représentation est en fait physico-

acoustique car les éléments de l’espace temporels obtenus (des durées brutes) résultent, tout

comme la courbe brute de F0, de la conflation de la composante microprosodique (avec ses

effets intrinsèques et co-intrinsèques111) et de la composante macroprosodique.

En conséquence, une représentation phonétique des durées (effets microprosodiques

« déduits » des durées brutes) est obtenue par application d’un algorithme de modélisation tel

que celui proposé par Di Cristo & Rossi 1981 implémenté à nouveau dans le cadre de Auran

& Di Cristo 2003.

La représentation phonologique de surface peut ensuite être obtenue par réduction de la

variable continue de longueur en un nombre fini de catégories. On pourra par exemple

recourir à une méthode statistique de « transformée z » (cf. Campbell 1992) permettant

d’exprimer une unité en relation avec une moyenne et un écart type donnés (différent types de

regroupement sont en fait envisageables, par exemple en fonction de l’identité des phonèmes,

de classes de phonèmes, de complexité syllabique, etc.). Concernant le français, quatre

111 Cf. Di Cristo 1978. On retiendra à titre d’exemple le classement décroissant des durées des voyelles nasales,

hautes et basses (effet intrinsèque lié à la vélocité des effecteurs articulatoires) et la diminution de la durée

vocalique associée notamment à une coda non voisée (effet co-intrinsèque).


238

niveaux de durée (court, normal, long et très long) sont ainsi jugés pertinents dans le cadre

d’une notation phonologique (cf. Di Cristo et al. 1997 et Hirst 1999).

Une extension de cette méthodologie aux deux autres espaces prosodiques (d’intensité

et spectral) n’a pas été envisagée, sans doute en relation avec l’absence de niveau

phonologique reconnu. Les propositions de structure que nous avons formulées plus haut nous

laisse cependant entrevoir une possibilité de ce type dans le cadre d’une prise en compte

holistique de la prosodie. Dans le meilleur des cas, cependant, une telle entreprise semble

appartenir au très long terme.

3.2.2 L’environnement applicatif ProZed

Nous terminerons cette étude de l’application de la méthodologie développée par Hirst

et al. 2000 par une rapide évocation de ProZed, l’éditeur prosodique proposé par Hirst 2000.

Les avancées de la synthèse et de la reconnaissance vocales laissent envisager le

développement d’un éditeur prosodique permettant l’implémentation totale de l’heuristique

d’analyse par synthèse suggérée dans Hirst et al. 2000.

ProZed existe aujourd’hui sous la forme d’un ensemble d’outils gérés à partir de

l’éditeur de signal Praat (Boersma & Weenink 2000) et peut être représenté de manière

schématique à l’aide de la figure 28 ci-après :

Figure 28 : Schéma de l’éditeur ProZed.

Concernant l’espace fréquentiel, ProZed permet ainsi la génération automatique d’une

représentation phonologique de surface à partir du signal de parole par l’intermédiaire des

algorithmes MOMEL (exécutable) et INTSINT (script Perl) tous deux appelés depuis Praat.

Inversement, une représentation phonologique de surface peut être utilisée (en relation

avec une transcription phonématique) pour générer une représentation phonétique (suite des

phonèmes et valeurs de la courbe de F0 modélisée par MOMEL) qui, par l’intermédiaire du

MOMEL

INTSINTINT2PHO

QSP

MBROLA Niveau physico-acoustique

Niveau phonétique

Niveau phonologique de surface


239

système de synthèse vocale MBROLA (Dutoit et al. 1996), permet de générer un signal de

parole synthétique.

Divers paramètres ont récemment été intégrés à ProZed : on retiendra notamment les

éléments de l’espace temporel (codage phonologique de surface de la durée segmentale

d’après Hirst 1999 et 2000) ainsi que la prise en compte des dimensions orthogonales que

nous avons mentionnées plus haut, le niveau et l’étendue fréquentielle (cf. Auran et al. 2004

pour un compte rendu récent).

ProZed en est bien entendu toujours à un stade expérimental, mais l’époque se

rapproche où la méthodologie d’analyse par synthèse proposée par D. Hirst comme cadre

d’étude de la prosodie sera enfin à la portée de tout membre de la communauté.

La représentation totale des niveaux prosodiques n’est cependant pas envisageable : le

niveau phonologique profond, en effet, ne peut être défini en relation avec le niveau

phonologique de surface que dans le cadre d’une théorie phonologique dont le développement

n’est (fort heureusement pour les linguistes) pas automatisable. Nous terminerons donc

logiquement cette longue présentation de quelques éléments fondamentaux de la prosodie par

la présentation d’une théorie phonologique cohérente avec le cadre que nous avons détaillé.

3.3 Structure(s) prosodiques de l’anglais

La description phonologique de la prosodie de l’anglais n’étant pas le thème central de

cette thèse, nous n’allons faire qu’évoquer certains aspects mis en évidence par Hirst 1998 sur

lequel cette présentation va s’appuyer. Nous allons ainsi tout d’abord présenter rapidement les

unités phonologiques identifiées par l’auteur avant de donner quelques exemples de mise en

correspondance de représentations phonologiques de surface avec leur contrepartie en

phonologie profonde. Nous terminerons, finalement, par une évocation du statut

phonologique de l’emphase et proposerons une réinterprétation de la proposition de Hirst

1983 dans le cadre que nous avons proposé.

3.3.1 Unités prosodiques

Comme le rappelle Hirst 1998 (p. 58), nombre de travaux proposent de rendre compte

des configurations prosodiques intonatives dans le cadre d’unités hiérarchiques organisées

autour d’une syllabe accentuée ; on voit clairement ici la prégnance de l’organisation métrique

dans la prise en compte de la prosodie.


240

Concrètement, cette proposition se traduit généralement par un recours au pied

(« métrique » ou « rythmique ») (« foot ») tel que défini par Abercrombie 1964. Un pied est

constitué d’une syllabe accentuée et de toutes les syllabes inaccentuées qui la suivent,

indépendamment des frontières de mots. (52) ci-dessous est un exemple de la structuration en

pieds d’un énoncé simple (les accents (« pitch accents ») sont signalés par des majuscules, et

les frontières de pied par des barres verticales) :

Ex (52) they pre | DICted his e | LECtion.

(pied 1) (pied 2) (pied 3)

D’autres types d’organisation ont été proposés (on retiendra particulièrement le modèle

proposé par Jassem 1952 ; cf. Bouzon 2004 pour une analyse comparée des deux modèles),

mais nous en tiendrons au modèle d’Abercrombie 1964 dans le cadre de cette étude. Le terme

« unité tonale » (« tonal unit » ou « TU ») fera en conséquence référence au pied défini par

Abercrombie 1964.

Hirst 1998 propose une unité supérieure à l’unité tonale. Ce niveau de structure

correspond à une unité relativement consensuelle baptisée « Tone Group » (cf. Palmer 1922,

Schubiger 1958, Halliday 1967 et 1970, Gussenhoven 1984), « Tune » (cf. Armstrong &

Ward 1926, Schubiger 1935, Jassem 1952, Kingdon 1958), « Tone Unit » (cf. Crystal 1969,

Couper-Kuhlen 1986) ou encore « Intonation Group » (Cruttenden 1986). L’auteur propose

dans ce cadre le terme « Unité Intonative » (« Intonation Unit » ou « IU »).

3.3.2 Phonologie profonde et phonologie de surface

Hirst 1998 adopte l’approche phonologique autosegmentale (cf. Goldsmith 1976 et

1990) concernant la séparation des segments tonals et des phonèmes ; la synchronisation de

ces deux lignes, en revanche, est présentée comme indirecte et dépendante d’une structure

hiérarchique comportant au moins les deux niveaux que nous venons de mentionner (TU et

IU).


241

TU

H L

IU

L {L;H}

L’anglais n’étant pas une langue tonale, les segments tonals sont associés aux schémas

tonals spécifiques à ces deux unités ; la figure 29 ci-dessous représente ces schémas tonals :

Figure 29: Schémas tonals de l’unité tonale (TU) et de l’unité intonative (IU)

selon Hirst 1998 (p. 74).

En conséquence, la structure de l’exemple (53) pourra être représentée par la figure

(30) ci-dessous :

Ex (53) It’s almost impossible.

Figure 30 : Structure hiérarchique de l’exemple (53) selon Hirst 1998 (p. 74).

La projection des segments tonals attachés aux unités TU et UI sur un unique plan (cf.

Pierrehumbert & Beckman 1988) conduit à la représentation donnée par la figure (31) ci-

après, qui constitue une représentation phonologique profonde d’une réalisation de (53).


242

Figure 31 : Représentation hiérarchique de l’exemple (53) avec projection des segments

tonals sur un plan unique (Hirst 1998 : p. 75).

L’anglais britannique est présenté comme caractérisé par la présence d’un ton flottant

comme second segment tonal de l’UT, situation représentée par la figure (32) ci-dessous :

Figure 32 : Schéma tonal de l’unité tonale (TU) en anglais britannique

(adapté de Hirst 1998 : p. 76).

Un ton flottant est un segment tonal non réalisé phonétiquement mais dont la fonction

principale est d’induire l’abaissement du segment tonal suivant. Un segment tonal haut (H)

suivant ce ton flottant, en l’occurrence serait alors réalisé comme un abaissement local, codé

D (« downstep »). Appliqué à l’exemple (53), ce schéma tonal donne la figure (33) :


tonals sur un plan unique (Hirst 1998 : p. 76).

TU

H L


243

Cette représentation phonologique profonde permet d’expliquer la représentation

phonologique de surface associée avec une énonciation non emphatique de (53) (cf. figure

34).

Figure 34 : Représentation phonologique de surface d’une énonciation non emphatique de

l’exemple (5) à l’aide d’INTSINT (adpaté de Hirst 1998 : p. 76).

On remarquera notamment que le downstep (segment tonal D) réalisé à l’initiale du

second groupe tonal résulte de l’effacement du ton flottant final du premier groupe tonal. A

contrario, une séquence phonologique de surface telle que [M T L H B], commune dans les

variétés américaine ou écossaise reflèterait le caractère non flottant du second segment du

groupe tonal profond.

3.3.3 Statut phonologique de l’emphase

Nous terminerons cette rapide évocation de la représentation phonologique profonde de

la prosodie par une remarque concernant le traitement réservé par Hirst 1998 à l’emphase.

Selon l’auteur, en effet, une réalisation emphatique de (53) pourrait se représenter de la

manière suivante (figure 35) :

Figure 35 : Représentation phonologique de surface d’une énonciation emphatique de

l’exemple (53) à l’aide d’INTSINT (adpaté de Hirst 1998 : p. 76).

Selon l’auteur, cette représentation de surface pourrait correspondre à l’insertion d’un

constituant E (pour « emphase ») entre le groupe tonal et l’unité intonative, situation que l’on

pourrait représenter à l’aide de la figure 36 ci-après :

It’s ALmost imPOssible !

[ M T D H B ]

It’s ALmost imPOssible.

[ M T D B ]


244

Figure 36 : Représentation hiérarchique d’une réalisation emphatique de l’exemple (53) avec

projection des segments tonals sur un plan unique (Hirst 1998 : p. 76).

Dans ce cas de figure, la présence de l’unité hiérarchiquement supérieure E, qui domine

directement le second groupe tonal, bloquerait l’abaissement du segment tonal H du second

groupe tonal, qui serait alors réalisé H et non plus D.

Nous ne discuterons pas cette analyse dans le détail mais il nous semble néanmoins

intéressant de noter que cette proposition semble pouvoir être interprétée dans le cadre

structurel que nous avons proposé. Nous avons en effet postulé en 2.4.2 que l’ordre métrique

pouvait être considéré comme une interface entre fonctions cognitives de haut niveau (liées au

marquage de la proéminence et à l’empaquetage informationnel) et niveaux phonologiques

profonds des espaces prosodiques ; nous avons aussi fait l’hypothèse d’une mise en relation

directe de ces niveaux profonds « spécialisés » avec certaines fonctions moins strictement

linguistiques.

Or, le statut linguistique de l’emphase ne va pas de soi : on se souviendra que Ladd &

Morton 1997 a conclu à un statut intermédiaire de l’emphase (interprétée de manière

catégorielle, mais perçue de manière plutôt continue), accompagné d’un rejet partiel de la

méthode classique de perception catégorielle (identification + discrimination) ; Remijsen &

van Heuven 1999, confirme en revanche de manière univoque la pertinence de cette

méthodologie dans le cadre de la prosodie, et postule conséquemment que l’emphase est un

phénomène graduel et non linguistique.

Notre proposition concernant ce point est que l’on aurait ici affaire à deux fonctions

distinctes mais mêlées dans la mise en œuvre des éléments de l’espace fréquentiel :

• l’emphase est une proéminence et, comme toute proéminence, elle implique une forme

de structuration linguistique au niveau métrique, ce qui implique la médiation de


245

l’ordre métrique qui va ensuite faire intervenir les niveaux phonologiques profonds

des différents espaces prosodiques (notamment l’espace fréquentiel) ;

• simultanément, l’emphase est corrélée avec l’implication de l’énonciateur dans sa

parole ; on a ici affaire à une fonction non linguistique au sens strict. On peut imaginer

que cette fonction n’est pas médiatisée par l’ordre métrique et entre en relation directe

avec (notamment) l’espace fréquentiel.

L’insertion d’une catégorie phonologique intermédiaire E semble compatible avec notre

proposition de distinction des niveaux phonologiques : la fonction de proéminence accentuelle

entrerait en relation avec la phonologie métrique (de haut niveau) alors que la fonction

d’emphase entrerait en relation avec le niveau des phonologies spécifiques aux espaces

prosodiques, c'est-à-dire à un niveau intermédiaire entre la phonologie de haut niveau et la

phonétique.

3.4 Synthèse

Cette troisième section nous a permis de donner un exemple plus concret de la mise en

œuvre du cadre présenté dans la section précédente. Nous avons ainsi détaillé les différents

niveaux de représentation de l’espace fréquentiel, depuis le niveau physico-acoustique

jusqu’au niveau phonologique de surface. Nous avons ensuite donné un aperçu des

possibilités d’élargissement de cette démarche aux autres espaces prosodiques, notamment

dans le cadre d’une implémentation informatique telle que ProZed. La dernière rubrique,

finalement, a été pour nous l’occasion de donner un aperçu du niveau de représentation

phonologique profond tel qu’il est envisagé par Hirst 1998 pour l’anglais britannique. La

proposition d’analyse formulée en fin de rubrique représente une tentative de compte-rendu

phonologique des faits phonologiques de surface (par le biais de l’analyse proposée par Hirst

1998) et de quelques faits perceptifs ambigus trouvés dans la littérature dans le cadre que nous

avons proposé dans la seconde section de ce chapitre ; bien que ces considérations

phonologiques dépassent amplement le cadre de cette thèse, il nous semblait opportun de

donner un aperçu, aussi maladroit fût-il, des potentialités explicatives du cadre proposé.


246


Arrivé au terme de ce chapitre, il nous semble important de souligner les points

essentiels proposés. De manière schématique, nous concevons la prosodie comme un macro-

système multiparamétrique et multidimensionnel, composé de deux niveaux majeurs

d’abstraction :

• Le niveau le plus bas consiste en un ensemble de quatre espaces prosodiques

impliquant une substance (espaces fréquentiel, d’intensité, de durée et spectral) ; ces

espaces prosodiques sont analysables dans le cadre de la représentation multi niveau

proposée dans Hirst et al. 2000, et s’étagent en conséquence d’un niveau physico-

acoustique (précédé selon nous d’un niveaux physiologique lié à notre état de

production112) à un niveau phonologique profond.

• Le niveau le plus élevé, formé par l’ordre métrique, composé d’entités formelles sans

rapport univoque avec des faits de substance et assurant la médiation entre les

niveaux phonologiques profonds des espaces prosodiques et les fonctions cognitives

de haut niveau (structuration informationnelle par le jeu de la constituance et des

proéminences).

Nous avons aussi souligné le rôle important de la qualité de voix non seulement dans

l’expression des émotions et des attitudes (mais la chose est connue), mais aussi dans le cadre

du marquage de fonctions plus linguistiques. Cette hétérogénéité fonctionnelle (Bertrand

1998) d’un paramètre semble en fait pouvoir être généralisée à la prosodie dans son ensemble.

Longtemps cantonnée à l’expression de phénomènes en marge de la linguistique, il

semblerait que la prosodie ait finalement parachevé son intégration au sein de cette dernière.

Plus important encore, oeuvrant de concert avec la pragmatique (qui a suivi un cheminement

similaire), la prosodie contribue à l’élargissement des frontières étroites de la linguistique

traditionnelle ; en d’autres termes, la prosodie participe à la pragmatisation de la linguistique,

liée notamment à l’intégration de phénomènes relevant du niveau discursif tel que nous

l’avons explicité dans le déroulement des chapitres précédents.

C’est donc tout naturellement que nous allons à présent nous tourner vers une analyse

plus spécifique du rôle joué par la prosodie dans le cadre discursif, notamment concernant la 112 En effet, on pourra considérer le niveau physico-acoustique comme une représentation du niveau

physiologique, bien que la question fasse évidemment débat.


247

structuration du texte et l’interaction de la prosodie et de l’anaphore dans l’organisation de la

communication située.

249

Chapitre 6

Prosodie et discours

250


1 Fonctions et formes : la quête du sens prosodique................................... 252 1.1 Usages prosodiques ....................................................................................................... 252 1.2 Fonctions prosodiques et linguistique ......................................................................... 254

1.2.1 Catégorisation linguistique et discrétude ............................................................. 254 1.2.2 Pour une pragmatisation du sens prosodique....................................................... 256

1.3 Organisation des fonctions prosodiques ..................................................................... 257 1.4 Synthèse ......................................................................................................................... 260 2 Accentuation et anaphore discursive......................................................... 261 2.1 Anaphore pronominale discursive : quelques rappels .............................................. 261

2.1.1 Anaphore pronominale discursive et faisceaux d’indices.................................... 261 2.1.2 Anaphore pronominale discursive et statut attentionnel des référents................. 262

2.3 Anaphore pronominale discursive et accentuation.................................................... 263 2.3.1 Prosodie et information ............................................................................................. 263 2.3.2 Interprétation des anaphores pronominales accentuées ........................................ 265 2.3 Synthèse ......................................................................................................................... 272 3 Prosodie et structure discursive ................................................................. 273 3.1 Organisation prosodique : indépendance partielle par rapport à la syntaxe........................................................................................................................... 274

3.1.1 Prosodie et syntaxe : conceptions divergentes..................................................... 275 3.1.2 Prosodie bipartite et indépendance relative avec la syntaxe ................................ 277

3.2 Prosodie et segmentation discursive............................................................................ 282 3.2.1Niveau de l’unité intonative.................................................................................. 282 3.2.2 Structure prosodique au-delà de l’unité intonative .............................................. 283 3.2.3 Structure prosodique et approche conversationnelle ........................................... 285

3.3 Marques prosodiques de l’organisation discursive.................................................... 286 3.3.1 Prosodie et marquage de l’organisation discursive.............................................. 286 3.3.2 Marquage de la discontinuité discursive.............................................................. 288 3.3.3 Marquage de la continuité discursive................................................................... 297


Chapitre 6 – Prosodie et discours

251

Le chapitre précédent vient de nous permettre de préciser la conception générale de la

prosodie que nous allons adopter dans le reste de ce travail. Nous venons notamment

d’insister sur le caractère multiparamétrique et multidimensionnel de cette dernière.

Concernant plus particulièrement l’espace prosodique spectral, lié à la qualité de voix, nous

avons eu l’opportunité de noter un large éventail fonctionnel : en effet, la qualité de voix

semble pouvoir contribuer non seulement à l’expression para-linguistique des affects et des

attitudes des locuteurs (son domaine le plus connu), mais aussi participer au marquage

linguistique de distinctions lexicales, et de proéminences et de frontières prosodiques.

La généralisation de ce constat d’hétérogénéité fonctionnelle à la prosodie dans son

ensemble va constituer le cœur de la première section de ce chapitre. Néanmoins, nous

tenterons de faire un point terminologique relatif au concept de fonction et proposerons une

typologie hiérarchisée des fonctions généralement associées à la prosodie.

Afin de répondre à certaines questions soulevées dans le chapitre précédent, la seconde

section de ce chapitre sera centrée sur les interactions de la prosodie et de l’anaphore dans le

cadre de la référence discursive. Après avoir rappelé les principes fondamentaux du

fonctionnement des expressions anaphoriques pronominales, nous passerons en revue

certaines propositions concernant leur accentuation (fonction prosodique spécifique que nous

aurons détaillée dans la première section) et suggèrerons l’intérêt d’une prise en compte plus

fine de la structure fonctionnelle de la prosodie.

La troisième section, finalement, concernera plus particulièrement le rôle de la prosodie

dans ses fonctions de segmentation et de structuration ; nous nous interrogerons ainsi sur la

position relative de la prosodie (notamment par rapport à la syntaxe) et détaillerons dans cette

perspective les faisceaux spécifiques de paramètres prosodiques utilisés par les interactants en

soulignant les contraintes qui peuvent présider à leur usage dans le cadre du marquage de la

(dis)continuité discursive.


252

1 Fonctions et formes : la quête du sens prosodique

Il est à présent reconnu de manière consensuelle que la prosodie joue un rôle crucial

dans de nombreux domaines relatifs au langage. Comme nous l’avons évoqué lors du

précédent chapitre, l’expression des émotions et des attitudes, longtemps seul domaine de

compétence reconnu à la prosodie, se voit à présent rangée au sein d’une classe étendue

d’usages prosodiques. Une telle diversité nous pousse à nous interroger sur le concept de

signification prosodique.

Dans ce contexte, la première rubrique de cette section sera consacrée à une rapide

présentation de l’étendue de la gamme des usages prosodiques.

La seconde rubrique sera pour nous l’occasion de revenir sur la vision dynamique de

l’intégration linguistique de la prosodie que nous avons proposée lors du chapitre précédent.

Nous nous attacherons notamment à montrer qu’après une phase de « mise en conformité » de

la prosodie à la linguistique, la pragmatisation de cette dernière permet une intégration plus

élargie de la prosodie, mais pose le problème de la multiplication presque exponentielle des

formes et des fonctions prosodiques à analyser.

La troisième et dernière rubrique de cette section sera en conséquence consacrée d’une

part à une proposition de caractérisation des usages prosodiques selon un gradient de

spécificité que nous allons détailler et d’autre part à l’étude typologique des fonctions

prosodiques jugées les plus spécifiques.

1.1 Usages prosodiques

L’« épidémie de prosodimania » évoquée par Di Cristo 2000 trouve certainement sa

source dans la prise en compte de la diversité des utilisations de la prosodie dans le langage.

On considère généralement que la prosodie contribue de manière cruciale à l’acquisition

et à la structuration langagières. On sait par exemple que les caractéristiques prosodiques

d’une langue sont parmi les premières acquises chez l’enfant (cf. pour des travaux récents

Jusczyk 1997, Konopczynski 1991, 1998 et 1999, Ramus et al. 1999), constituant une

véritable « structure d’accueil de tous les autres éléments de la parole » (Konopczynski, 1999

: p. 68) et permettant notamment la mise en place du lexique (Christophe et al. 2003).


253

De manière symétrique, la prosodie est généralement classée parmi les dernières

composantes perdues dans le cadre de pathologies dégénératives du langage (cf. Caplan 1987,

Louis 2003).

La compréhension de la parole, notamment en milieu bruité, est en grande partie balisée

par la prosodie comme le montre par exemple Darwin & Hukin 2000 pour une quantification

de l’impact de paramètres prosodiques sur la compréhension dans le cadre de l’effet « cocktail

party » identifié par Cherry 1953.

De plus, on considère généralement que la prosodie joue un rôle important dans

l’organisation du discours et la régulation de la conversation (cf. par exemple Couper-Kuhlen

1986 ; Wichmann 2000 ; nous traiterons spécifiquement de ces aspects dans la dernière

section de ce chapitre).

A un niveau plus spécifique encore, la prosodie est présentée comme jouant un rôle

important dans la structuration syntaxique (cf. par exemple Pijper & Sanderman 1994 qui a

montré que les sujets étaient capables d’identifier les frontières syntaxiques sur la base

d’éléments prosodiques en parole filtrée), et notamment dans le cadre de la levée

d’ambiguïtés syntaxiques

• globales, comme dans le célèbre « La petite brise la glace » : cf. par exemple Price et

al. 1991 ; Ferreira et al. 1996) ;

• et locales, comme dans la portion momentanément ambiguë « John believes Mary

… » qui peut être suivie de « … implicitly. » ou de « to be a professor. » ; comme le

souligne Cutler et al. 1997 (d’où cet exemple est tiré), aucune ambiguïté ne persiste

dans la phrase complète, mais deux structures sont possibles au moment ou la portion

initiale est interprétée (cf. par exemple Grosjean 1983 et Grosjean & Hirt 1996 qui ont

montré le rôle de la prosodie dans la prédiction de la durée de la phrase interprétée).

La segmentation lexicale en parole continue est elle aussi facilitée par la prosodie,

comme le montrent des travaux tels que Nakatani & Schaffer 1978 pour l’anglais ou Rietveld

1980 et Christophe et al. 2003 pour le français, qui insistent sur l’importance des paramètres

de durée en ce domaine. La prosodie (on rajoutera ici « lexicale », par opposition à

« intonation proper » proposé par Hirst & Di Cristo 1998) joue bien entendu un rôle reconnu

dans la distinction lexicale pour les langues à tons, mais aussi pour les langues à accent

mélodique (« pitch accent or tonal accent languages », comme le japonais ou le suédois) ou à

accent lexical (comme l’anglais ou le russe ; cf. Beckman 1986 ; Hirst & Di Cristo 1998).


254

Cette liste est loin d’être exhaustive et pourrait être prolonguée encore bien longtemps,

mais elle nous semble déjà suffisante pour montrer l’ « hétérogénéité fonctionnelle »

(Bertrand 1999) massivement assumée par la prosodie, que ce soit dans le cadre de

l’acquisition, de la compréhension, aux niveaux lexical, syntaxique, discursif, etc. A ces

éléments s’ajoute aussi l’expression des attitudes et des émotions (cf. Wichmann 2002 pour

une interprétation de ces phénomènes dans un cadre inférentiel), qui ont longtemps constitué

le seul domaine de compétence reconnu à la prosodie.

Face à une telle amplitude fonctionnelle, il nous semble intéressant de proposer une

classification sommaire qui nous permettra de mieux identifier les éléments prosodiques

pertinents à notre travail de thèse ; dans cette optique, nous allons tout d’abord brièvement

nous interroger sur les critères classiquement associées à la notion de linguisticité (rubrique

1.2.1) avant de proposer (rubrique 1.2.2) une typologie inscrite dans la démarche de

pragmatisation de la linguistique que nous avons esquissée dans le chapitre 5.

1.2 Fonctions prosodiques et linguistique

1.2.1 Catégorisation linguistique et discrétude

Hirst et al. 2000, qui constitue, à quelques ajustements près, le cadre général

d’organisation prosodique que nous avons choisi d’adopter, se fonde sur Troubetzkoy 1939

pour définir la frontière séparant les phénomènes phonétiques (continus) des entités

phonologiques (discrètes). De manière générale, comme le rappelle Gussenhoven 1999, le

caractère discret et binaire (présence vs. absence) des entités linguistiques constitue un critère

fondamental, qui, étant donnée la nature foncièrement continue des moyens d’expression, doit

être ancré, toujours selon l’auteur, dans le fonctionnement cognitif :

« It is a truism that the meaningful categories of language are discrete entities, each of which is

either present or absent in a given linguistic expression. Morphemes do not represent semantic

scales. […] The pervasive discrete structure of language must result from cognitive properties,

since the mediums of language, vocal gesturing in the case of spoken language and manual

gesturing in the case of signed language, are in themselves quite suitable for the expression of

gradience. » (Gussenhoven 1999 : p. 283)

Couper-Kuhlen 1986 (chap. VI) place ce critère de discrétude au sein d’un ensemble

plus étendu de critères de linguisticité mais souligne néanmoins son caractère particulièrement

délicat concernant la prosodie qui semble véhiculer des contrastes discrets et des contrastes

graduels.


255

Généralisant les propositions d’Ohala 1984, Gussenhoven (cf. notamment 1999 et 2002)

propose de considérer le caractère discret de certaines unités prosodiques comme lié à un

processus progressif de grammaticalisation de codes biologiques fondamentaux (codes de

fréquence, d’effort et de production) ; dans cette perspective, un état de langue correspondrait

ainsi au figement conventionnel d’une relation entre formes prosodiques et fonctions

langagières ; l’espace non occupé par les unités phonologiques discrétisées serait alors

disponible pour la manifestation phonétique graduelle de fonctions parfois jugées en marge de

la linguistique.

Nous remarquerons que le problème posé par le critère de discrétude est en fait double :

ainsi, pour qu’une relation forme-fonction soit jugée linguistique, il faut non seulement que

cette dernière obéisse aux critères de systématicité, de conventionalité, d’intentionalité, etc.

notés par Couper-Kuhlen 1986, mais aussi que la forme et la fonction associées soient toutes

deux des entités discrètes. Ainsi, la discrétisation d’une forme donnée du continuum sonore

n’a de sens qu’en relation avec une fonction elle-même discrétisée de manière indépendante.

On retrouve là le problème fondamental soulevé par Hirst 2004 et à paraître de la relative

double indétermination formelle et fonctionnelle de la prosodie ; le danger fondamental réside

alors dans l’identification circulaire d’une forme et d’une fonction donnée ; Hirst à paraître

met en évidence cet écueil dans le cadre de la distinction phonologique de deux types de

montées mélodiques (de continuité et interrogative) et cite la méthode de distinction de ces

deux formes employée par Halliday 1967 :

« The difference, though gradual, is best regarded as phonetic overlap (…) the one being merely

lower than the other (…) But the meanings are fairly distinct. In most cases the speaker is clearly

using one or the other; but sometimes one meets an instance which could be either. » (Halliday

1967a : p. 21 ; cité dans Hirst à paraître)

Dans ce cadre, chaque forme mélodique ascendante est caractérisée par sa fonction,

considérée comme discrète (« fairly distinct »), et non pas en fonction de critères formels

spécifiques : en d’autres termes, la caractéristique d’une configuration mélodique de

continuation serait d’être continuative, ce qui, il faut bien l’avouer, ne nous en dit pas

beaucoup sur les critères utilisés par les interactants pour identifier la fonction continuative

elle-même …

En conséquence, nous sommes en accord avec les recommandations formulées par Hirst

2004 (et à paraître) qui préconise l’identification et le codage indépendants des formes et des

fonctions prosodiques. Le chapitre précédent nous a permis de donner un aperçu du codage


256

formel de la prosodie, notamment concernant l’espace fréquentiel113 ; étant donné le cadre que

nous venons de poser, il nous semble opportun de clarifier certains aspects fonctionnels. C’est

donc vers cette thématique de la caractérisation prosodique fonctionnelle que nous allons à

présent nous tourner.

1.2.2 Pour une pragmatisation du sens prosodique

Nous allons proposer dans cette rubrique un éclaircissement terminologique relatif aux

diverses contributions de la prosodie que nous avons mentionnées plus haut. Notre démarche

s’inscrira dans la pragmatisation progressive de la linguistique que nous avons évoquée dans

le chapitre 5 et permettra la distinction de trois niveaux de fonctionnalité linguistique. Dans

un second temps, nous nous intéresserons plus particulièrement aux fonctions prosodiques

spécifiques et en fournirons une présentation inspirée de Hirst 1977.

L’intégration progressive de la pragmatique au sein d’une linguistique élargie (cf.

chapitre 5) semble avoir favorisé une extension de l’ensemble des fonctions reconnues

comme linguistiques. En conséquence, nous pensons que si l’intégration de la prosodie à la

linguistique s’est, dans un premier temps, effectuée dans le cadre d’une « mise en

conformité » vis-à-vis de critères linguistiques traditionnels, la pragmatisation de la

linguistique peut à présent permettre une prise en compte plus étendue des diverses fonctions

assumées par la prosodie.

Comme nous l’avons proposé dans le précédent chapitre, il nous semble plausible de

considérer, dans une perspective diachronique, la prise en compte de l’accent et des tons dans

les distinctions lexicales comme la « porte d’entrée » de la prosodie dans la linguistique. Avec

ce type de relation, la prosodie pouvait dès lors se targuer d’une association avec une fonction

linguistique consensuelle, le sens lexical.

Une seconde étape est sans doute à trouver dans la mise en relation de la prosodie avec

la syntaxe. Ayant mentionné ce type de fonction prosodique dans la section précédente, nous

ne nous attarderons pas ici sur le sujet ; notons néanmoins que la « reconnaissance »

syntaxique de la prosodie, qui a fait suite à sa « reconnaissance » lexicale a consisté en une

mise en correspondance de nouvelles formes prosodiques (accents nucléaires, tons de

frontières, etc. selon les approches) avec un second type de fonction linguistique, non plus

simplement lexicale cette fois-ci, mais plus sémantico-propositionnelle : très 113 Nous avons de plus mentionné l’extension de la méthodologie proposée dans Hirst et al. 2000 aux autres

espaces prosodiques ancrés substance, et notamment à l’espace de durée.


257

schématiquement, nous noterons que la prosodie est passée d’une fonction de distinction

lexicale à une fonction de distinction phrastique, ce qui a permis la prise en compte plus

consensuelle et non circulaire de nouvelles formes.

Dans cette perspective, il nous semble que la pragmatisation de la linguistique, qui a

déjà permis l’élargissement du spectre prosodique fonctionnel en relation par exemple avec

les actes de parole, permet d’envisager un élargissement fonctionnel croissant, plus

particulièrement au niveau du discours tel que nous l’envisageons. Ainsi, une approche

systématique des phénomènes discursifs semble pouvoir permettre de discrétiser un ensemble

de fonctions au-delà de la structuration syntaxique, étape indispensable à la mise en relation

avec des formes prosodiques caractérisées de manière indépendante. Comme nous le

montrerons dans la dernière section de ce chapitre, la mobilisation des dimensions localisantes

(niveau et étendue fréquentiels ou débit) et localisées dans le cadre de la structuration

discursive nous semble constituer un exemple intéressant de ce type de démarche.

1.3 Organisation des fonctions prosodiques

1.3.1 Catégories prosodiques fonctionnelles

Il est important de noter que l’élargissement de l’éventail des formes et des fonctions

prosodiques que nous venons de mentionner ne va pas sans poser des problèmes importants

de délimitation d’un objet d’étude réellement gérable. Notre travail au sein du groupe

ProDiGE, notamment, bien qu’il implique une réelle équipe de spécialistes de divers

domaines connexes (prosodie, psycho-linguistique, pragmatique, sémantique, etc.), nous

permet d’appréhender toute la difficulté inhérente à l’analyse du fonctionnement de la

prosodie au niveau du discours.

Afin de répondre à cette véritable « explosion fonctionnelle » de la prosodie, Di Cristo

2000 propose d’isoler 6 fonctions prosodiques principales : structurale, de contextualisation,

d’expression de l’affect (émotions et attitudes), énonciative, interactionnelle et identificatrice.

L’auteur identifie la spécificité des cinq dernières fonctions prosodiques dans le cadre de la

parole dite spontanée, la fonction structurale, liée à la « [mise] en forme du matériau verbal

par le truchement des dispositifs de segmentation, de liage et de saillance » (ibid. : p. 214)

étant quant à elle commune à tous les types de parole.

Nous proposons de nous appuyer sur cette position et de la mettre en perspective : ainsi,

si la fonction structurale est commune à tous les types de parole, nous postulons qu’elle est en


258

fait plus fondamentale que les autres. Entendons-nous bien : nous ne proposons pas de

considérer la fonction structurale de la prosodie comme plus importante que les autres

fonctions ; nous suggérons simplement que cette fonction pourrait être considérée comme

fournissant le cadre indispensable au sein duquel les autres fonctions peuvent se manifester.

Dans ce contexte, nous proposons de classer ce qu’il est convenu d’appeler au sens

large les fonctions de la prosodie au sein d’une structure organisationnelle regroupant d’une

part une fonction prosodique primaire (la fonction structurale) et d’autres part des fonctions

prosodiques secondaires (les autres fonctions prosodiques proposées par Di Cristo 2000), tout

aussi cruciales que la fonction structurale dans le déroulement de l’interaction discursive.

Un inventaire explicite des primitives de cette fonction prosodique primaire constitue

selon nous la contrepartie indispensable à la spécification des primitives formelles que nous

avons proposées dans le chapitre précédent ; un telle méthodologie, en effet, paraît pouvoir

fournir bon nombre des éléments formels et fonctionnels requis pour l’assemblage des

constructs prosodiques liés à l’analyse de l’hétérogénéité fonctionnelle (Bertrand 1999) de la

prosodie dans le discours. C’est donc à présent vers cette spécification des primitives

prosodiques fonctionnelles que nous allons nous tourner.

1.3.2 Primitives prosodiques fonctionnelles

En accord avec l’approche proposée par Hirst 1977 (cf. aussi Hirst à paraître), nous

proposons d’adopter un nombre restreint de primitives prosodiques fonctionnelles ; on

dénombrera les fonctions « inaccentué », « accentué », « nucléaire », « emphatique »,

« frontière », « terminal » et « non-terminal ». Comme le propose Hirst 2004, ces fonctions

s’organisent en fait autour des deux pôles que sont les notions d’accent et de frontière, les

deux phénomènes métriques que nous avons mis en évidence dans le chapitre précédent. Le

pôle accentuel comprend ainsi les primitives fonctionnelles « inaccentué », « accentué »,

« nucléaire » et « emphatique » alors que le pôle de frontière regroupe les primitives

« frontière », « terminal » et « non terminal ».

Il nous semble important de noter que la primitive fonctionnelle « nucléaire » constitue

en fait un complexe formel et fonctionnel. En effet, la notion de nucléarité est généralement

associée à deux caractéristiques formelles selon que l’on se situe dans la tradition prosodique

britannique ou américaine ; sans entrer dans les détails, nous noterons ainsi que l’accent dit

nucléaire est généralement défini soit comme le dernier accent d’une unité intonative, soit

comme l’accent lié à la plus forte variation de fréquence fondamentale. A l’évidence, ces


259

deux caractérisations incorporent des éléments (spécificité positionnelle ou étendue

fréquentielle importante) qui ne constituent en aucun cas un type de spécification

fonctionnelle ; la conservation de ce type de caractérisation nous semble donc justifier

l’exclusion de la catégorie « nucléaire » hors de l’inventaire des primitives prosodiques

fonctionnelles. Notons cependant qu’une autre caractérisation, fondée par exemple sur la

notion de « proéminence (subjective) maximale », permettrait de conserver cet élément au

sein de l’inventaire proposé par Hirst 1977 ; c’est en conséquence avec cette acception que

nous conserverons la primitive prosodique « nucléaire ».

Nous proposons d’homogénéiser cette typologie en distinguant quatre niveaux dans

l’inventaire proposé plus haut, composés de traits et de valeurs primaires et secondaires :

• au premier niveau se trouvent les traits fonctionnels [A] (pour le trait accentuel) et

[F] (relatif aux frontières);

• au second niveau se trouvent

o pour le trait [A] : la valeur non marquée [-], et la valeur marquée [+] ;

o pour le trait [F] : la valeur non marquée [-] et la valeur marquée [+] ;

• au troisième niveau, on aura

o pour [A+] : les traits secondaires [emphatique] et [nucléaire] ;

o pour [F+] : le trait secondaire [terminal] ;

• et au dernier niveau :

o pour [A+ emphatique] et [A+ nucléaire] : les valeurs [-] et [+] ;

o pour [F+ terminal] : les valeurs [-] et [+].

Une primitive fonctionnelle « accent nucléaire emphatique » sera ainsi codée [A+

(emphatique+) (nucléaire+)] et une frontière terminale [F+ (terminale+)] ; par souci de

simplicité, l’absence d’accent ou de frontière associé(e) à une configuration formelle n’est pas

pertinente à l’analyse, plutôt que d’être codée [A-] et [F-], ne sera pas codée.

La démarche que nous adopterons consistera à décrire les phénomènes prosodiques

discursifs comme des constructs mettant en jeu les primitives formelles et fonctionnelles que

nous avons pu identifier, permettant par là même la dissociation de l’analyse de ces deux

aspects, préliminaire indispensable à leur mise en correspondance non circulaire. A titre

d’exemple, l’expression de l’étonnement (attitude liée à la fonction d’expression de l’affect),


260

pourra être analysée à un niveau prosodique plus spécifique comme impliquant des

configurations formelles particulières (telle qu’une augmentation du débit et de l’étendue

fréquentielle) associées à des configurations fonctionnelles telles que [accent emphatique].

Nous pensons que ce type d’approche, implémentée à quelques différences près dans la

méthodologie du groupe ProDiGE, permettra non seulement d’éviter la circularité de la

définition des constructs prosodiques, mais aussi de mettre en évidence la contribution de

chaque élément prosodique au fonctionnement de l’interaction.

1.4 Synthèse

Cette première section a principalement été organisée autour de la thématique de

l’identification des fonctions prosodiques. Nous avons ainsi dans un premier temps rappelé la

diversité des usages prosodiques dans des domaines aussi variés que l’acquisition du langage,

le suivi du locuteur, la distinction lexicale, la désambiguïsation syntaxique ou la structuration

discursive. Nous avons ensuite souligné le rôle joué par la pragmatisation de la linguistique

dans la prolifération quelque peu désordonnée des fonctions prosodiques et mis en évidence le

danger de la définition circulaire de ces dernières en relation avec les formes prosodiques ;

une proposition de solution à ce problème a finalement été proposée sous la forme d’une

hiérarchisation de la classification proposée par Di Cristo 2000, fondée sur le caractère

fondamental de la fonction structurale spécifique. Nous avons finalement proposé d’adopter

(modulo quelques aménagements) les traits proposés par Hirst 1977 dans l’optique de fournir

un codage fonctionnel fondamental destiné à être mis en relation avec les primitives

prosodiques formelles dans le cadre de la caractérisation des phénomènes prosodiques dans le

discours.

Ce parcours, nous en sommes conscient, a été bien rapide, et ne fait pas justice à la

masse considérable des travaux qui ont permis la mise en évidence des fonctions et des usages

prosodiques de tous ordres ; il nous semble cependant fournir les principes et les éléments

fondamentaux dans le cadre de la description prosodique formelle et fonctionnelle des

phénomènes de discours, notamment concernant l’accentuation des expressions anaphoriques,

vers laquelle nous allons à présent nous tourner.


261

2 Accentuation et anaphore discursive

Le chapitre 4 nous avait permis de mettre en évidence le fonctionnement référentiel

discursif des expressions anaphoriques définies, démonstratives et pronominales. Dans cette

section, nous allons nous intéresser plus particulièrement au rôle joué par la prosodie, et

notamment par la primitive fonctionnelle [A] (accent) dans le fonctionnement des expressions

pronominales.

Après un rapide rappel du fonctionnement anaphorique classique de ces expressions,

nous évoquerons les liens unissant prosodie et statut informationnel ; nous focaliserons

finalement notre attention sur l’anaphore pronominale en relation avec la primitive

fonctionnelle prosodique [A] (accent).

2.1 Anaphore pronominale discursive : quelques rappels

2.1.1 Anaphore pronominale discursive et faisceaux d’indices

L’anaphore pronominale, lorsqu’elle implique des pronoms inaccentués (« clitiques »

ou « conjoints »), peut être abordée comme liée à une procédure de continuité discursive ou

« topicale » fondée sur la prorogation du statut attentionnel privilégié d’un objet de discours.

Comme nous l’avons vu au chapitre 4, le fonctionnement anaphorique pronominal

mobilise non seulement le sens conceptuel des pronoms personnels employés (genre, nombre

et humain/non-humain pour l’anglais) mais aussi des indices fournis par la proposition (le

« segment indexical ») qui les contient. Plus particulièrement, nous avons noté que le prédicat

joue notamment dans cette perspective un rôle déterminant en permettant l’assignation de

deux composants de sens à l’expression anaphorique : son statut argumental ou prédicatif et

l’ordre de l’entité désignée.

Notons pour terminer ce rappel que l’aspect, le temps et le mode du verbe recteur du

segment indexical, constituent eux aussi des éléments déterminants dans l’attribution

référentielle (cf. Cornish 1999 : pp. 83-98).

En résumé, nous avons insisté sur le fait que l’attribution référentielle dans le cadre de

l’anaphore pronominale discursive est une entreprise collaborative impliquant l’ensemble du

segment indexical, considéré comme formant un véritable faisceau d’indices : en d’autres

termes, les pronoms anaphoriques de discours ne désignent pas seuls.


262

2.1.2 Anaphore pronominale discursive et statut attentionnel des référents

Le chapitre 4 nous a aussi permis de préciser le statut attentionnel généralement associé

aux référents désignés à l’aide d’expressions anaphoriques pronominales. On se rappellera

notamment de l’échelle de codage du topique de Givón 1983 :

zero anaphora < unstressed/bound pronouns or grammatical agreement <

stressed/independent pronouns < R-Dislocated DEF-NPs < neutral ordered DEF-NPs

< L-Dislocated DEF-NPs < Y-moved NPs (‘contrastive topicalisation’) < cleft/focus

constructions < referential indefinite NPs

Figure 37 : Echelle de codage du topique selon Givón 1983.

Le gradient d’accessibilité proposé par Ariel 2000, de manière similaire, place les

expressions pronominales en position élevée, comme le rappelle la figure 38 ci-après :

zero < reflexives < poor agreement markers < rich agreement markers <

reduced/cliticized pronouns < unstressed pronouns < stressed pronouns < stressed

pronouns + gesture < proximal demonstrative (+NP) < distal demonstrative (+NP) <

proximal demonstrative (+NP) + modifier < distal demonstrative (+NP) + modifier <

first name < last name < short definite description < long definite description < full

name < full name + modifier

Figure 38 : Echelle de marquage d’accessibilité selon Ariel 2000.

Il sera intéressant de rappeler aussi que, contrairement aux autres approches, la

« Hiérarchie du donné » proposée par Gundel et al. 1993 propose de mettre les pronoms

anaphoriques en relation avec le focus d’attention, considéré comme statut attentionnel

discrétisé (on dira que le référent bénéficie d’un statut focal ; cf. figure 39 ci-dessous).

In focus > activated > familiar > uniquely identifiable > referential > type identifiable

(it) that that N the N indef this N a N

this

this N

Figure 39 : Hiérarchie du donné selon Gundel et al. 1993

(repris de Gundel et al. 2000 : pp. 81-82).

Nous terminerons ces rappels en mettant en évidence un fait particulièrement intéressant

dans la comparaison des ces différentes modélisations. Il est important de noter, en effet, que


263

les propositions de Givón 1983 et d’Ariel 2000 font toutes deux une distinction entre pronoms

inaccentués et pronoms accentués, ce qui n’est apparemment pas le cas de la proposition de

Gundel et al. 1993. A bien y regarder, cependant, une telle distinction est en réalité opérée,

même si cela semble être à l’insu des auteurs eux-mêmes. En effet, la présentation

classiquement fournie par ces trois auteurs dans leurs différents travaux est celle que nous

avons représentée ci-dessus : nous noterons que le pronom choisi pour représenter la classe

des pronoms personnels anaphoriques est « it », pronom d’ailleurs massivement analysé dans

les travaux des auteurs114. Or, comme le font remarquer Hirst (communication personnelle) et

par exemple Wolters & Byron 2000, le pronom « it » n’est généralement pas considéré

comme accentuable en anglais : on lui préfèrera alors « that », qui figure, dans la

représentation, en tête de liste pour les expressions associées au statut « activé ».

Il semblerait donc que, même si la distinction n’est pas explicite chez tous les auteurs,

une distinction entre pronoms inaccentués et pronoms accentués soit généralement effectuée :

ainsi, si l’anaphore pronominale inaccentuée semble constituer l’une des marques les plus

robustes de continuité discursive, l’effet de l’accentuation de ce type d’expression linguistique

semble influer sur son fonctionnement. C’est donc logiquement vers ce phénomène que nous

allons nous tourner à présent.

2.3 Anaphore pronominale discursive et accentuation

Avant d’aborder le problème de l’interprétation des anaphores pronominales

discursives, il nous semble intéressant, dans un premier temps, d’effectuer un rapide rappel

des principales conceptions plus générales liées au rôle de la prosodie en relation avec le

statut informationnel ou attentionnel des modèles mentaux ; c’est donc vers cette thématique

que nous nous tournons à présent.

2.3.1 Prosodie et information

La place importante de la prosodie dans le marquage de la structure informationnelle a

été reconnue dès les débuts du fonctionnalisme. On pensera à titre d’exemple à Karcevskij

1931 pour qui la prosodie « n’a rien à voir avec la grammaire » (p. 244) et est avant tout liée à

la structure informationnelle du message ; aux travaux de Daneš, inspirés de Mathesius

1929/1975, qui proposent de concevoir l’intonation comme reflétant la dichotomie

114 On notera par exemple que sur les 34 exemples impliquant des pronoms cités dans Gundel et al. 2000, plus de

80 % (28) recourent à « it » ou « that ».


264

thème/rhème ; ou encore, dans un cadre similaire, à Halliday (cf. par exemple 1967b et 1970a

et 1970b) qui propose non seulement de concevoir la prosodie comme permettant la

segmentation de la parole en unités de sens (cf. infra, § 3.2), mais aussi de faire correspondre

l’organisation prosodique de l’école britannique (cf. Palmer 1922) avec la structure

informationnelle ordonnée par défaut du donné vers le nouveau : cette approche constitue

l’une des plus influentes expliquant la mise en relation du phénomène d’accentuation (par le

biais de l’accent nucléaire) avec le statut nouveau de l’information.

Nous avons souligné dans le chapitre 3 l’importance d’une vision plus graduelle des

statuts informationnels, et, dans un cadre plus cognitif, des statuts attentionnels ; toujours est-

il que l’association de la fonction prosodique d’accent avec la nouveauté de l’information

reste aujourd’hui encore une conception répandue. La thématique semble avoir quelque peu

évolué, certes, mais l’approche théorique focus-to-accent résumée par Ladd 1996 paraît, à

quelques modifications près, proroger la vision associant l’accent à la nouveauté ou

l’importance de l’information encapsulée dans la notion de focus. Ce syncrétisme semble

d’ailleurs si ancré dans les esprits qu’il est fréquent de rencontrer dans la littérature

contemporaine le terme focus pour désigner une fonction (parfois même une forme)

prosodique liée à l’accent. Dans un cadre de ce type, Wells 1986 identifie quatre catégories

phonologiques de focus (zéro, subsidiaire, principal et contrastif) mises en relation avec

différentes configurations formelles phonético-acoustiques (pic de F0, étendue fréquentielle,

intensité, etc.). Pierrehumbert & Hirschberg 1990 représente un travail influent qui fait

l’hypothèse d’une compositionnalité du sens prosodique au sein de laquelle les accents (les

« pitch accents », plus précisément) sont mis en relation avec les croyances et l’état

attentionnel des interactants : dans ce cadre, un ton haut (H*) est supposé marquer un référent

à ajouter aux croyances mutuelles des interactants (donc nouveau), alors qu’un ton bas (L*)

marque l’information saillante, mais ne devant pas être ajoutée à ces croyances mutuelles115.

Bien évidemment, nous ne détaillerons pas ici l’immense quantité de travaux relatifs à

cette question ; il nous semble plus intéressant de souligner le fait que cette conception

associant accent et information nouvelle de manière biunivoque n’est cependant pas partagée

par tous les membres de la communauté. Nombreux sont les travaux, en effet, qui démontrent

le caractère en fait peu systématique de ce couplage ; on pourra ainsi par exemple penser à

115 Nous n’entrerons pas ici dans le détail des problèmes posés par la notion de savoir ou de croyance mutuel(le),

mais proposons de recourir à Sperber & Wilson 1989 pour une vision alternative intéressante, fondée sur le

principe de manifesteté.


265

Terken & Hirschberg 1994 qui montre que le statut informationnel ne suffit pas à expliquer

l’accentuation des expressions désignant un référent nouveau et, réciproquement, la

désaccentuation (cf. Ladd 1980 et 1996) en relation avec les référents donnés. Swerts et al.

2002, d’autre part, montre que, si le néerlandais semble effectivement associer accent et

information nouvelle, l’italien ne semble pas présenter d’association aussi stricte (et recourrait

plutôt à l’ordre des constituants), résultat qui permet de remettre en question les prétentions

universalistes d’une conception focus-to-accent stricte.

Nous retiendrons pour résumer que si une tendance certaine semble coupler statut

accentuel et statut informationnel, une mise en correspondance biunivoque universelle

constitue une hypothèse trop forte.

Si nous restons dans le cadre conventionnel, le statut des expressions pronominales

anaphoriques accentuées ne peut manquer de nous frapper. En effet, représentante typique de

la continuité discursive, l’anaphore pronominale, lorsqu’elle est accentuée, pourrait en

quelque sorte prendre les allures d’un monstre schizophrène devant à la fois marquer le donné

et le nouveau. C’est en conséquence vers cette thématique plus spécifique que nous allons

nous orienter maintenant.

2.3.2 Interprétation des anaphores pronominales accentuées

Nous avons rappelé d’une part que la signification procédurale des pronoms est, dans un

cadre cognitif, en général présentée (cf. par exemple de Mulder & Tasmowski-De Ryck 1997

dans le cadre de la référence évolutive) comme une instruction de continuité attentionnelle et

référentielle. D’autre part, nous venons d’évoquer l’affinité conventionnellement notée entre

accentuation et statut informationnel nouveau des référents. En conséquence, l’influence de

l’accent sur l’anaphore pronominale se présente comme une thématique tout aussi complexe

qu’intéressante116.

Comme nous l’avons déjà mentionné dans le chapitre 4, de nombreux auteurs

soulignent une différence de comportement des pronoms selon que ceux-ci sont accentués ou

pas. Ainsi, si les pronoms inaccentués, « clitiques » ou « conjoints » (cf. par exemple

Charolles 2002 : pp. 187ff) sont l’archétype même de ce fonctionnement de continuité, les

pronoms accentués, en revanche, semblent se comporter de manière plus complexe. Les

116 Nous ne traiterons pas ici du fonctionnement référentiel des autres types d’expressions anaphoriques en

relation avec l’accent.


266

exemples (54) ci-dessous, empruntés à Lakoff 1971, constituent un classique incontournable

de la question :

Ex (54) a. Paul called Jim a Republican. Then he insulted him.

(he-Paul / him-Jim)

b. Paul called Jim a Republican. Then HE insulted HIM.

(HE-Jim / HIM-Paul)

En (54b), l’accentuation des pronoms « he » et « him » (marquée par les majuscules)

induit une différence d’interprétation qui inverse l’attribution effectuée dans la version

inaccentuée (54a).

Nous allons à présent détailler quelques approches théoriques de ce type de

phénomènes ; les choix sont nombreux, mais, dans un souci de cohérence avec les modèles

présentés aux chapitres 3 et 4, nous nous placerons à nouveau dans le cadre de la Théorie du

Centrage (« CT ») qui se propose entre autres aspects de rendre compte du fonctionnement

des expressions pronominales anaphoriques non seulement inaccentuées, mais aussi

accentuées. CT présente aussi l’avantage de permettre l’expression de différentes conceptions

dont nous allons à présent donner les points clés.

Le modèle pragmatique total de Kameyama

Une première approche de l’interprétation des anaphores pronominales accentuées est à

trouver dans les travaux de Kameyama (cf. notamment 1994, repris dans Kameyama 1997).

La conformité de cette approche avec les principes localistes de travaux tels que par exemple

Brennan et al. 1987 constitue l’une des particularités fondamentales de la conception

développée par Kameyama.

Reprenant la totalité de l’appareillage conceptuel et formel de CT, Kameyama 1994

propose d’appréhender la référence des pronoms anaphoriques accentués à partir de celle de

leur version inaccentuée ; cette conception trouve son expression la plus explicite dans un

ensemble de trois hypothèses (ibid. : pp. 315ff) :

• Hypothesis 1: Given the range β of felicitous uses of unstressed pronouns in

discourse and the range α of felicitous uses of their stressed counterparts, α ⊂ β.


267

• Hypothesis 2: A focused pronoun takes the complementary preference of the

unstressed counterpart.

• Hypothesis 3: Stressed and unstressed counterparts choose their values from the

same salient subset of the domain of individuals (i.e., F = B).

La première hypothèse fait sens dans le cadre de la « pragmatique totale » proposée par

l’auteur qui intègre à la fois des aspects de la sémantique de Rooth 1992 (« restricted

alternative semantics ») et les aspects pragmatico-cognitifs de CT ; l’interprétation des

anaphores pronominale est ainsi modélisée comme un ensemble de routines assimilées à des

contraintes pragmatiques : dans ce contexte, α est l’ensemble des routines liées à

l’interprétation des pronoms accentués et β celui des routines liées à l’interprétation des

pronoms inaccentués ; α contenant une routine de plus que β, l’hypothèse 1 revient à postuler

que chaque fois qu’un pronom anaphorique accentué peut apparaître, un pronom inaccentué

aurait aussi pu être employé, mais que l’inverse n’est pas vrai ; en d’autres termes, on ne peut

pas, selon l’auteur, accentuer les pronoms dans toutes les circonstances et l’interprétation de

base (la moins contrainte) est liée aux pronoms inaccentués. L’exemple (55) ci-après (adpaté

de l’exemple (4) de Kameyama 1994) illustre ce fait :

Ex (55) Babar went to a bakery. {he | ??HE} pointed at a blueberry pie.

Dans cet exemple, l’absence de contexte posant un questionnement du type « Who

pointed at a blueberry pie ? » ou une proposition contrastive telle que « Someone did not

point at a blueberry pie. » empêche selon l’auteur l’application de la routine supplémentaire

liée au pronom accentué, rendant ce dernier plus difficilement acceptable.

On comprend mieux, dans ce cadre la seconde hypothèse, plus connue sous le nom

d’« Hypothèse de Préférence Complémentaire » (« Complementary Preference Hypothesis »

ou « CPH ») qui précise que l’interprétation d’un pronom anaphorique accentué se fera en

prenant le complémentaire de l’ensemble lié au pronom inaccentué qui aurait pu être produit à

la place.

La troisième hypothèse est reliée aux principes de CT ; nous dirons schématiquement

qu’elle propose d’identifier l’ensemble saillant de référents potentiels avec les centres

prospectifs Cf de l’énoncé précédent (cf. chapitre 4 pour le concept de centre dans le cadre de

CT).


268

L’Hypothèse de Préférence Complémentaire consiste ainsi, lorsqu’un pronom

anaphorique accentué est rencontré, à identifier le référent de sa contrepartie inaccentuée

selon les principes de CT, avant de prendre le référent « complémentaire » au sein des Cf

syntaxiquement et sémantiquement compatibles.

Ces concepts généraux étant posés, analysons notre exemple 54 dans le cadre de

l’approche proposée par Kameyama117 :

• (54a), cas inaccentué :

o Premier énoncé (54a-e1) : Cf (e1) [PAUL > JIM]

o Second énoncé (54a-e2) : [PAUL, « he »] et [JIM, « him »]

• (54b), cas accentué :

o Premier énoncé (54b-e1) : Cf (e1) [PAUL > JIM]

o Second énoncé (54b-e2) : [PAUL, « he »] et [JIM, « him »]

o Après CPH : Cb (e2) [JIM, « HE »] et [PAUL, « HIM »]

Examinons un cas d’anaphore pronominale accentuée sans ambiguïté :

Ex (56) Jack and Mary are good friends. {he | ??HE} is from Louisiana.

L’exemple (56) (exemple (9) de Kameyama 1994), est interprété par l’auteur comme

impliquant, étant données les contraintes syntaxiques et sémantiques de restriction utilisées,

un ensemble de référents potentiels réduit à un singleton [JACK] ; le complémentaire d’un tel

ensemble étant cet ensemble même, les interprétations du pronom accentué et du pronom

inaccentué sont donc prédites identiques en vertu de CPH, ce qui est conforme à l’intuition.

Il est cependant important de noter avec De Hoop 2003 que l’accentuation du pronom

« HE » dans (56) induit en fait un contraste entre les origines de « Jack » et celles de

« Mary », comparable au contraste explicite de l’exemple (57) emprunté à Bosch 1983 :

Ex (57) When the Smiths arrived, HE waited in the car and SHE rang the bell.

Cette relative incapacité de l’approche de Kameyama 1994 à rendre compte de

phénomènes liés à l’interprétation du discours à une échelle plus globale constitue une

117 Nous suterons ici les étapes de l’attribution référentielle selon CT pour les pronoms inaccentués.


269

limitation dont les travaux de Nakatani ont pour objectif de se départir ; c’est donc vers ce

second type d’approche intégrée à CT que nous allons nous tourner maintenant.

Le modèle des états attentionnels local et global de Nakatani

Tout comme l’approche de Kameyama 1994, les propositions de C. Nakatani 1997a et

1997b s’intègrent dans le cadre de CT. Plus particulièrement, Nakatani propose de tirer partie

des deux niveaux attentionnels proposés dès Grosz & Sidner 1986 dans le cadre de

l’interprétation des pronoms anaphoriques accentués.

Rappelons (cf. chapitre 3) que l’état attentionnel est représenté dans Grosz & Sidner

1986 sous la forme d’une pile d’espaces focaux regroupant les entités saillantes à un moment

donné du déroulement du discours ; chaque espace focal correspond à un segment de discours

et les structurations hiérarchique et séquentielle des segments sont représentées par

l’empilement des espaces focaux que gèrent trois mouvements fondamentaux (Nakatani

1997b : p. 659) :

• l’« empilement strict » (« push-only move ») qui est lié à l’initialisation d’un nouveau

segment de discours enchâssé dans le segment actuel et se modélise à l’aide de l’ajout

d’un espace focal sur l’espace focal du segment enchâssant ;

• le « dépilement strict » (« pop-only move »), symétrique du précédent, qui correspond

à la fin d’un segment de discours enchâssé et se modélise par la suppression de

l’espace focal afférent de la pile, et donc la prise en compte de l’espace focal du

segment de discours enchâssant comme espace focal immédiat ;

• le « dépilement-empilement » (« pop-push move ») qui correspond à la transition entre

deux segments de discours A et B de même niveau et se modélise par la suppression

de l’espace focal lié à A et l’ajout de l’espace focal lié à B.

L’approche de Nakatani 1997b s’appuie de plus sur trois principes majeurs (cf. ibid. :

pp. 72-73):

• le premier principe, conforme aux différentes hiérarchies informationnelles ou

attentionnelles que nous avons rappelées, précise que la forme d’une expression

référentielle indique son niveau de traitement ; les pronoms seront ainsi considérés

comme indiquant un traitement attentionnel local, alors que les formes lexicales

pleines indiquent un traitement plus global ;


270

• le second principe est relatif à la fonction grammaticale des expressions référentielles :

conformément aux principes évoqués pour CT, la position de sujet, notamment,

constitue un élément favorisant fortement le positionnement en tête des Cf (donc en

tant que Cp) ; la position d’objet direct favorise la seconde position des Cf.

• Le troisième principe, proposition originale de l’auteur par rapport aux concepts de

CT, est relatif à l’influence de l’accentuation (« intonational prominence ») sur

l’interprétation des expressions anaphoriques ; dans ce cadre, l’accentuation constitue

un indice inférentiel pour un changement attentionnel en direction d’un nouveau Cb,

alors que l’absence d’accent constitue un indice inférentiel de maintien de l’attention.

S’appuyant sur ces éléments, Nakatani 1997b propose un algorithme d’interprétation

anaphorique qui prend en entrée d’une part les expressions anaphoriques accompagnées des

informations relatives à leur forme lexicale, leur fonction grammaticale et leur statut

accentuel et d’autre part l’état attentionnel immédiat, représenté au niveau global par la pile

attentionnelle et au niveau local par l’espace focal immédiat et ses centres Cb et Cf ; la sortie

de l’algorithme consiste en une mise à jour de l’état attentionnel précisant les référents des

expressions traitées.

Analysons l’exemple (58) ci-dessous, proposé par Nakatani 1997b (p. 75) et extrait d’un

corpus de parole spontanée :

Ex (58) (a) They all put FREUD on a pedestal

(b) HE is an icon okay

(c) HE can do no wrong

L’énoncé (58a) comporte les centres prospectifs réalisés par « They » et « FREUD » ;

étant donné que « They » est un pronom, on tire de la règle 2 de CT que Cb (58a) [ ?,

« They »].

Le pronom accentué « HE » de (58b) réalise FREUD, entité présente dans l’espace

focal, mais pas au premier rang. L’algorithme prévoit alors que l’accentuation de « HE » dans

(58b) indique un empilement strict conduisant à l’ajout d’un espace focal 58b sur la pile

attentionnelle, espace focal au sein duquel Cp (58b) [FREUD, « HE »] ; de plus (58b) ne

comportant qu’un seul centre, on a donc nécessairement Cb (58b) [FREUD].


271

Le pronom accentué « HE » de (58c) réalise quant à lui Cb (58b) [FREUD] ;

l’algorithme recherche alors un contexte emphatique ou contrastif (ibid. : p. 76) et ajoute le

centre au sommet de la liste des Cf (donc en tant que Cp).

Nous noterons pour terminer cette rapide étude que la proposition de Nakatani 1997b,

tout en s’intégrant de manière élégante dans CT, semble palier certains des problèmes

rencontrés par l’approche de Kameyama 1994, notamment concernant la prise en compte plus

globale du discours et les implicatures (interprétation contrastive ou emphatique) récupérables

par inférence à partir de l’accentuation.

Nous noterons cependant que cette conformité extrême avec CT ne va pas sans poser

quelques problèmes, notamment concernant l’interprétation des deux premiers énoncés d’un

discours. L’un des premiers tests effectués dans le cadre de l’interprétation d’un pronom

anaphorique objet (accentué ou pas) consiste en effet à vérifier le Cb de l’énoncé précédent, ce

qui est évidemment impossible dans le cas du premier énoncé (qui n’est par définition précédé

par aucun autre énoncé), et du second (car le premier énoncé n’a pas de Cb).

Remarquons pour conclure que l’ensemble des approches évoquées souffre d’une

importante sous-détermination prosodique ; en conséquence, nous allons terminer cette

rubrique par quelques remarques relatives à ce sujet.

Pour une meilleure caractérisation prosodique de l’accent dans l’anaphore

La plupart des études traitant de l’interprétation de l’anaphore pronominale discursive

utilisent les termes « focus », « stress », « accent », « contrastive accent » ou « emphatic

accent » généralement sans expliciter la nature exacte du phénomène prosodique qu’elles se

proposent d’analyser.

Nous avons pu remarquer que, de manière générale, une distinction binaire est opérée

entre présence et absence d’un accent sur une expression donnée. La démarche fonctionnelle

que nous avons esquissée, cependant laisse envisager une opposition plus riche entre les

primitives prosodiques relatives à l’accentuation ; ainsi, même si l’on exclut le trait

[nucléaire] moins consensuel, il nous semble intéressant d’affiner l’opposition classique entre

les deux valeurs du trait [A] et de proposer la prise en compte du trait secondaire

[emphatique]. On aurait dès lors la possibilité d’une double opposition, d’une part entre

accentué [A+] et inaccentué [A-], et d’autre part entre accentué non emphatique [A+

(emphatique-)] et accentué emphatique [A+ (emphatique+)].


272

Il nous semble que cette distinction fonctionnelle supplémentaire, notamment intégrée à

l’entrée de l’algorithme proposé par Nakatani 1997b, permettrait une simplification notable

du processus d’interprétation anaphorique des pronoms « accentués ».

Notons aussi pour conclure qu’une caractérisation formelle fait cruellement défaut dans

nombre d’analyses de l’anaphore pronominale accentuée. Si des travaux prennent le parti

d’analyser la forme du « pitch accent » en relation avec le fonctionnement référentiel discursif

d’expressions définies (cf. par exemple Bard & Aylett 1999 ou Baumann & Grice 2004), il est

important de noter que les formes accentuelles de l’anaphore pronominale semblent en

quelque sorte négligées.

2.3 Synthèse

Cette seconde section nous a permis de rappeler les principes fondamentaux du

fonctionnement anaphorique discursif des expressions pronominales ; nous avons notamment

souligné que, si l’anaphore pronominale inaccentuée constitue une garantie robuste de

continuité discursive, tel n’est pas le cas de sa contrepartie accentuée.

Dans un deuxième temps, nous avons évoqué l’association classique entre accentuation

et information nouvelle ; nous avons cependant mentionné que, si ce cadre général semble

indiquer une tendance relativement consensuelle, nombreuses sont les exceptions qui

semblent suggérer une meilleure analyse indépendante des formes et des fonctions

impliquées.

Nous nous sommes livrés, finalement, à une rapide étude de quelques approches

proposant de traiter l’attribution référentielle spécifique aux expressions pronominales

anaphoriques accentuées dans le cadre de CT. Nous avons ainsi pu montrer l’intérêt et les

limites de ces approches, notamment en relation avec une sous détermination prosodique

flagrante.

Nous retiendrons principalement de cette section que la prosodie semble non seulement

pouvoir jouer un rôle indépendant dans le marquage de la structuration informationnelle dans

le discours, mais aussi interagir avec d’autres phénomènes, et notamment l’interprétation des

anaphores pronominales.

Nous allons à présent terminer ce chapitre par une étude plus détaillée du rôle de la

prosodie dans l’organisation discursive, thème qui constitue l’un des aspects fondamentaux de


273

cette thèse, et qui sera plus abordé de manière expérimentale dans la dernière partie de ce

travail.

3 Prosodie et structure discursive

Parmi les fonctions prosodiques les plus consensuelles, une « fonction discursive »

figure généralement en bonne position. Cette fonction est en réalité composée d’un ensemble

de fonctions prosodiques relatives à la segmentation et à la structuration du texte et de

l’interaction discursive (cf. Couper-Kuhlen 1986 : chap. XI).

Un autre type de position est à trouver chez Wichmann 2000 (p. 13) qui propose

d’analyser de manière distincte le « discours » entendu comme monologue et la

« conversation » en tant que forme interactive. On retrouve ici la séparation classique entre

analyse du discours et analyse de la conversation.

Nombre de travaux proposent cependant une distinction moins marquée entre le

discours et la conversation. En effet, la conversation peut être reconnue comme le prototype

fondamental de la communication langagière (cf. Levinson 1983 : pp. 286ff), argument utilisé

par certains pour la distinguer du discours-monologue, rejeté au rang d’épiphénomène ; un

position moins tranchée consiste à adopter une approche bakhtinienne qui, prônant le

caractère fondamentalement dialogique de toute production langagière, favorise une égalité de

traitement du discours-monologue et de la conversation : cette position est particulièrement

mise en évidence par le Modèle Genevois (Roulet et al. 1985 et 2001 ; cf. chapitre 3, § 2.2

pour une présentation sommaire) qui, bien que se présentant comme « modèle d’analyse du

discours », consacre la majeure partie de ses analyses à la conversation. De plus, on pourrait

aussi considérer que si la conversation, d’une certaine manière, préexiste au concept de

discours, elle n’en est cependant pas moins influencée en retour, notamment dans ses

manifestations plus formelles (dans un cadre professionnel par exemple), par les critères de

forme généralement attribués au discours monologué.

En conséquence, nous proposons de ne pas dissocier l’analyse du discours de celle de la

conversation au sens de Wichmann 2000 : les approches, les méthodes et les concepts

traditionnellement proposés par l’analyse du discours et par l’analyse de la conversation, nous

en sommes conscient, sont parfois difficilement compatibles ; nous tenterons néanmoins de

montrer certaines similitudes dans les usages prosodiques relatifs à la segmentation et à la

structuration de l’activité langagière.


274

Plus particulièrement, nous nous attacherons, après une présentation des unités

d’analyse retenues, à l’étude des marques prosodiques associées au marquage de la continuité

et de la discontinuité discursives118. La pertinence d’une telle approche, cependant, est

intimement liée à l’indépendance de la structuration prosodique vis-à-vis de la syntaxe, autre

niveau structurant du discours ; c’est donc tout d’abord vers cette thématique que nous allons

nous tourner.

3.1 Organisation prosodique : indépendance partielle par rapport à la syntaxe

L’organisation discursive est généralement étudiée en relation avec une organisation à

plusieurs niveaux de l’analyse linguistique, notamment aux niveaux prosodique et syntaxique.

La démarche que nous proposons d’adopter ici, fondée sur l’analyse des configurations

prosodiques associées notamment aux frontières d’unités prosodiques, n’a d’intérêt que dans

la mesure où l’organisation syntaxique n’épuise pas à elle seule celle du discours. Nous allons

en conséquence proposer dans la suite de ce travail une conception intermédiaire entre les

positions extrêmes prônant une dépendance ou une autonomie totale de la prosodie par

rapport à la syntaxe.

118 Notions que nous préfèrerons à la cohésion dont nous avons montré qu’elle posait problème.


275

3.1.1 Prosodie et syntaxe : conceptions divergentes

Nous l’avons mentionné lors du chapitre précédent, la prosodie, et plus particulièrement

la segmentation prosodique, a souvent été analysée (et continue souvent à l’être) en liaison

étroite avec la syntaxe (cf. par exemple l’« énoncé phonologique » de Nespor & Vogel 1986).

A l’opposé de cette conception se situent des approches telles que celles de Bolinger

1972 ou de Couper-Kuhlen 1986 qui prônent une indépendance totale des deux niveaux, et

(respectivement) l’impossibilité de prédire le placement des accents et des frontières

prosodiques sur la base de la structure syntaxique.

Concernant les frontières, une position médiane est à trouver par exemple dans les

travaux de Hirst (cf. notamment 1987, 1993 et 1998) qui présente la structure syntaxique

comme un canevas pour le placement de potentielles frontières prosodiques :

« While pragmatic and phonological constraints are obviously the ultimate criteria by which a

speaker decides where he will place a boundary, syntactic criteria define where these boundaries

may occur. » (Hirst 1998 : p. 70)

La nature détaillée des relations prosodie-syntaxe dépasse certainement le cadre de ce

travail, et pose, en définitive, la question de la place de la prosodie au sein du processus de

production de la parole. Comme le rappelle Hirst et al. 2000, l’une des questions

fondamentales concerne l’accès des représentations phonologiques (notamment prosodiques)

aux représentations syntaxiques et sémantiques.

Une approche répandue (cf. par exemple Chomsky 1981 ; Levelt 1989) consiste à

considérer que la composante phonologique intervient en production en quelque sorte

« après » la composante syntaxique, et n’entretient donc qu’indirectement des relations avec

la sémantique. Cette situation est représentée dans la figure 40 ci-après.


276

Figure 40 : Positions relatives des représentations sémantique, syntaxique et phonologique

d'après Hirst et al. 2000. La phonologie n’accède ici qu’indirectement à la sémantique par

l’intermédiaire de la syntaxe.

Une autre conception est à trouver dans les travaux tels que ceux de Selkirk (cf. 1986).

Dans ce type d’approche, la composante phonologique est en relation directe avec les

composantes sémantique et syntaxique, comme le représente la figure 41 ci-dessous.


selon Hirst et al. 2000. La phonologie accède ici à la fois à la sémantique et à la syntaxe.

Dans le cadre de l’analyse cognitive de la production de parole, cette vision se heurte

cependant à un problème important : présenter la composante phonologique, notamment

prosodique en ce qui nous concerne, comme interagissant à la fois avec la composante

sémantique (voire sémantico-pragmatique) et avec la composante syntaxique revient à nier en

partie la spécialisation de cette composante (cf. Levelt 1989 : pp. 14ff). Généralisée, une telle

position équivaudrait à postuler un système complexe au sein duquel chaque composante

aurait pour entrée l’ensemble des informations des autres composantes et génèrerait une sortie


277

spécifique ; ce type de conception massivement interactive, sous-jacent dans les travaux du

groupe ProDiGE (cf. Di Cristo et al. à paraître) au sein duquel nous travaillons, s’inscrit dans

une rupture avec la vision modulariste stricte proposée par Fodor 1983 et rejette le principe

d’encapsulation de l’information tout autant que celui de spécialisation des modules.

3.1.2 Prosodie bipartite et indépendance relative avec la syntaxe

Une autre solution, moins exigeante en terme de coût de traitement, consiste à postuler

un schéma relationnel fondé sur la conception bipartite de la prosodie que nous avons

proposée au chapitre précédent. On peut en effet proposer que l’espace métrique, plus abstrait

que les espaces prosodiques ancrés substance (espaces fréquentiel, d’intensité, de durée et

spectral) est la sous-composante prosodique chargée des relations avec la composante

syntaxique : fondé sur les fonctions d’accentuation et de frontière, l’espace métrique

constituerait ainsi la partie syntaxique (structurante) de la prosodie et se positionnerait, au sein

du modèle de Levelt 1989, « après » la composante syntaxique au sein du « formulateur ».

On peut d’autre part postuler que les autres espaces prosodiques sont en relation

indirecte avec la composante syntaxique, l’espace métrique jouant le rôle d’interface de

traduction des commandes d’accentuation et de frontière en représentations phonologiques

profondes. De plus, on pourra aussi faire l’hypothèse que ces espaces prosodiques sont en

relation directe avec les informations sémantico-pragmatiques, permettant ainsi la génération

d’instructions associées notamment aux dimensions localisantes (niveau et étendue

fréquentiels, débit, domaine d’intensité, etc.).

La figure 42 ci-après représente schématiquement cette proposition.


278

Figure 42 : Positions relatives des représentations sémantique, syntaxique et prosodique. La

prosodie accède ici à la fois à la sémantique et à la syntaxe,

mais chaque sous-composante est spécialisée.

Ainsi, contrairement au modèle standard, la prosodie accède à la fois aux informations

sémantiques et aux informations syntaxiques ; de plus, la bipartition de la composante

prosodique que nous proposons permet une mise en correspondance spécifique de la

composante syntaxique avec l’espace métrique et de la composante sémantico-pragmatique

avec les espaces prosodiques ancrés substance. Nous noterons cependant que cette proposition

pourrait sembler repousser d’un niveau le problème de la non spécificité de la composante

prosodique : ainsi, si l’espace métrique se voit en effet attribuer une unique entrée, les autres

espaces prosodiques reçoivent des informations en provenance non seulement de l’espace

métrique mais aussi de la composante sémantico-pragmatique.

Ce problème de non spécificité de la sous-composante prosodique non métrique peut

cependant être résolu si l’on prend en considération le fait que les instructions émanant de

l’espace métrique et celles de la composante sémantico-pragmatique appartiennent en fait à

des dimensions certes distinctes, mais unies par une relation de dépendance mutuelle (cf.

chapitre précédent) que nous proposons de ré-analyser dans une démarche unificatrice en

relation avec une distinction en termes de domaines d’applications.

La nature ponctuelle des proéminences et des frontières liées à l’espace métrique nous

pousse à les classer parmi les phénomènes constitutifs des dimensions prosodiques localisées,

par opposition à la nature par définition plus durable des dimensions localisantes. Nous

Sém / Prag Syntaxe

Espace métrique

Espaces fréquentiel, d’intensité, de durée et

spectral

Prosodie


279

proposons de dépasser cette distinction, justifiée à un niveau superficiel. Plus précisément,

notre démarche actuelle consiste à proposer l’extension des valeurs catégorielles que nous

avons proposées depuis Portes et al. 2002 concernant le niveau et l’étendue fréquentielles :

• Niveau fréquentiel : N (« normal »), R (« raised ») et L (« lowered ») ; nous utiliserons

respectivement dans le reste de ce travail les symboles N (normal), > (augmenté) et <

(diminué).

• Etendue fréquentielle : N (« normal »), E (« extended ») et R (« reduced ») ; nous

utiliserons ici les symboles N (normale), > (augmentée) et < (diminuée)119.

Nous proposons d’appliquer ces valeurs à la représentation phonologique de surface de

la dimension fréquentielle localisée ; ainsi, si l’on s’appuie sur les tons proposés par le

système INTSINT (Hirst & Di Cristo 1998), on peut obtenir la matrice de valeurs suivante :

Tons M S D U L H B T

Niveau N copie < > < > < >

Etendue N < < < N N > >

Tableau 4 : Spécifications des valeurs des traits niveau et étendue pour les tons INTSINT.

On retrouve là le type d’approche proposée par nombre d’auteurs depuis le début des

années 1960 concernant la représentation des tons à l’aide de traits prosodiques (on pensera

notamment à Gruber 1964, Wang 1967, Chomsky & Halle 1968, Sampson 1969, Woo 1969,

Maddieson 1971, Fromkin 1972, Yip 1980 ou encore Pulleyblank 1986, cités dans Hirst 1987

qui détaille les systèmes proposés dans ces travaux120). De manière schématique, notre

proposition revient à caractériser un ton D (respectivement U) par un niveau diminué

(respectivement augmenté) et une étendue diminuée ; de manière similaire, un ton L

(respectivement H) sera caractérisé par un niveau diminué (respectivement augmenté) et une

étendue normale ; le caractère absolu des tons B (« Bottom ») et T (« Top »), finalement, est

119 Nous noterons que les valeurs marquées « augmenté(e) » et « diminué(e) », communes aux deux traits,

peuvent être glosées par « élevé » et « abaissé » pour le niveau fréquentiel et par « amplifiée » et « réduite » pour

l’étendue fréquentielle. 120 Nous noterons que ces travaux utilisent majoritairement un ensemble de trois traits binaires, alors que nous

avons recours à deux traits ternaires (une valeur non marquée et deux valeurs marquées).


280

lié à la spécification de la valeur > (augmentée) du trait d’étendue fréquentielle, qui représente

ici une incursion importante conduisant dans les parties extrêmes du registre du locuteur.

Il semble ainsi possible de rendre compte des dimensions fréquentielles localisée et

localisantes à l’aide des traits de niveau et d’étendue fréquentiels : à titre d’exemple, on

pourra considérer qu’à l’intérieur d’une « parenthèse basse », caractérisée par les valeurs

(durables) [niveau diminué] et [étendue diminuée], un ton D présente lui aussi les valeurs

(ponctuelles cette fois-ci) [niveau diminué] et [étendue diminuée]. La différence entre

dimension localisée et dimension localisante pourra alors être mise en relation avec le

caractère respectivement ponctuel ou durable d’une valeur pour ces deux traits

fondamentaux : une incursion ponctuelle (pour une unique cible tonale) dans la partie

suraiguë du registre du locuteur pourra par exemple être interprétée comme une cible T

réalisant un accent emphatique, alors que la même incursion, prolongée sur un ensemble de

cibles tonales pourra être interprétée par exemple comme un changement de niveau si les tons

L et D sont eux aussi durablement marqués par la valeur [niveau augmenté].

Bien que notre objectif ne soit pas de détailler cette proposition, nous pensons qu’une

adaptation de cette démarche aux autres espaces prosodiques ancrés substance semble

envisageable. Concernant l’espace d’intensité, dont on peut postuler qu’il adopte une structure

identique à celle de l’espace fréquentiel, un transfert direct nous semble possible : en effet, les

variations d’intensité peuvent être représentées de manière similaire à celles de l’espace

fréquentiel, et envisager deux dimensions localisantes (niveau et étendue d’intensité) ne paraît

pas irréaliste ; les réserves (relatives à l’analyse linguistique du paramètre d’intensité) que

nous avons formulées lors du précédent chapitre sont néanmoins toujours de rigueur et nous

ne développerons pas ici pour l’instant cette thématique.

L’espace de durée semble lui aussi pouvoir être conceptualisé dans le cadre que nous

proposons ; nous noterons cependant deux différences principales :

• D’une part, comme nous l’avons précisé dans le chapitre précédent, les phénomènes

de l’espace temporel semblent pouvoir être expliqués par un recours à une dimension

localisée (durée des unités) au sein d’une unique dimension localisante (le débit, ou

« vitesse d’élocution », dérivée par rapport au temps de la distance exprimée en unités

phonologiques) ; ainsi si, une approche physique (mécanique) du phénomène nous

permet de postuler l’existence d’une seconde dimension localisante (l’« accélération »,

dérivée de la vitesse par rapport au temps), la pertinence de cette dernière dans le


281

cadre d’analyses prosodiques n’a pas à notre connaissance été démontrée. En

conséquence, nous n’adopterons pas ici d’autre dimension localisante que le débit,

bien que notre cadre permette l’éventuelle intégration de la dimension

« accélération » ;

• D’autre part, nous noterons que les relations unissant les dimensions localisées et

localisantes pour les espaces fréquentiel et d’intensité sont directement

proportionnelles : par exemple, une augmentation ponctuelle d’étendue fréquentielle,

liée à la valeur [augmenté], peut être perçue comme l’attribution de cette même valeur

[augmenté] à une cible tonale. L’espace de durée, pour des raisons physiques

évidentes, est a contrario caractérisé par une relation inversement proportionnelle :

ainsi, une augmentation de débit (valeur [augmenté]) correspond en fait

nécessairement à une diminution de la durée des unités phonologiques considérées

(valeur [diminué]). Ce type de relation restant toujours proportionnel du fait de

l’interdépendance des dimensions localisées et localisantes, ne remet pas en cause le

mode de représentation proposé ici.

L’espace spectral, finalement, paraît plus difficilement compatible avec le cadre que

nous proposons : la raison principale de ce fait est à trouver dans l’actuelle rupture de

correspondance entre le niveau phonétique (cf. par exemple les paramètres continus tels que

le NAQ ou le coefficient d’ouverture) et un niveau phonologique de représentation. Pour

l’instant, nous laisserons de côté cette thématique qui mériterait, à elle seule, de nombreux

travaux et focaliserons notre attention sur les trois autres espaces prosodiques ancrés

substance.

Le cadre que nous proposons nous permet de postuler une spécialisation de la sous-

composante prosodique non métrique, caractérisée par l’interprétation d’informations

sémantico-pragmatiques et métriques exprimées à l’aide de traits et de valeurs identiques,

mais au sein de deux domaines d’application distincts (généralement respectivement durable

ou ponctuel). Nous considérerons donc pour conclure ce point que la composante prosodique,

tout en étant spécialisée, entretient des relations parallèles, par l’intermédiaire de ses deux

sous-composantes, avec les composantes sémantico-pragmatique et syntaxique et ne peut

donc pas être considérée comme exclusivement en correspondance avec cette dernière.


282

3.2 Prosodie et segmentation discursive

3.2.1Niveau de l’unité intonative

Nous venons de proposer de rejeter la position proposant une relation bijective entre

structure syntaxique et prosodie, cette dernière ayant un accès direct à d’autres sources

d’informations ; en conséquence, nous allons à présent nous intéresser à la constituance

hiérarchique propre à la prosodie.

Concernant l’anglais, nous nous placerons dans le prolongement de la tradition

britannique en considérant l’unité rythmique (ou « pied » ; cf. Abercrombie 1964 ou,

préférentiellement, Jassem 1952121) comme le premier niveau de constituance prosodique au

delà de la syllabe. L’unité intonative, définie comme un regroupement d’unités rythmiques

comportant un accent nucléaire (cf. Halliday 1967 et 1970), constitue l’unité prosodique

consensuelle maximale (cf. Hirst 1998).

L’approche proposée pour le français par Hirst & Di Cristo 1996 et Di Cristo 1998 et

2002 propose elle aussi un niveau de constituance « unité intonative », regroupant un

ensemble d’unités minimales, dites « unités tonales », bornées à droite par un accent (primaire

ou secondaire)122.

Souvenons-nous (cf. chapitre 3) que c’est sans doute l’approche informationnelle qui a

constitué une charnière entre la conception strictement structuraliste du texte et la conception

cognitive du discours ; de manière comparable, on pourra aborder la question de la

segmentation prosodique du discours par le biais de la dimension informationnelle de l’unité

intonative, définie comme « unité d’information » ou « groupe de sens » (cf. Kingdon 1958 ;

Halliday 1970 ; Selkirk 1984) :

« […] the tone group is a meaningful unit in its own right. The tone group is one unit of

information, one ‘block’ in the message that the speaker is communicating; and so it can be of any

length. » (Halliday 1970 : p. 3)

121 Le lecteur pourra trouver dans Bouzon 2004 une étude comparative approfondie de ces deux modèles, et

notamment de leur qualité prédictive concernant la distribution des durées segmentales. 122 Le modèle proposé comporte aussi unité intermédiaire, le « mot prosodique », bornée à droite par un accent

primaire (une proéminence fréquentielle couplée à une proéminence de durée). Nous ne nous attacherons pas ici

à l’étude détaillée de ce type d’unité que l’on retrouve fréquemment dans la littérature (cf. par exemple Martin

1977,


283

Il n’est pas étonnant, dès lors, de voir les unités intonatives jouer un rôle déterminant

dans la segmentation du discours, quelle que soit l’approche adoptée ; on pensera dans ce

contexte à l’identification des unités de la macro-syntaxe (cf. Blanche-Benveniste et al.

1990 (p. 114) pour la macro-syntaxe proposée par le GARS à Aix-en-Provence ; Delais-

Roussarie & Choi-Jonin 2004), des segments de discours du modèle de Grosz & Sidner

(1986 : pp. 177-178), des actes et des interventions du Modèle Genevois (cf. Simon 2004 :

chap. 3) ou encore des segments de tour (« turn constructional units ») des approches

conversationnalistes (cf. Auer 1996).

Nous considèrerons dès lors que l’unité intonative constitue un premier niveau

prosodique de segmentation discursive, ce qui justifie l’étude de ses caractéristiques formelles

et fonctionnelles dans la suite de ce travail.

3.2.2 Structure prosodique au-delà de l’unité intonative

Un second niveau de structuration, moins consensuel que le précédent, est généralement

identifié. Par exemple, la hiérarchie proposée par Navarro 1997 (cité dans Simon 2004) place

l’unité intonative à la base d’une hiérarchie comportant un total de quatre unités123 :

• l’unité intonative, identifiée par la présence d’un accent nucléaire ;

• l’unité définie par une pause, pouvant regrouper plusieurs unités intonatives ;

• l’énoncé, lié à la présence d’une pause et à la réalisation d’un acte illocutionnaire ;

• le paraton, généralement identifié sur la base d’une pause prolongée, d’une chute de

sonie, et d’un ton terminal (infra-) bas ; cette unité est généralement le domaine de

développement d’un topique discursif (cf. Yule 1980 ; Brown & Yule 1983).

Sans entrer dans une analyse détaillée de cette structure, nous noterons avec Simon

2004 (pp. 85-86) que seules les deux premières unités (l’unité intonative et l’unité définie par

une pause) semblent être définies de manière strictement prosodique, les deux autres faisant

appel à des notions pragmatique (illocutionnaire) ou discursive (topique).

Le paraton est une unité proposée à l’origine par A. Fox 1973 et 1984124 sous

l’appellation « paratone-group » ; l’une de ses définitions les plus répandues est néanmoins à

trouver dans Brown & Yule 1983 qui le présente comme un équivalent oral de la notion

123 La présentation donnée ici est tirée de Simon 2004 (pp. 85-87). 124 Brown 1977 semble être une autre source indépendante pour ce concept (cf. Wichmann 2000 : p. 105).


284

typographique de paragraphe (l’équivalent « speech paragraph » est proposé p. 100). Selon les

auteurs, le paragraphe et le paraton, dont les bornes sont relativement aisément identifiables,

constituent le lieu privilégié de développement d’un topique discursif ; cependant, il est

important de noter que c’est la nature évanescente du concept de topique discursif (même

dans sa version centrée sur le locuteur ou « speaker topic ») qui pousse les auteurs à proposer

l’identification des bornes de paragraphe et, par extension à l’oral, de paraton afin de

délimiter les topiques125 :

« It has been suggested […] that instead of undertaking the difficult task of attempting to define

‘what a topic is’, we should concentrate on describing what we recognise as topic-shift. That is,

between two contiguous pieces of discourse which are intuitively considered to have two different

‘topics’, there should be a point at which the shift from one topic to the next is marked. If we can

characterise this marking of topic-shift, then we shall have found a structural basis for dividing up

stretches of discourse into a series of smaller units, each on a separate topic. » (Brown & Yule

1983 : pp. 94-95)

La conception du paraton que nous venons de présenter correspond en fait au « paraton

majeur » proposé par Yule 1980, caractérisé par un marquage prosodique bipolaire (début et

fin). Il est important de noter que l’auteur propose aussi une unité intermédiaire entre le

paraton majeur et l’unité intonative, le « paraton mineur », dont seule la fin serait marquée (cf.

Couper-Kuhlen 1986 : pp. 191ff pour une présentation plus détaillée). Pour le français,

certains auteurs (Simon & Grobet 2001 et Simon 2004, s’inspirant de Mertens 1997)

proposent une structure complexe similaire mais considèrent a contrario le marquage final

(par un ton infra-bas codé B-B-) comme définitoire de l’unité prosodique maximale.

Les propositions d’unités prosodiques supérieures à l’unité intonative formellement et

fonctionnellement comparables au paraton sont nombreuses : paragraphe intonatif (Lehiste

1975 et Morel & Danon-Boileau 1998 utilisant le même terme dans le cadre d’approches très

différentes), paraton majeur (cf. Yule 1980 ; Brown & Yule 1983), paquet intonatif (Mertens

1997), groupe tonal majeur (« major tone group », cf. Wichmann 2000), etc. Pour des raisons

de simplicité, bien que conscient des différences d’approche et de définition de ces diverses

unités, nous proposons d’utiliser le terme « paraton » comme représentant générique de cette

classe.

125 Cette conception du paraton correspond en réalité au « paraton majeur », proposé par Yule 1980, et marqué

de manière bipolaire (début et fin). Il est important de noter que l’auteur propose aussi une unité intermédiaire

entre le paraton majeur et l’unité intonative, le « paraton mineur », dont seule la fin serait marquée.


285

3.2.3 Structure prosodique et approche conversationnelle

Comme nous l’avons mentionné plus haut, nous proposons, malgré les différences

importantes qui les distinguent, de ne pas dissocier analyse du discours et analyse de la

conversation. Ce type d’approche est notamment justifié par le fait que, malgré quelques

différences, certaines des unités prosodiques que nous venons de mentionner sont

communément utilisées en analyse du discours et en analyse de la conversation.

On considère généralement depuis les travaux de Sacks, Schegloff & Jefferson (1974 et

1978) que l’unité fondamentale de la conversation est le « tour de parole », régi par un

système de gestion locale de l’interaction permettant une anticipation de la fin potentielle du

tour en un « lieu pertinent de transition » (« transition relevance place » ou « TRP »). Plus

précisément, les unités permettant cette projection de TRP sont des segments de tours ou

« turn-constructional units », généralement identifiés sur la base des structures syntaxique et

prosodique (cf. Grosjean & Hirt 1996 concernant la possibilité d’anticipation de complétude

prosodique). Dans ce cadre, le « contour intonatif » constitue un premier niveau de

segmentation prosodique (cf. aussi Chafe 1987 ; Du Bois et al. 1992 ):

« An ‘intonation contour’ in [Selting’s] sense is made up of one or more accent units […]. In the

case of several accent units, the sequence is hearably cohesive because the pitch accents integrate

into some pattern (i.e. their ‘global intonation’) globally falling, rising, high, mid or low. The

global pattern in combination with loudness and duration often singles out one pitch movement as

the most salient one of the contour; such a ‘phrasal accent’ may be the end-point or the beginning

of a globally falling or rising contour, the widest pitch movement , etc. » (Auer 1996 : p. 68)

L’organisation du contour intonatif est évidemment à mettre en relation directe avec

celle de l’unité intonative telle que nous l’avons présentée plus haut : fondée sur le

regroupement de plusieurs unités accentuelles, elle est caractérisée par un « patron global » au

sein duquel sont interprétées les proéminences (et notamment l’accent le plus saillant, c'est-à-

dire l’accent nucléaire au sens de la phonologie métrique autosegmentale) ; ce patron global

est corrélé, tout comme l’unité intonative, avec un ensemble défini de valeurs pour les valeurs

des traits caractérisant les dimensions localisantes (comme par exemple les traits fréquentiels

durables [niveau élevé] et [étendue augmentée] pour la dimension fréquentielle).

De manière encore plus marquée que dans le cadre de l’analyse du discours, la

pertinence d’une unité supérieure au contour intonatif est, au sein du paradigme de l’analyse

de la conversation, une question très discutée. Sans nous livrer à une étude détaillée, nous

noterons que l’on retrouve cependant, de manière consensuelle, la notion de topique


286

prosodiquement marqué dans nombre de travaux d’analyse conversationnelle, ce qui nous

ramène au concept générique de paraton.

Le caractère « intuitif » de la définition du topique discursif, couplé au postulat fort

d’une distinction catégorielle entre deux topiques (le « shift » proposé par Brown & Yule

1983) sont à l’évidence problématiques126. En conséquence, nous proposons d’adopter dans le

reste de ce travail une conception inspirée de la proposition formulée dans Hirst 1998 (p. 71) :

plutôt que d’adopter une position forte prônant l’existence d’un constituant supérieur à l’unité

intonative (le paraton au sens générique), nous préfèrerons considérer que les unités

intonatives peuvent optionnellement présenter des marques de discontinuité ou, a contrario,

des marques de continuité topicale. Une telle approche permet selon nous de ne pas réitérer au

niveau du discours un principe de hiérarchie stricte (« Strict Layer Hypothesis » cf. cf. Selkirk

1984 et surtout Pierrehumbert & Beckman 1988 qui l’axiomatise) qui entre en contradiction

fréquente avec les données avérées. L’hypothèse moins forte proposée par Hirst 1998 permet

non seulement la modélisation d’unités supérieures à l’unité intonative (balisées par des

marques de discontinuité initiale et de discontinuité finale) mais aussi de composants récursifs

et/ou avortés parfois observés dans les formes spontanées de discours : on pourra ainsi par

exemple rendre compte dans ce cadre du marquage prosodique de l’« ouverture » successive

de plusieurs topiques emboîtés et de leur « fermeture » plus ou moins exhaustive dans le

déroulement de l’interaction, modélisation qu’une hiérarchie stricte rendrait impossible.

3.3 Marques prosodiques de l’organisation discursive

Comme nous venons de le proposer, nous allons nous attacher dans cette rubrique à

l’étude du marquage prosodique de continuité ou de discontinuité discursive. Avant cela, nous

allons préciser plus avant notre conception du marquage prosodique de l’organisation

discursive, intégrant celui-ci au sein de la conception générale de la prosodie que nous avons

proposée lors du chapitre précédent et que nous avons affinée plus haut dans ce chapitre.

3.3.1 Prosodie et marquage de l’organisation discursive

Nous venons de suggérer que la prosodie constituait l’une des ressources à la

disposition du locuteur dans le cadre l’organisation discursive ; plus précisément, nous avons

choisi d’utiliser le terme « marque » pour caractériser les configurations prosodiques

126 A ces problèmes s’ajoute celui de la circularité fréquente de l’identification des topiques discursifs et des

frontières supposées délimiter ces derniers (cf. Swerts & Geluykens 1994 : pp. 22-23).


287

employées à cet effet. Ce choix est à mettre en relation d’une part avec l’approche

interactionnelle contextualisante telle qu’elle est proposée par exemple par Gumperz 1982,

Auer & Di Luzio 1992 et Auer 1996 et d’autre part avec la caractérisation phonologique des

dimensions localisées et localisantes que nous avons proposée ci-dessus en 3.1.2.

L’approche interactionnelle contextualisante propose de concevoir les configurations

linguistiques formelles comme autant d’indices permettant l’intégration du message dans son

contexte d’interprétation. C’est donc en partie en ce sens que le terme « marque » doit être

considéré : les configurations prosodiques balisant l’organisation discursive sont interprétées

de manière interactive et peuvent entrer en relation de redondance (nous dirons

« résonnance ») ou d’opposition (nous préférerons « dissonnance ») avec des marques

d’autres niveaux de l’analyse (cf. par exemple Auer 1996 : p.58).

Cette conception est conforme à la relative indépendance de la prosodie vis-à-vis de la

syntaxe que nous proposions plus haut ; notamment, comme nous allons le voir, en raison du

fait que les configurations en jeu dans ce marquage impliquent massivement les dimensions

prosodiques localisantes, orthogonales aux éléments (plus liés à la syntaxe) de l’espace

métrique.

La seconde raison qui a présidé au choix du terme « marque » est à trouver dans

l’acception linguistique traditionnelle de ce terme. Nous considèrerons en effet que les

configurations prosodiques impliquées dans l’organisation discursive peuvent être

linguistiquement « marquées » ou « non marquées » : cette conception reflète la possibilité de

choix du locuteur de produire ou non une configuration non neutre, c'est-à-dire une instruction

explicite relative à l’intégration des éléments liés à l’unité intonative au sein du modèle de

discours actuel (continuité) ou au contraire relative à la modification plus profonde de ce

modèle (discontinuité).

Par extension avec les valeurs associées aux traits niveau et étendue de l’espace

fréquentiel, nous proposons d’analyser les configurations prosodiques impliquées dans

l’organisation discursive soit comme non marquées (situation que l’on pourrait coder à l’aide

du symbole « N »), soit comme marquées. Dans le premier cas, on pourra considérer que les

ressources prosodiques à la disposition du locuteur n’ont pas été employées par ce dernier.

Dans le second cas, ces configurations seront considérées comme activement employées par

le locuteur et se verront attribuer les valeurs « augmenté » ou « diminué » que nous avons

utilisées pour la caractérisations des dimensions fréquentielles localisée et localisantes. A titre


288

d’exemple, un ralentissement de débit en fin d’unité intonative, couplé à un abaissement final,

deux marques fréquentes de terminalité, pourront être interprétés comme l’attribution de la

valeur [diminué] aux traits [débit] et [niveau].

Pour résumer, nous proposons

• de concevoir les configurations prosodiques impliquées dans l’organisation du

discours de manière interactive, c'est-à-dire comme résultant de contraintes

spécifiquement prosodiques mais en relation avec des informations et des marques à

différents niveaux de l’analyse

• et de les interpréter comme l’attribution des valeurs catégorielles [normal], [augmenté]

ou [diminué] aux traits prosodiques pertinents ; dans ce cadre, si le marquage de la

continuité discursive est lié à la valeur [diminué], nous faisons l’hypothèse que le

marquage de la discontinuité sera associé à [augmenté], valeur marquée

complémentaire.

3.3.2 Marquage de la discontinuité discursive

La discontinuité discursive est généralement mise en relation avec une frontière (initiale

ou terminale) d’unité assimilable au paraton ; selon l’approche et le modèle choisi, on parlera

alors de début ou de fin d’un paragraphe intonatif (Lehiste 1975 ; Morel & Danon-Boileau

1998), d’un paraton majeur (cf. Yule 1980 ; Brown & Yule 1983) d’un segment discursif (cf.

Grosz & Hirschberg 1992 ; Hirschberg & Nakatani 1996), d’un mouvement périodique (cf.

Roulet et al. 2001 ; Simon 2004), etc. En conséquence, nous allons consacrer cette rubrique à

l’étude des configurations des unités intonatives généralement considérées respectivement

comme initiales et finales de paraton ; nous allons tout d’abord nous intéresser aux marques

de discontinuité initiale avant de nous attacher à l’étude des marques de discontinuité finale.

Discontinuité initiale

Au sein de l’espace fréquentiel, le marquage de discontinuité initiale au sein d’une unité

intonative implique généralement une élévation (Lehiste 1975 ; Brazil et al. 1980 ; Brown &

Yule 1983 ; Couper-Kuhlen 1986 ; Hirst 1998 ; Wichmann 2000) se traduisant par la valeur

[augmenté] appliquée à des domaines d’applications ponctuels et/ou durables :


289

• Domaines ponctuels :

o Pour l’anglais, la première syllabe accentuée (ou « onset ») est caractérisée par

une valeur significativement plus élevée (cf. par exemple Lehiste 1975 ; Yule

1980 ; Brown & Yule 1983 ; Couper-Kuhlen 1986 et 1998 ; Nakajima & Allen

1993 ; Hirst 1998 ; Wichmann 2000) ;

o de manière similaire, en français, c’est la première syllabe de l’unité qui

bénéficie de cette valeur fréquentielle plus élevée (Simon & Grobet 2001) ; ce

phénomène est connu sous le nom de réinitialisation, « resetting » ou « topic

reset ».

o L’accent nucléaire est lui aussi réalisé à une niveau fréquentiel plus élevé

(Nakajima & Allen 1993 ; Hirschberg & Nakatani 1996).

• Domaines durables :

o Selon certains auteurs (cf. par exemple Brown & Yule 1983 ; Selting 1995)

cette élévation fréquentielle peut être élargie à un domaine d’application plus

étendu que l’onset (en incluant par exemple l’anacrouse de pré tête de l’unité

intonative).

o Nombre de travaux mentionnent aussi une application aux dimensions

localisantes de niveau et d’étendue fréquentiels (cf. par exemple Brazil 1975 ;

Brown et al. 1980 ; Silverman 1987 ; Grosz & Hirschberg 1992 ; Nakatani et

al. 1995 ; Swerts 1997) sur tout ou partie de l’unité intonative.

Il est aussi important de noter avec Wichmann 1991 et 2000 et Wichmann et al. 1997 et

2000 que la proéminence fréquentielle associée avec l’onset est en général réalisée de manière

plus tardive lorsque l’unité intonative marque le début d’un topique discursif (la différence est

de l’ordre de 10 % de la durée de la syllabe accentuée). Lorsque ce délai n’est pas observé,

certains locuteurs ont recours à une stratégie alternative qui consiste à retarder le début de la

chute fréquentielle. Cette utilisation d’un délai de pic ou de chute fréquentiels, assimilable de

premier abord à un effet de bord lié à la hauteur plus importante de la cible tonale (exigeant

donc plus de temps pour être atteinte), semble en réalité être une stratégie commune (cf.

Gussenhoven 2002 : pp. 52ff), quelle que soit le type de l’accent (onset, accent emphatique,

accent nucléaire ; cf. Wichmann 2000 : p. 46).


290

Concernant les configurations de l’espace d’intensité une tendance similaire,

impliquant la valeur [augmenté], est observée dans nombre d’études (cf. Brown et al. 1980 ;

Brown & Yule 1983 ; Grosz & Hirschberg 1992 ; Nakatani et al. 1995 ; Hirschberg &

Nakatani 1996) qui mentionnent une intensité plus importante (ponctuelle et durable) en début

d’unité intonative lorsque cette dernière est initiale de paraton.

L’espace de durée, bien que les études systématiques soient moins nombreuses, semble

présenter des configurations spécifiques pour les débuts d’unité intonatives à l’initiale de

paratons : Koopmans-van Beinum & van Donzel 1996 montre notamment un allongement de

la durée moyenne des syllabes et donc un ralentissement du débit de parole en début de

paraton ; ces résultats sont confirmés par Smith 2004 qui montre un ralentissement marqué du

débit de parole pour le premier groupe de souffle suivant une discontinuité majeure. Ce

phénomène est expliqué selon Koopmansvan Beinum & van Donzel 1996 par le statut

informationnel (nouveau) des éléments apparaissant généralement dans cette position. Nous

noterons finalement que la valeur associée à cette configuration de durée est [augmenté] pour

la durée des syllabes et donc [diminué] pour le débit.

A notre connaissance, les études mentionnant un marquage prosodique de début de

paraton à l’aide d’éléments liés à l’espace spectral sont rarissimes : la remarque formulée par

Ní Chasaide & Gobl 2004 (p. 191), concernant un bref épisode de voix soufflée en début

d’unité (au niveau de l’unité intonative et pas du paraton), constitue ainsi une exception dans

ce domaine. Il semble cependant important de rappeler l’importance des éléments spectraux

dans la détermination du positionnement fréquentiel du locuteur dans son registre. Nous

considèrerons ainsi que l’attribution de la valeur [augmenté] aux éléments de l’espace

fréquentiel (typique des discontinuités initiales) est médiatisée par des configurations

spectrales restant à définir de manière précise.

De manière schématique, nous retiendrons que le marquage prosodique de la

discontinuité discursive initiale implique, principalement dans la partie initiale des unités

intonatives, la valeur [augmenté] pour les espaces fréquentiel et d’intensité ainsi que pour la

dimension localisée de durée (la valeur [diminué] pour le débit est quant à elle liée à la

relation inversement proportionnelle notée plus haut).

Nous remarquerons pour terminer que ces configurations correspondent, comme nous

l’avons vu dans la deuxième section de ce chapitre, au marquage prototypique de

l’information nouvelle par l’accent ; elles se distinguent cependant de ce dernier par une


291

application des valeurs identifiées non seulement à des domaines ponctuels (onset, accent

nucléaire) mais aussi à des domaines durables, notamment à partir de la borne « gauche » de

l’unité.

Discontinuité finale

Le marquage de la discontinuité discursive finale, que nombre d’auteurs associent à la

fin d’une unité de type paraton, semble concerner plus particulièrement la borne « droite » des

unités intonatives.

Dans l’espace fréquentiel, l’un des éléments les plus fréquemment cités concerne

l’utilisation du registre le plus bas du locuteur : au sein du domaine ponctuel du dernier accent

de l’unité intonative (l’accent nucléaire de la tradition britannique), ceci est lié au phénomène

d’abaissement final (« final lowering ») noté par Liberman & Pierrehumbert 1984 qui

implique une réalisation plus basse (cf. Yule 1980 ; Brown & Yule 1983 ; Mertens 1997 et

Simon 2004). Il est important de noter que cette propension à l’abaissement, que nous

associerons à la valeur [diminué], se matérialise aussi au sein de domaines d’application plus

durables : un premier élargissement du domaine d’application nous permet de prendre en

considération le type d’accent employé (chute plutôt que montée127) ainsi que son point de

départ et son point d’arrivée (une petite chute est jugée plus « terminale » qu’une grande

chute ; cf. Wichmann 2000 : pp. 69-71) ; un second élargissement, relatif aux dimensions

localisantes sur toute la partie finale de l’unité, permet l’observation d’une diminution de

niveau et d’étendue fréquentiels (cf. par exemple Brown et al. 1980) ; ces phénomènes de

diminution des dimensions fréquentielles localisantes pouvant être analysés dans le cadre de

tendances plus globales (notamment liées à ce que Wichmann 2000 appelle

« supradeclinaison »), seront traités plus en détails en 3.3.3 ci-dessous.

De nombreux travaux font état d’une diminution importante de l’intensité dans le cadre

du marquage de la discontinuité finale (cf. par exemple Brown et al. 1980 ; Brown & Yule

1983 ; Hirschberg & Nakatani 1996) ; en conséquence, l’espace d’intensité, tout comme

l’espace fréquentiel, sera caractérisé par la valeur [diminué]. 127 On notera cependant avec Wichmann 2000 (à la suite de Knowles 1987) que l’association d’une chute

mélodique avec la terminalité n’est pas systématique et est même fréquemment violée en anglais non formel lors

de la postposition d’adverbes dits « de phrase », comme cela est possible par exemple dans « He’s too il to come,

unfortunately » (Wichmann 2000 : p. 51). D’autres types de variations stylistiques peuvent de plus influer sur la

réalisation des ces chutes, comme par exemple dans le cadre du style liturgique qui favorisera la réalisation de

tons statiques.


292

L’espace de durée, toujours dans le cadre du marquage de la discontinuité finale, n’est

en revanche pas caractérisé par la valeur marquée complémentaire de celle adoptée pour le

marquage de la discontinuité initiale. Ainsi si l’on assiste à une adoption de la valeur

[diminué] pour les espaces fréquentiel et d’intensité (dans leurs dimensions localisées et

localisantes), complémentaire de la valeur [augmenté] adoptée pour le marquage de la

discontinuité initiale, la valeur adoptée pour la durée des unités phonologiques est [augmenté]

(et donc usuellement la valeur [diminué] pour la dimension localisante « débit ») aussi bien

pour le marquage de la discontinuité discursive initiale que pour celui de la discontinuité

finale128 ; la rime de la syllabe accentuée finale semble notamment être le domaine privilégié

de cet allongement final (cf. Smith 2004). Il est intéressant de noter de plus que l’allongement

syllabique (notamment de la rime) constitue l’un des indices les plus fiables et les plus

universels (cf. Fon 2002) de la présence d’une frontière d’unité prosodique, y compris à un

niveau inférieur au paraton.

L’espace spectral, finalement, semble lui aussi participer au marquage de la

discontinuité finale. En effet, la plupart des travaux mentionne la présence de laryngalisation

(« creaky voice ») en relation avec les frontières finales de paratons (cf. par exemple Brown &

Yule 1983 ; Couper-Kuhlen 1986 ; Wichmann 2000 ; Ní Chasaide & Gobl 2004 ; Di Cristo et

al. à paraître). Une position fréquemment adoptée face à ce type de données consiste à

considérer le phénomène de laryngalisation comme induit par l’utilisation du registre

fréquentiel bas ; nous noterons cependant avec Epstein 2003 et Ní Chasaide & Gobl 2004 que

si une laryngalisation accompagne fréquemment une utilisation de cette partie basse du

registre du locuteur dans le cadre du marquage de la discontinuité discursive finale, elle ne

l’accompagne généralement pas dans d’autres positions discursives. Nous conclurons donc

que ce marquage spectral est spécifique à la discontinuité finale et mérite donc une prise en

compte indépendante vis-à-vis des phénomènes fréquentiels.

Redondance et sous-spécification de certains marquages prosodiques

Nous remarquons que, si l’on prend en considération les trois espaces prosodiques

ancrés substance les plus consensuels (les espaces fréquentiel, d’intensité et de durée),

l’espace de durée semble adopter un comportement original. Ainsi, concernant les espaces

fréquentiel et d’intensité nous remarquons une alternance des valeurs [augmenté] et [diminué]

128 Hirschberg & Nakatani 1996 constitue une exception en identifiant un débit augmenté pour les unités finales.


293

en relation avec non seulement la position du marquage (initiale ou finale) mais aussi avec le

type de discontinuité (initiale ou finale) ; on obtient donc les associations suivantes :

• Espace fréquentiel :

o discontinuité initiale : marquage initial - [augmenté]

o discontinuité finale : marquage final – [diminué]

• Espace d’intensité :


o discontinuité finale : marquage final – [diminué]

La situation est différente pour l’espace de durée :

• Espace de durée (dimension localisée) :


o discontinuité finale : marquage final – [augmenté]

Nous analyserons cette situation comme une spécialisation discursive des valeurs

prosodiques fréquentielles et d’intensité qui spécifient, en redondance avec la position de

marquage, le type de discontinuité marquée ; a contrario, le marquage prosodique par

allongement des unités phonologiques est quant à lui sous-spécifié et dépend de la position du

marquage pour la détermination du type de discontinuité discursive marqué.

Pauses

Nous ne saurions terminer ce rapide tour d’horizon des configurations prosodiques

impliquées dans le marquage de la discontinuité discursive sans faire mention des pauses. Le

lecteur aura cependant remarqué que nous avons choisi de présenter les pauses dans une

rubrique indépendante des discontinuités initiale et finale ; la raison principale de ce choix

réside dans la difficulté inhérente au rattachement de la pause à une unité antérieure et/ou

postérieure. Nous allons cependant émettre quelques propositions relatives à ce thème après

avoir tout d’abord donner une définition plus détaillée du phénomène qui nous intéresse ici.

Précisons tout d’abord qu’il nous semble souhaitable d’aborder la pause dans un cadre

identique à celui adopté pour la structuration des ordres prosodiques, notamment concernant

les niveaux de représentation impliqués. Nous proposons en conséquence de parler :

• pour l’état de production (niveau physiologique), d’absence de phonation ;


294

• pour l’état de transmission (niveau physico-acoustique), de silence ;

• pour l’état de perception (niveau phonétique), de pause.

La pause n’est ainsi fondamentalement dans cette optique que la caractérisation

perceptive subjective d’un silence, tout comme la mélodie, la sonie et la longueur ne sont que

les caractérisations subjectives respectives de la fréquence fondamentale, de l’intensité et de

la durée d’unités phonologiques. En conséquence, tout comme la perception de la longueur

dépend principalement de la durée, mais aussi de la fréquence fondamentale (cf. Rossi et al.

1981), la perception des pauses ne dépend que principalement de la présence d’un silence ; en

d’autres termes, l’association fréquente de la présence d’un silence à la perception d’une

pause n’est en aucun cas un critère indispensable : ceci explique notamment l’inclusion des

pauses dites « remplies » ou « d’hésitation » (cf. par exemple Candéa 2000 ; Duez 2001) dans

une catégorie générale des pauses. Nous préférerons cependant, sans remettre en cause pour

autant la pertinence de ce regroupement, traiter les pauses silencieuses et les pauses remplies

comme deux phénomènes distincts : dans ce cadre, nous allons à présent tout d’abord

caractériser quelques unes des différences formelles évidentes qui distinguent ces deux classes

de phénomènes avant de nous tourner vers quelques aspects plus fonctionnels.

Malgré le fait que l’arrêt de phonation ne soit spécifiquement lié à aucun ordre

prosodique ancré substance (il les concerne tous), nous réitérons ici la proposition formulée

lors du chapitre 5, relative à l’analyse des pauses silencieuses au sein de l’espace de durée.

Cette proposition se justifie d’une part par l’absence des paramètres prosodiques spécifiques

aux autres espaces ancrés substance et d’autre part par l’affinité particulière de l’espace de

durée avec la dimension temporelle englobant les phénomènes phoniques dans leur ensemble.

Nous assimilerons ainsi les pauses silencieuses à des unités quasi-phonologiques et

caractériserons leur durée à l’aide des valeurs [neutre], [augmenté] et [diminué].

Les pauses remplies étant dotées, hormis leur durée, d’une fréquence fondamentale et

d’une intensité, nous proposons de prendre aussi en considération les espaces fréquentiel et

d’intensité dans la description de ces dernières : les valeurs [neutre], [augmenté] et [diminué]

associées aux traits caractéristiques de ces espaces prosodiques (niveau et étendue) seront en

conséquence aussi applicables.

D’un point de vue fonctionnel, les pauses silencieuses sont généralement

préférentiellement impliquées dans le marquage de la discontinuité discursive finale ; nombre

d’auteurs notent ainsi la présence de pauses silencieuses particulièrement longues en fin


295

d’unités assimilables au paraton (cf. Brown et al. 1980 ; Brown & Yule 1983). Cependant, il

est intéressant de noter que certains auteurs (cf. par exemple Swerts & Geluykens 1994 ;

Hirschberg & Nakatani 1996) analysent la pause silencieuse sans distinguer de manière

explicite son statut positionnel ; souvent, cette tendance se traduira par la double prise en

compte de la pause silencieuse, à la fois comme pause avant une unité (nous dirons « pause

avant ») et comme pause après une unité (« pause après »). Hirschberg & Nakatani 1996

constitue un bon exemple de ce type d’approche ; étudions particulièrement le tableau 2 ci-

après qui reprend leur tableau 5 et synthétise les résultats de l’étude :

Tableau 5 : Résultats des analyses de Hirschberg & Nakatani 1996 présentant une double

prise en compte des pauses silencieuses.

Nous noterons ici plus particulièrement que les unités initiales de paraton129 (ligne

SBEG, deux dernières colonnes à droite) semblent caractérisées par des pauses avant longues

et des pauses après courtes et que la situation est inverse pour les unités finales (ligne SF). A

l’évidence, cette situation s’explique par le fait que les pauses finales de paratons sont en fait

aussi comptées ici comme initiales du paraton suivant.

Dans ce contexte, il semble difficile d’argumenter en faveur d’un rattachement de la

pause silencieuse avec l’une ou l’autre des unités qu’elle sépare. On est donc en présence de

deux approches qui considèrent l’une que la pause silencieuse est finale, et l’autre qu’elle est

à la fois finale et initiale. Malgré le caractère apparemment insoluble de cette situation, la

prise en compte conjuguée des aspects formels et fonctionnels des pauses remplies va, comme

nous allons le voir à présent, nous fournir un argument en faveur de la caractérisation des

pauses silencieuses comme marques non spécifiques de discontinuité.

129 En réalité internes à un segment de discours dans l’étude, mais la différence n’est pas pertinente ici.


296

En effet, nous avons vu que les pauses remplies pouvaient être analysées dans le cadre

des trois espaces prosodiques les plus consensuels (fréquentiel, d’intensité et de durée)130.

Duez 2001 nous montre de manière particulièrement intéressante tout l’intérêt de cette prise

en compte multiple ; en effet l’analyse acoustico-phonétique de données conversationnelles en

français permet à l’auteur de mettre en évidence le fait qu’ « il existe […] une grande

similarité entre la valeur initiale de la pause remplie et la valeur de l’attaque non marquée du

syntagme [suivant] » (Duez 2001 : p. 45). Cette similarité des valeurs fréquentielles d’attaque

(d’onset) pour la pause remplie et pour l’unité suivante constitue selon nous un argument

majeur pour le rattachement de ce type de pause avec l’unité suivante, y compris dans le cas

d’un allongement de la syllabe finale d’une unité (nous sommes donc dans ce cas en présence

d’un attache ment phonétique et d’un détachement phonologique) ; un tel rattachement est

d’ailleurs proposé de manière classique dans la littérature qui attribue principalement à ce

type de pause une fonction planificatrice (cf. Duez 2001 : p. 32ff pour une revue détaillée).

Ainsi, étant donnée l’association forte (nous avons parlé de redondance) observée au

sein de l’espace fréquentiel entre une valeur donnée ([augmenté] ou [diminué]) et un type de

discontinuité (respectivement initiale et finale), nous proposons de considérer la pause

remplie, dotée d’après Duez 2001 de la même valeur que l’onset de l’unité suivante, comme

un marque de discontinuité initiale, caractérisée par la valeur [augmenté].

De manière analogique, étant donnés 1) le fait que la pause silencieuse est traitée dans le

cadre de l’espace de durée et 2) le fait que cet espace ne semble pas présenter de

spécialisation de ces configurations pour le typage de la discontinuité marquée, nous

proposons, en accord avec la position implicite de Hirschberg & Nakatani 1996, de considérer

la valeur [augmenté] de la pause silencieuse comme une marque de discontinuité discursive à

la fois initiale et finale.

Synthèse

Pour résumer cette rubrique, nous retiendrons que le marquage de la discontinuité

discursive, associé par nombre d’auteurs aux frontières d’unités de type « paraton »,

implique :

• pour la discontinuité initiale : l’utilisation de la valeur [augmenté] dans les espaces

fréquentiel (valeurs d’onset et d’accent nucléaire plus élevées, niveau plus élevé et 130 La qualité de voix (et donc l’espace spectral) joue sans doute un rôle important dans le fonctionnement de la

pause remplie, mais nos connaissances en la matière sont insuffisantes pour détailler ces phénomènes.


297

étendue plus importante) et d’intensité (augmentation de l’intensité notamment en

début d’unité) ainsi que pour la durée des unités phonologiques pour l’espace de durée

(allongement initial) et les pauses (remplies et silencieuses) ;

• pour la discontinuité finale : l’utilisation de la valeur [diminué] dans les espaces

fréquentiel (valeurs d’onset et d’accent nucléaire plus basses, niveau plus bas et

étendue réduite) et d’intensité (diminution de l’intensité notamment en fin d’unité) et

la valeur [augmenté] pour la durée des unités phonologiques pour l’espace de durée

(allongement final) et les pauses silencieuses.

Tout comme le locuteur peut avoir recours à la prosodie dans le cadre du marquage de

la discontinuité discursive, les ressources prosodiques peuvent aussi être mobilisées pour le

marquage de la continuité ; c’est donc vers cette thématique que nous nous tournons à présent.

3.3.3 Marquage de la continuité discursive

Hormis le marquage de la discontinuité discursive que nous venons de mentionner, la

prosodie peut aussi être utilisée de manière marquée dans le cadre de la continuité discursive.

Nous distinguerons ici l’utilisation de configurations spécifiques (associées à des valeurs

marquées) de celle de configurations non spécifiques (associées à la valeur [neutre]) ; de cette

manière, nous concentrerons nos efforts sur les cas où la prosodie est activement utilisée

comme indice de structuration discursive, par opposition avec les cas où la prosodie se

« contente » d’autres rôles.

Etant donné d’une part l’organisation à deux niveaux que nous avons adoptée ici (unité

intonative et paraton) et d’autre part, l’assimilation généralement proposée entre paraton et

topique de discours, l’analyse que nous allons proposer du marquage de la continuité

discursive concernera les unités intonatives (ou assimilées) internes aux paratons, c'est-à-dire

ni initiales ni finales.

Dans la rubrique précédente, nous avons distingué les marques de discontinuité initiale

et finale (de paraton) ; de manière similaire, nous distinguerons ici au niveau de l’unité

intonative la continuité initiale (interprétable en terme de lien avec ce qui précède ou

d’« attachement à gauche ») et la continuité finale (impliquant une notion de suite attendue ou

« attachement à droite »).

Comme nous venons de le voir, l’attribution de la valeur [augmenté] aux dimensions

localisées et localisantes des espaces fréquentiel et d’intensité correspond au marquage d’une


298

discontinuité discursive initiale ; il n’est pas étonnant, dès lors, de voir la valeur [diminué]

associées à ces mêmes dimensions dans le cadre du marquage de la continuité initiale.

Inversement, la valeur [diminué] étant associée au marquage de la discontinuité discursive

finale, il n’est pas non plus étonnant de voir la valeur complémentaire [augmenté] associée au

marquage de la continuité finale.

Valeurs de l’espace fréquentiel : continuité initiale et finale

Concernant l’espace fréquentiel, la valeur [diminué] associée à la continuité initiale se

manifeste principalement sous la forme d’une étendue réduite et d’un abaissement de l’onset

(« onset depression » selon Wichamnn 2000 : pp. 75-76 ; cf. par exemple Nakajima & Allen

1993 ; Nakatani et al. 1995 ; Hirschberg & Nakatani 1996). De plus, on notera

particulièrement avec Wichmann 2000 qu’une majorité (57 %) des abaissements de niveau

fréquentiel du Spoken English Corpus correspond à cette utilisation « cohésive » des

configurations prosodiques. Ce type de configuration correspond donc à la valeur [diminué]

appliquée aussi bien à la dimension fréquentielle localisée (avec une désaccentuation au sein

du domaine ponctuel de l’onset) qu’aux dimensions localisantes (niveau et étendue

fréquentiels dans des domaines plus étendus).

Le marquage de la continuité finale sera, comme nous l’avons suggéré, lié à l’usage de

la valeur [augmenté] dans un domaine d’application lié à la borne droite des unités. L’une des

manifestations les plus répandues de ce type de configuration est à trouver dans le choix

d’accents nucléaires comportant une composante ascendante. Nous faisons ici mention d’une

composante ascendante et pas simplement d’une configuration strictement ascendante de F0

car, suivant par exemple l’hypothèse de compositionnalité proposée par Pierrehumbert &

Hirschberg 1990, une configuration ascendante (ton H-) liée à l’accent de frontière de

syntagme intermédiaire (« intermediate phrase ») induira un attachement à droite

indépendamment de la nature de l’accent nucléaire et de l’accent de frontière de syntagme

intonatif (« intonative phrase »). On pensera dans ce contexte aux continuatives mineure et

majeure de Delattre 1966 pour le français ou à l’utilisation des accent nucléaires de type « low

rise » ou « fall-rise » pour l’anglais (cf. par exemple Hirst 1998 ou encore Cruttenden 1981 et

2001 qui montre la correspondance forte entre les configurations « ouvertes » (« open »),

impliquant fréquemment une composante ascendante et la fonction de continuité topicale).

Dans le même esprit, Portes 2002 a montré le caractère implicatif de la configuration

ascendante-descendate (« rise-fall ») dans le cadre du discours spontané en français.


299

Valeurs de l’espace d’intensité : continuité initiale

Des remarques identiques à celles formulées à propos du marquage fréquentiel de la

continuité initiale valent aussi, pour nombre d’auteurs, concernant l’espace d’intensité,

notamment dans un domaine d’application étendu (cf. par exemple Brown & Yule 1983 ;

Hirschberg & Nakatani 1996). Nous remarquons cependant que Hirschberg & Nakatani 1996

(cf. tableau 2 ci-dessus) note une différence entre unités internes et unités finales concernant

l’intensité : en effet, si un domaine d’application durable (valeur moyenne sur l’unité) ne

montre pas de différence (valeur [diminué] pour les deux types d’unités), un domaine

d’application plus ponctuel (valeur d’intensité sur l’accent nucléaire) montre l’utilisation

d’une valeur marquée ([diminué]) dans le cas des segments finals, mais une valeur non

marquée ([neutre]) pour les segments internes. Une telle distinction constitue un argument

supplémentaire en faveur de l’indépendance des dimensions localisées et localisantes, et ne

remet pas en cause la tendance générale à l’utilisation de la valeur [diminué] dans le cadre du

marquage de la continuité discursive initiale pour l’espace d’intensité.

Continuité entre unités : cohérence et parallélisme prosodique

Après avoir mentionné les configurations fréquentielles et d’intensité propres à une

unité intonative donnée et spécifiant son attachement avec l’unité qui la précède (continuité

initiale) ou qui la suit (continuité finale), nous terminerons cette rubrique par la prise en

compte d’éléments à un niveau plus élevé d’organisation, c'est-à-dire impliquant plusieurs

unités intonatives au sein d’un paraton. Dans ce cadre, nous allons tour à tour nous intéresser

d’une part au marquage de l’aspect séquentiel de l’enchaînement des unités et d’autre part au

marquage de la continuité par similitude formelle entre unités.

Nous avons vu que le marquage de la continuité et de la discontinuité discursive

correspondait schématiquement à l’extension des configurations associées au marquage

ponctuel du statut informationnel des entités discursives par l’accent ; de manière similaire,

nous allons à présent analyser, à une échelle supérieure à l’unité intonative, l’utilisation de

phénomènes généralement impliqués dans le marquage de la continuité interne de ces unités.

Un premier type de marquage prosodique de continuité impliquant plusieurs unités

consiste à inscrire les unités d’un paraton dans le cadre d’une configuration fréquentielle

globalement descendante. Ce phénomène connu sous le nom de « déclinaison » est à mettre

en relation avec un ensemble de phénomènes d’abaissements internes à l’unité intonative que


300

Connell & Ladd 1990 proposent de ranger sous la catégorie « downtrends » ; nous

distinguerons ainsi particulièrement (cf. Hirst & Di Cristo 1998) :

• « declination », la déclinaison : tendance phonétique à l’abaissement progressif entre

le début et la fin d’une unité intonative ;

• « downdrift » : abaissement itératif de la hauteur des tons hauts préservant l’existence

de tons bas ;

• « downstep » : abaissement itératif de la hauteur des tons hauts effaçant les tons

bas intermédiaires ;

• « final lowering », abaissement final : abaissement rapide de niveau et d’étendue

fréquentiels à proximité de la borne droite d’une unité intonative.

Nous avons déjà mentionné le phénomène phonologique de downstep lors du chapitre

5 ; l’abaissement final à quant à lui été mentionné ci-dessus dans le cadre du marquage de la

discontinuité discursive finale ; les phénomènes de downdrift et de déclinaison, en revanche

n’ont pas encore été mentionné dans ce travail de thèse. Entrer dans le débat complexe qui

oppose ces concepts nous entraînerait bien au-delà de notre thématique (le lecteur trouvera

notamment dans Ladd 1996 un compte-rendu détaillé des différentes positions adoptées à ce

sujet) ; nous proposons en revanche de noter plus particulièrement la nature strictement

phonétique de la déclinaison, par rapport à la vision plus phonologique associée au downstep

et au downdrift ; schématiquement, le débat tourne autour de la catégorisation de ce

phénomène comme un ensemble de phénomènes phonologiques d’abaissement local ou

comme une tendance sous-jacente et globale liée notamment à la diminution graduelle du

volume d’air pulmonaire et donc de la pression sous-glottique.

Nous nous contenterons ici de la caractérisation phonétique et globale du phénomène

associée au concept de déclinaison et noterons que sa manifestation implique que les tons

hauts (et bas, dans une moindre mesure) liés à la réalisation fréquentielle de certains accents

d’une unité intonative sont réalisés de plus en plus bas au fur et à mesure du déroulement de

l’unité :

« In languages like Dutch and English, the most important global attribute is the observed

tendency of F0 to decrease slowly from beginning to end of an utterance » (‘t Hart et al. 1990 : p.

121).


301

Graphiquement, une ligne reliant ces tons hauts et une autre reliant les tons bas

adopteraient ainsi des pentes déclinantes telles que celles représentées dans la figure 43 ci-

dessous :

Figure 43 : Représentation graphique de la déclinaison à l'intérieur d'une unité intonative.

Dans Sluijter & Terken 1993, une expérimentation impliquant la lecture de paragraphes

contenant une même phrase en des positions différentes a permis de mettre en évidence un

phénomène similaire au-delà du niveau de l’unité intonative : en effet, un effet de « supra-

déclinaison » (cf. Thorsen 1985 ; Wichmann 2000 : pp. 107ff) a été observé en relation avec

les valeurs d’onset et d’accent nucléaire qui diminuent proportionnellement à l’éloignement

de la phrase du début du paragraphe. Ce phénomène a aussi été identifié en suédois spontané

par Swerts et al. 1996 et en anglais américain spontané par Schuetze-Coburn et al. 1991.

Wichmann 2000, dans son analyse d’une partie du Spoken English Corpus, indique que, si

une tendance globale à la supra-délinaison peut être postulée pour l’anglais britannique à un

niveau sous-jacent, la réalisation effective de cette tendance est perturbée par deux sources

principales liées

• d’une part au marquage de la structure informationnelle, qui implique des réalisations

fréquentielles (accents liés à l’information nouvelle) venant perturber, reporter ou

suspendre temporairement la déclinaison ;

• d’autre part au marquage de relations unissant les unités intonatives successives, qui

implique des perturbations des valeurs d’onset, d’accent nucléaire, de niveau et

d’étendue fréquentiels (cf. Nakajima & Allen 1993).

On considérera ainsi, malgré les perturbations soulignées par Wichmann 2000, qu’une

tendance générale à la déclinaison semble être une caractéristique fréquentielle de la

continuité discursive au sein des paratons. Nous noterons plus particulièrement avec Swerts et

al. 1996 la corrélation importante (y compris en parole spontanée) entre la valeur de l’onset et

la durée de l’unité marquée par la déclinaison ; cette corrélation laisse envisager une capacité

d’anticipation (« look-ahead ») à plus long terme que ce que proposent des approches telles


302

que Levelt 1989 et par voie de conséquence la possibilité d’une utilisation linguistique de ce

phénomène. D’autres travaux proposent cependant de dissocier resetting et déclinaison,

postulant notamment que le resetting serait lié à une utilisation linguistique (pragmatique) de

l’espace fréquentiel alors que la déclinaison ne serait qu’un épiphénomène physiologique.

C’est par exemple le cas de Hird 2002 qui montre qu’en anglais australien conversationnel, si

toutes les prises de souffles ne sont pas associées à un resetting, tous les resettings observés

dans l’analyse suivent une prise de souffle chez les sujets normaux ; les sujets cérébro-lésés

droits, en revanche, dont la production présente (comme pour les sujets normaux) une

déclinaison liée aux prises de souffle, ne recourent pas au resetting fréquentiel. Le resetting

serait donc dans cette perspective une action linguistique (pragmatique) du locuteur, alors que

la déclinaison serait plus liée à des contraintes physiologiques. Nous reviendrons sur cette

question délicate dans le cadre de la discussion des résultats obtenus suite à l’analyse du

corpus Aix-MARSEC qui constitue le cœur du chapitre 7.

Nous venons de voir que les phénomènes d’abaissement reçoivent, selon les approches,

des caractérisations (physiologiques, acoustiques, phonétiques, phonologiques) relativement

divergentes. Une conception adoptée par l’école métrique-autosegmentale consiste par

exemple à concevoir la déclinaison que nous venons de mentionner comme une répétition de

phénomènes locaux d’abaissement. Certains auteurs considèrent l’apparition répétitive d’une

configuration donnée comme jouant un rôle dans le marquage de la continuité, tant à l’échelle

de l’unité intonative (cf. par exemple Di Cristo 2000 : p. 46) qu’à un niveau supérieur.

Dans ce contexte, Wichmann 2000 (pp. 85ff) propose le terme de « parallélisme tonal »

(« tonal parallelism ») pour caractériser le marquage de la continuité discursive à l’aide de

configurations fréquentielles récurrentes ; l’auteur s’inscrit là dans une tradition qu’elle fait

elle-même remonter à Palmer 1922 par l’intermédiaire de Crystal 1969, Fox 1984 ou encore

Bolinger 1989. De manière schématique, cette approche peut se manifester par la présence

concomitante ou distante non seulement d’accents nucléaires identiques, mais aussi d’accents

nucléaires phonologiquement distincts, mais phonétiquement proches, comme par exemple

« high rise » et « low rise » (Wichmann 2000 : pp. 88-89) ou encore « rise » et « fall-rise »

(pp. 89-90). Dans ce second cas, Wichmann suggère que la représentation métrique-

autosegmentale (qui permet la décomposition des tons de la rtadition britannique en

composants jugés plus fondamentaux) de ce type d’écho fréquentiel permettrait de mieux

mettre en évidence la similitude phonétique des deux configurations : dans ce contexte,

toujours selon l’auteur, la montée mélodique (« rise ») pourrait être représentée L*H (accent


303

bas et ton de frontière haut) et le « fall-rise » H*LH (accent haut suivi d’un accent bas dans la

queue de l’unité intonative et d’un ton de frontière haut. Wichmann 2000 indique cependant à

juste titre que l’effet de parallélisme est aussi lié à la réalisation phonétique de ces cibles et

qu’une représentation de ce type est indéterminée en ce domaine. Nous remarquerons pour

conclure qu’un codage fondé sur les principes que nous avons proposés, prenant en compte à

la fois la dimension fréquentielle localisée (codées à l’aide de l’alphabet INTSINT présenté

chapitre 5) et les dimensions localisantes permettrait, tout en restant phonologique (de

surface), de restreindre cette sous-spécification et ainsi de mieux comparer des configurations

impliquées dans ces effets de parallélisme tonal ; en l’espèce, le parallélisme entre « rise » et

« fall-rise » pourrait être représenté de la manière suivante :

Rise

L* H

Fall-rise

H* L H

niveau < > > < > Dimension localisée

étendue N N N N N

Niveau N N Dimensions

localisantes Etendue N N

Tableau 6 : Mise en évidence du parallélisme tonal entre « rise » et « fall-rise » à l’aide d’un

codage INTSINT intégré à l’approche proposée ici.

On a ainsi pour chaque ton de la représentation métrique-autosegmentale un ensemble

de quatre valeurs discrètes qui, tout en restant phonologique, permet ainsi une description plus

fine et donc une mise en évidence plus appropriée des phénomènes de parallélisme tonal

identifiés par Wichmann 2000.

Synthèse

Nous venons de passer en revue les principales ressources prosodiques employées par

les locuteurs dans le cadre du marquage de la discontinuité et de la continuité discursive. Plus

précisément, nous avons proposé de considérer deux type de discontinuité et de continuité,

selon que l’unité considérée indique une rupture ou un attachement avec ce qui précède (nous

avons parlé de (dis)continuité initiale) ou bien avec ce qui suit (nous parlons alors de

(dis)continuité finale). De manière schématique, nous avons ainsi montré que ce marquage de

continuité initiale ou finale impliquait


304

• d’une part l’inversion des valeurs associées aux configurations fréquentielles et

d’intensité dans le cadre du marquage de la discontinuité de même type (par exemple

valeur [diminué] pour l’onset et [augmenté] pour la borne droite de l’unité) ;

• d’autre part l’utilisation de procédés de marquage de l’unité du paraton tels que la

supra-déclinaison ou le parallélisme tonal.

L’évitement et la réduction des pauses, notamment silencieuses, que nous n’avons pas

détaillé, constituent parmi les stratégies les plus évidentes de marquage de la continuité

discursive.

3.4 Synthèse

Cette troisième section a été pour nous l’occasion de passer en revue la plupart des

procédés prosodiques employés par les locuteurs dans le cadre du marquage de la

discontinuité et de la continuité discursive.

Cette démarche s’est placée dans le cadre d’une approche prônant l’indépendance

relative de la segmentation prosodique par rapport à la syntaxe et qui nous a donné l’occasion

de proposer la représentation des dimensions prosodiques localisées et localisantes à l’aide de

traits (niveau et étendu) et de valeurs (neutre, augmenté et diminué) identiques pour les

espaces fréquentiel, d’intensité et, dans une moindre mesure, de durée.

Nous avons de plus retenu un principe d’organisation prosodique à deux niveaux :

l’unité intonative (ou assimilée) constituant la brique informationnelle indispensable à une

organisation à un niveau supérieur assimilé au paraton, conçu comme lieu privilégié de

développement d’un topique discursif. Cependant, si, par commodité de comparaison des

différentes approches, nous avons choisi de retenir le concept de paraton, une approche en

terme de marquage local (au niveau des unités intonatives, voire même en deçà) nous semble

intéressante, notamment en relation avec la possibilité d’absence de borne initiale, finale et/ou

de supra-déclinaison observée dans la conversation courante.

Nous résumerons l’ensemble des configurations prosodiques observées dans le cadre du

marquage de la discontinuité et de la continuité discursive à l’aide des valeurs regroupées

dans le tableau 7 ci-après131 :

131 Nous avons choisi de représenter les pauses de manière indépendante par souci de clarté.


305

DISCONTINUITE CONTINUITE

Initiale Finale Initiale Finale

Dim. locée > < < >

N > < < > Espace

fréquentiel Dim.

Locante E > < < >

Dim. locée > < N / <

N > < < Espace

d’intensité Dim.

Locante E > < <

Dim. locée > > Espace de

durée Dim. Locante < <

Pause remplie /

silencieuse silencieuse

Espace spectral (breathy) breathy /

creaky

Tableau 7 : Résumé des valeurs impliquées dans le marquage prosodique de la discontinuité

et de la continuité discursive.


Ce chapitre termine la partie majoritairement théorique de ce travail de thèse et en

constitue en quelque sorte une forme de premier aboutissement temporaire. Ainsi, après avoir,

dans le chapitre précédent, tenté d’expliciter nos conceptions concernant l’organisation

globale et les aspects plus formels de la prosodie, nous avons voulu, dans le présent chapitre

apporter un éclairage intégrant des éléments plus fonctionnels.

Nous avons tout d’abord souligné non seulement la diversité des usages prosodiques

mais aussi l’intérêt que pouvait présenter une approche typologique de la fonctionnalité

prosodique dans le cadre de la pragmatisation de la linguistique contemporaine. Plus

précisément, nous avons proposé d’adopter les six fonctions prosodiques suggérées par Di

Cristo 2000 (structurale, de contextualisation, d’expression de l’affect (émotions et attitudes),


306

énonciative, interactionnelle et identificatrice) et avons émis l’hypothèse de leur

hiérarchisation. Nous avons finalement suggéré l’adoption de la typologie de Hirst 1977

concernant ce que nous proposons de considérer comme les primitives fonctionnelles

prosodiques, organisées autour des notions d’accentuation et de frontière au sein de la

fonction structurale. Les fonctions prosodiques de plus haut niveau peuvent alors selon nous

être analysées en tant que constructs complexes fondés sur ces primitives (et les éléments en

provenance d’autres niveaux de l’analyse linguistique) et seront à mettre en relation avec des

analyses formelles indépendantes dans l’objectif d’une caractérisation plus systématique du

rôle de la prosodie dans le discours.

Dans la seconde section, nous avons plus particulièrement focalisé notre attention sur

l’importance de la prosodie dans la distinction informationnelle donné - nouveau. Après une

rapide évocation du lien conventionnel (mais fragile) unissant accent et nouveauté de

l’information, nous avons plus spécifiquement analysé certaines propositions de modélisation

du fonctionnement des anaphores pronominales accentuées dans le discours, configurations

linguistiques complexes dont les fonctions sont relatives simultanément à la continuité et à la

discontinuité discursive. Cette étude a, nous l’espérons, montré non seulement l’intérêt de

telles approches, mais aussi leurs limitations, notamment concernant la prise en compte de la

structuration fonctionnelle de la prosodie dans le cadre d’un dépassement de la classique

dichotomie accentué vs. inaccentué.

La troisième section de ce chapitre, finalement, a été pour nous le lieu de

développement de l’une des thématiques centrales de ce travail de thèse : le rôle de la

prosodie dans la structuration discursive. Nous avons ainsi tout d’abord tenté de montrer

l’intérêt d’une analyse de la prosodie indépendante des autres niveaux de l’analyse

linguistique, et notamment de la syntaxe. Insistons sur le fait que cette indépendance de

l’analyse ne doit bien entendu pas être perçue comme une quelconque autonomie

fonctionnelle de la prosodie dans l’interaction langagière : comme nous l’avons maintes fois

mentionné dans nos travaux au sein du groupe ProDiGE, nous prônons la description

intrinsèque des niveaux linguistiques formels et fonctionnels afin de mieux rendre compte des

interactions multiples qui tissent la trame du discours, heuristique complexe que nous avons

définie plus tôt dans ce travail.

Dans ce cadre, nous avons proposé une modélisation des configurations prosodiques à

l’aide d’un inventaire réduite de traits et de valeurs applicables à plusieurs des espaces

prosodiques ancrés substance que nous avons identifiés dans le chapitre précédent.


307

Nous avons ensuite proposé une analyse de la structure prosodique à deux niveaux

(unité intonative et au-delà), globalement valide tant pour le monologue que pour la

conversation.

Finalement, cette bipartition structurale, couplée à l’abstraction des configurations

prosodiques formelles que nous avons proposée, nous a permis de faire un inventaire

relativement explicite et synthétique des ressources prosodiques mobilisées dans la

structuration du discours, notamment dans le marquage de la continuité et de la discontinuité

initiales et finales.

Parmi les nombreux éléments que nous avons pu citer, notre attention se portera plus

particulièrement dans le reste de ce travail sur le rehaussement de l’attaque ou onset de l’unité

intonative dans le cadre du marquage de la discontinuité discursive initiale. Ce phénomène de

« resetting », qui compte parmi les plus répandus et les plus consensuels, nous semble

particulièrement intéressant : lié de manière étroite à de nombreux autres ressources

mobilisées dans le même contexte (comme par exemple l’augmentation de niveau et

d’étendue fréquentiels ou le délai du pic fréquentiel), le resetting est aussi impliqué de

manière indirecte dans le marquage de la continuité discursive initiale par le biais de la supra-

déclinaison.

L’ensemble de ces liens fait du resetting un repère prosodique fondamental de la

structuration discursive qu’il nous semble intéressant de mettre en relation avec des

phénomènes comparables à d’autres niveaux de l’analyse. C’est pourquoi, plutôt que de

consacrer la partie expérimentale de ce travail à l’influence directe de la prosodie sur

l’attribution référentielle anaphorique, nous nous proposons de nous livrer à une analyse

d’interactions (dont nous allons montré l’existence) dans le cadre du marquage de la

structuration discursive par la prosodie (plus précisément par le resetting) et par l’anaphore

pronominale (inaccentuée), présentée de manière consensuelle comme indice robuste de

continuité.

Nous allons ainsi clore la partie plus spécifiquement théorique de cette thèse et passer à

l’analyse expérimentale des phénomènes et des hypothèses que nous avons pu identifier

jusqu’ici ; au préalable, cependant, nous pensons justifié de faire un résumé synthétique des

concepts les plus fondamentaux que nous avons développés, et de proposer une formulation

plus explicite de nos hypothèses. En conséquence, le bref chapitre suivant, intitulé « Résumé


308

des concepts clés et hypothèses », constituera la charnière entre la partie plus théorique de ce

travail et sa partie expérimentale.

309

Résumé des concepts clés et hypothèses


310

Arrivé au terme de cette évocation à dominante théorique nécessairement lacunaire des

domaines relatifs au discours et aux rôles respectifs de l’anaphore et de la prosodie en son

sein, nous pensons judicieux de proposer un rapide bilan retraçant les positions que nous

avons choisi d’adopter vis-à-vis des concepts fondamentaux abordés jusqu’ici. Nous

organiserons donc cette partie récapitulative de notre travail en terme de rubriques non

hiérarchisées traitant tour à tour de la thématique de la référence, du discours, des approches

traditionnelle et discursive de l’anaphore, de la structure prosodique et, finalement, de son

rôle discursif. Nous terminerons cette partie charnière par la formulation des hypothèses que

nous avons souhaité valider dans le cadre de la partie expérimentale de ce travail de thèse.

La référence

Le premier chapitre de cette thèse nous a permis d’évoquer à grands traits l’évolution du

concept de référence. Nous avons notamment tenté de montrer que l’approche que nous avons

adoptée résulte en fait d’une longue évolution de la linguistique dans son ensemble, depuis

une conception logico-philosophique stricte jusqu’à l’approche cognitivo-pragmatique qui

constitue sans doute aujourd’hui un paradigme important.

Il serait totalement erroné de penser que cette évolution aurait pu s’effectuer de manière

cloisonnée et non cumulative : notre compte-rendu n’est qu’une vision schématique de

certaines positions à certaines époques du développement de la linguistique. Une position

moins réductrice consisterait à noter que les aspects envisagés (logico-sémantique,

pragmatique et cognitif, pour résumer) ont toujours été représentés à des degrés divers, quelle

que soit l’époque considérée ; le caractère dominant d’une approche sur les autres, à une

période donnée, est à prendre en compte dans le cadre plus général de l’histoire des idées, qui

dépasse, on s’en doute, non seulement le cadre de cette thèse, mais aussi celui de nos

compétences. Nous retiendrons cependant que la thématique de la référence semble

aujourd’hui être particulièrement étudiée dans un cadre pragmatique et cognitif dont le

concept de discours se trouve être un produit fondamental.

Le discours

Le concept de discours, nous venons de le rappeler, constitue en fait l’un des produits

principaux de l’approche pragmatico-discursive contemporaine. Plus particulièrement, on

peut considérer que le discours résulte de la transposition pragmatique et cognitive des

questionnements relatifs à la structure des textes. Le texte, en effet, tout d’abord conçu

comme objet linguistique de rang supérieur à la phrase, a rapidement posé des problèmes


311

importants au cadre linguistique (générativiste) qui l’accueillait. Les approches fonctionnelles,

par le biais de la prise en considération de l’organisation informationnelle au sein et au-delà

de la phrase ont joué un rôle de charnière permettant d’ouvrir le texte à la dimension

cognitive, et, par la suite, à de nombreuses autres dimensions.

Au terme du chapitre consacré à l’évocation de ce concept, nous avons proposé de

définir le discours comme une heuristique complexe de l’activité de communication humaine

par l’intermédiaire d’un texte verbal, para-verbal et non verbal, à la fois trace de et indice

pour les processus cognitifs (au sens large) qui président à sa production et à son

interprétation situées. Présentant le discours comme une heuristique, nous n’adoptons pas la

conception répandue d’un discours-unité ; nous préférons l’envisager de manière dynamique

comme un processus de communication entre interactants mettant en jeu un texte multimodal

qu’ils construisent et interprètent de manière commune. Nous reconnaissons cependant la

pertinence extrême d’une famille d’approches abordant ce processus selon divers angles, dans

le cadre d’une « perspective discursive » relativement consensuelle. C’est d’ailleurs dans cette

perspective, plutôt que dans le cadre d’une approche plus traditionnelle, que nous avons

proposé d’analyser le fonctionnement de l’anaphore

Anaphore : d’une approche traditionnelle à une approche discursive

Les chapitres 2 et 4 ont été pour nous l’occasion de rappeler sommairement les

positions respectivement traditionnelle et discursive de l’anaphore. Cette fois encore, étant

donnée la masse colossale des travaux effectués sur la question, notre compte-rendu n’a été,

au mieux, qu’une synthèse partielle de quelques questions importantes. Nous retiendrons

cependant que l’adoption d’une perspective discursive permet d’apporter des réponses

intéressantes aux problèmes posés par les descriptions classiques.

Dans ce contexte, nous avons proposé de concevoir l’anaphore comme une procédure

de gestion des modèles mentaux des interactants. L’anaphore pronominale, plus

particulièrement, a été dissociée des notions de coréférence et de reprise, fondamentales dans

l’approche traditionnelle ; dans l’approche que nous adoptons, la référence des expressions

anaphoriques pronominales est établie de manière inférentielle, à la fois ascendante et

descendante, sur la base d’informations provenant principalement :

• de leur contenu conceptuel : en général, caractère humain ou non humain, genre et

nombre ;

• des informations fournies par le segment indexical qui les contient ;


312

• et sur la base de relations de cohérence liées à l’interprétation du segment au sein du

discours.

Les anaphores pronominales inaccentuées sont ainsi typiquement utilisées pour

maintenir le statut attentionnel privilégié d’une entité cognitive, et constituent par là même

une marque de continuité discursive parmi les plus robustes.

Organisation prosodique

Nous proposons de concevoir la prosodie comme un système multiparamétrique et

multidimensionnel complexe. Plus précisément, nous pensons possible de concevoir la

prosodie comme composée de quatre systèmes en relation avec la substance sonore de la

parole (les espaces fréquentiel, d’intensité, de durée et spectral) et d’un système plus abstrait,

l’espace métrique, organisé autour des notions de proéminence et de frontière et dont la

fonction principale est d’assurer une voie privilégiée d’interfaçage avec les phénomènes

linguistiques non prosodiques, et notamment la syntaxe.

Selon nous, chaque espace peut et doit être analysé à plusieurs niveaux d’abstraction (a

minima, le niveau physico-acoustique, le niveau phonétique, le niveau phonologique de

surface et le niveau phonologique profond) afin d’une part de permettre la description

formelle des primitives et des constructions prosodiques et, d’autre part, d’envisager la mise

en relation systématique de ces dernières avec les fonctions assumées par la prosodie,

notamment au niveau discursif.

Prosodie et discours

L’intégration progressive de la prosodie à la linguistique s’est effectuée, nous l’avons

mentionné, par une mise en rapport systématique avec les unités définies au sein des

différents domaines de cette dernière. La prosodie lexicale, qui a en quelque sorte constitué le

point d’entrée de la prosodie est ainsi généralement représentée comme un domaine à part

entière : en effet, bien qu’utilisant les mêmes ressources que « le reste » de la prosodie, celle-

ci, fait significatif, se voit par exemple dotée d’une terminologie spécifique (ton, accent

lexical et quantité). La recherche intense de correspondance entre syntaxe et prosodie, de

manière assez prévisible, a constitué une seconde étape de cette intégration. On comprendra

dès lors que la prise en compte linguistique du niveau discursif, sous l’influence d’une

dynamique de pragmatisation de la linguistique, ne pouvait manquer de se répercuter au

niveau de la prosodie.


313

Opérant une inévitable sélection parmi les nombreux rôles joués par la prosodie dans le

discours, nous avons choisi de nous intéresser aux relations unissant accent et statut

informationnel (notamment dans le cadre de l’attribution référentielle pour les expressions

anaphoriques) ainsi que, de manière plus centrale, aux faisceaux de paramètres prosodiques

impliqués dans le marquage de la cohésion discursive. Nous avons choisi de retenir plus

particulièrement le phénomène fréquentiel de resetting, défini comme une élévation

significative de la valeur de l’attaque ou onset d’une unité intonative et qui constitue une

marque consensuelle de discontinuité discursive initiale.

Quelques hypothèses

Les quelques problèmes liés à l’anaphore discursive que nous venons d’évoquer nous

ont permis d’isoler trois phénomènes mêlant intimement prosodie et anaphore dans le cadre

que nous avons délimité.

Le premier phénomène est relatif à l’influence de l’accentuation sur le fonctionnement

des pronoms anaphoriques, notamment leur attribution référentielle ; passionnant, ce domaine

a déjà fait l’objet d’études qui, sans avoir complètement « fait le tour de la question »,

donnent un ensemble de réponses relativement satisfaisantes.

Le second phénomène, à notre connaissance moins étudié, met en relation la prosodie et

l’anaphore en tant que marques de continuité discursive. En effet, les phénomènes

prosodiques tels que, par exemple, l’abaissement de valeur d’onset ou les effets d’écho entre

configurations tonales (parmi tant d’autres) semblent constituer, comme nous l’avons suggéré,

des indices procéduraux destinés à faciliter l’intégration du segment de discours qui les

contient au sein du modèle développé par les interactants. Comme nous l’avons vu, ce

fonctionnement est tout à fait similaire à celui des pronoms anaphoriques. D’autres

configurations sont en général liées au marquage de la discontinuité et impliquent en général

soit les mêmes valeurs prosodiques en position finale, soit les valeurs complémentaires dans

la même position.

Il nous semble dès lors intéressant d’étudier plus avant le fonctionnement « en

commun » de ces deux types de marque de cohésion. Les valeurs d’onset, notamment, qui

résultent d’un ensemble de contraintes psycho-physiologiques (en relation avec la

déclinaison) et discursives (marquage de la continuité et de la discontinuité) semblent

constituer un sujet particulièrement intéressant.


314

Les travaux que nous poursuivons avec les autres membres du groupe ProDiGE mettent

en évidence l’intérêt d’une approche du discours mettant en relation un ensemble d’indices à

de nombreux niveaux de l’analyse linguistique. Notre hypothèse fondamentale est qu’il existe

une interaction entre les marques de continuité discursive que peuvent être les valeurs d’onset

et les pronoms anaphoriques. Nous allons envisager ces possibles relations sous les deux

aspects complémentaires de la production et de la perception, en anglais et en français.

Dans le cadre de l’étude des aspects de production, nous avons travaillé avec des

données authentiques extraites du corpus d’anglais britannique Aix-MARSEC, développé en

collaboration avec Caroline Bouzon sous la direction de Daniel Hirst au sein du groupe EPGA

(English Prosody Group of Aix).

L’étude des aspects perceptifs de notre thème de recherche a été menée dans le cadre de

tests en français, destinés à valider les hypothèses formulées à l’issue de l’étude des aspects

de production.

Des conditions idéales auraient pu nous permettre d’étudier les deux aspects que nous

venons de mentionner pour ces deux langues : nous aurions ainsi pu nous livrer à des analyses

identiques sur des corpus oraux en anglais et en français, ainsi qu’à des tests de perception

avec des locuteurs natifs de ces deux langues. Des contraintes de disponibilité, concernant tant

les corpus que les sujets, nous ont malheureusement contraint à ce protocole croisé qui

constitue donc la première partie du projet de recherche que nous proposons de poursuivre sur

le long terme. Comme nous allons à présent le voir, cependant, les analyses que nous avons

menées nous permettent d’éclairer certains aspects du fonctionnement discursif qui mériteront

d’être approfondis dans des travaux ultérieurs.

315

Partie 4 :

Approche expérimentale des relations prosodie-anaphore

Partie 4 – Approche expérimentale des relations prosodie-anaphore

316

Nous pourrons retenir des parties précédentes l’attention particulière que nous avons

portée au rôle joué par l’anaphore et la prosodie dans l’organisation du discours.

Si un nombre non négligeable d’études traitent de l’influence des configurations

prosodiques accentuelles sur l’interprétation anaphorique, il n’en existe à notre connaissance

aucune qui se propose d’analyser le comportement conjugué et les potentielles influences

réciproques des marques de continuité anaphoriques et prosodiques. Etant donné le cadre

d’analyse que nous avons proposé, inspiré des travaux du groupe ProDiGE, il ne sera dès lors

pas étonnant que nous nous livrions à ce type de recherches. Le discours envisagé comme une

heuristique complexe implique chez les interactants la prise en compte dynamique d’indices

multiformes et polyfonctionnels à de nombreux niveaux de l’analyse linguistique ; de manière

nécessairement plus modeste, notre contribution consistera à analyser les relations unissant

des éléments de deux de ces niveaux, à la recherche d’interactions potentielles.

D’une part, l’anaphore pronominale, caractérisée par son affinité avec les entités

discursives les plus saillantes, constitue une marque robuste de continuité. D’autre part, nous

avons montré que la prosodie, parmi les nombreuses fonctions qu’elle assume dans le

discours, constitue une ressource fondamentale de la segmentation et de l’organisation du

monologue et de la conversation. Des configurations prosodiques telles que la diminution de

la valeur de l’onset, du niveau et de l’étendue fréquentiels et de l’intensité sont, nous l’avons

vu, des marques typiques de la continuité du discours. Une augmentation de ces valeurs, a

contrario, et notamment un resetting important, marque une discontinuité de manière robuste

dans de nombreuses langues.

Etant donnés les objectifs que nous nous sommes fixés et notre désir d’aborder tant les

aspects relatifs à la production que ceux relatifs à la perception des phénomènes qui nous

intéressent, cette partie s’organisera en trois phases successives.

Nous présenterons ainsi tout d’abord le corpus d’anglais britannique Aix-MARSEC que

nous avons développé en collaboration avec Caroline Bouzon et sous la direction de Daniel

Hirst au sein du groupe EPGA du Laboratoire Parole et Langage. La constitution de cette base

de données de parole authentique, qui a occupé une part importante de notre temps de travail

de thèse, a constitué la base fondamentale de notre analyse expérimentale des aspects de

production, elle-même présentée dans le chapitre suivant.

En effet, nous consacrerons plus particulièrement le second chapitre de cette troisième

partie à l’analyse de l’influence du marquage de la continuité discursive par l’anaphore sur la

Partie 4 – Approche expérimentale des relations prosodie-anaphore

317

réalisation des onsets dont nous venons de rappeler qu’ils pouvaient être polyvalents. Plus

précisément, nous justifierons et exposerons de manière plus explicite et détaillée nos

hypothèses de travail, avant de présenter le protocole mis en place et les résultats obtenus

dans le cadre de cette analyse.

Finalement, le troisième chapitre de cette partie expérimentale sera pour nous l’occasion

de proposer en quelque sorte une contrepartie perceptive aux aspects de production évoqués

précédemment. Nous fournirons un compte-rendu de tests de perception effectués en français,

et tenterons par là même d’éclairer les phénomènes mis en évidence dans l’étude évoquée

dans le chapitre précédent dans le cadre d’une approche multilingue.

319

Chapitre 7

Constitution de la base de données Aix-MARSEC

320


1 Aix-MARSEC : un corpus, une base de données, un projet ................... 322 1.1 Le corpus........................................................................................................................ 322 1.2 La base de données........................................................................................................ 322 1.3 Le projet......................................................................................................................... 323 1.4 Synthèse ......................................................................................................................... 324 2 Aix-MARSEC : les origines ........................................................................ 325 2.1 De SEC à MARSEC...................................................................................................... 325

2.1.1 Le Spoken English Corpus................................................................................... 325 2.1.2 Le corpus MARSEC ............................................................................................ 328

2.2 Traitements préliminaires............................................................................................ 329 2.2.1 Homogénéisation : correspondance texte-audio .................................................. 329 2.2.2 Première approche de l’alignement...................................................................... 329

3 Les traitements spécifiques......................................................................... 330 3.1 Phonétisation ................................................................................................................. 330

3.1.1 Différentes approches .......................................................................................... 330 3.1.2 Principes de phonétisation Aix-MARSEC........................................................... 332 3.1.3 Traitements spécifiques........................................................................................ 333 3.1.4 Problèmes spécifiques.......................................................................................... 335

3.2 Optimisation par règles d’élision................................................................................. 335 3.2.1 Condition d’application des règles....................................................................... 336 3.2.3 Règles d’élision.................................................................................................... 338 3.2.4 Évaluation des règles d’élision ............................................................................ 342

3.3 Alignement du corpus Aix-MARSEC ......................................................................... 344 3.3.1 Méthodes d’alignement........................................................................................ 344 3.3.2 Evaluation ............................................................................................................ 345

3.4 Autres niveaux d’analyse ............................................................................................. 349 3.4.1 Unités syllabiques ................................................................................................ 350 3.4.2 Unités rythmiques ................................................................................................ 350 3.4.3 Annotation fréquentielle ...................................................................................... 351

4 Synthèse générale ........................................................................................ 351

Chapitre 7 – Constitution de la base de données Aix-MARSEC

321

Avant de nous livrer à l’étude des interactions entre anaphore pronominale discursive et

valeurs d’onset (chapitres 8 et 9), nous allons consacrer ce premier chapitre de notre partie

expérimentale à la présentation du projet Aix-MARSEC.

Plus particulièrement, la première section de ce chapitre sera pour nous l’occasion de

préciser les différents aspects par lesquels Aix-MARSEC peut être approché. Nous

mentionnerons ainsi le « projet » Aix-MARSEC en tant que concept global, avant d’aborder

les aspects « corpus » et « base de données évolutive ».

La seconde section explicitera les origines du corpus Aix-MARSEC, depuis son ancêtre

le Spoken English Corpus (ou « SEC ») jusqu’à son état actuel en détaillant notamment les

différentes étapes menant de SEC à MARSEC (« Machine Readable Spoken English

Corpus »), second stade de développement du corpus. Nous inclurons aussi dans cette

seconde section la présentation des traitements préliminaires qui, fondés sur MARSEC, ont

posé la base de la constitution propre d’Aix-MARSEC.

La troisième section de ce chapitre, finalement, exposera le détail des traitements

spécifiques impliqués dans la constitution d’Aix-MARSEC. Nous aborderons ainsi

consécutivement les phases de phonétisation, d’optimisation et d’alignement de la

transcription phonétique avec le signal sonore qui permettent à Aix-MARSEC d’être l’un des

rares corpus de parole authentique proposant une granularité maximale d’alignement aux

niveau du phonème.

Nombre des traitements mis en œuvre dans la constitution du corpus Aix-MARSEC

sont le fruit du travail collaboratif de Caroline Bouzon, Daniel Hirst et de l’auteur ; nous

tâcherons néanmoins de préciser, lorsque cela sera possible, la part exacte du travail que nous

avons réalisé à titre personnel.

Notons pour conclure ces remarques liminaires que ce compte-rendu s’appuie

principalement sur une série de publications produites au sein du groupe EPGA et dont Auran

& Bouzon 2003, Auran et al. 2004a et 2004b sont des éléments représentatifs.


322

1 Aix-MARSEC : un corpus, une base de données, un projet

Avant de nous livrer à la présentation détaillée des origines et de la constitution d’Aix-

MARSEC, nous souhaitons faire un rapide point terminologique et conceptuel.

En effet, nous pensons qu’Aix-MARSEC peut être abordé sous trois angles

complémentaires, en tant que (sans ordre) corpus, base de données et projet. Nous allons en

conséquence nous pencher sur ces trois aspects dans les trois rubriques de cette courte section

introductive.

1.1 Le corpus

Il nous semble important de souligner qu’AIX-MARSEC est sans doute considéré

majoritairement par nombre de chercheurs qui connaissent son existence comme un corpus.

En effet, rassemblement d’enregistrements audio numériques accompagnés de leur

transcription à plusieurs niveaux (du phonème à l’unité intonative, comme nous le verrons

plus loin), Aix-MARSEC présente touts les caractéristiques d’un corpus classique.

Aux habitués des corpus écrits qui pourraient s’étonner d’une apparente petitesse d’Aix-

MARSEC (environ 5 heures de parole), nous rappellerons que le traitement des données

audio, que ce soit pour leur enregistrement (originellement dans le corpus SEC) ou leur

traitement (transcription orthographique, annotation, alignement, extraction des données,

etc.), représente une quantité de travail et une difficulté sans commune mesure avec les corpus

purement orthographiques ; ces derniers, bien entendu, présentent eux aussi un intérêt majeur

pour la linguistique et réclament pour leur élaboration des outils et des compétences

extrêmement importantes, mais exigent, à quantité égale (exprimée en mots par exemple), un

traitement peut être moins complexe.

Si l’on prend de plus en compte la granularité phonématique de l’alignement, la

multitude des niveaux d’annotation proposés et la mise à disposition gratuite du corpus, Aix-

MARSEC figure de plein droit au sein du club assez fermé des corpus majeurs d’anglais oral.

1.2 La base de données

Par opposition à la vision traditionnelle du corpus comme objet constitué et statique,

une seconde conception d’Aix-MARSEC consiste à le considérer comme une base de données

évolutive.


323

Une base de données, tout comme un corpus, consiste fondamentalement en une

collection d’informations diverses ; la base de données se distingue cependant du corpus par

le fait qu’elle implique une structuration particulière des données et une possibilité de requête,

caractéristiques toutes deux présentes dans Aix-MARSEC.

Aix-MARSEC comporte à la fois des informations sonores (sous la forme de 408

fichiers au format Microsoft WAV) et textuelles (ensemble de fichiers au format ASCII,

lisible sur tout ordinateur). La structuration des enregistrements en catégories, héritée comme

nous le verrons ci-dessous de SEC, constitue un premier niveau d’organisation de ces deux

types d’informations. Le format de fichier retenu dans Aix-MARSEC, d’autre part,

correspondant à la norme TExtGrid pour le logiciel Praat (cf. Boersma et Weenink 1996 et

2000), isole les informations sur des niveaux distincts (« tiers ») et permet facilement la

formulation de requêtes soit directement à partir de Praat, soit à l’aide d’outils tels que ceux

que nous avons-nous même développés dans le cadre de ce travail de thèse (cf. chapitre 8).

Mail il faut noter de plus, qu’Aix-MARSEC comporte une dimension dynamique qui ne

cadre pas avec la conception classique du corpus comme objet statique et abouti. Comme

nous avons eu l’occasion de le répéter lors des présentations d’Aix-MARSEC que nous avons

pu effectuer, la seule véritable condition à l’exploitation de cette base de données consiste en

un engagement de la part des utilisateurs à soumettre aux responsables (les membres du

groupe de travail EPGA) les éventuels ajouts d’information qu’ils auront pu effectuer

(nouvelles annotations, tagging, parsing, etc.). Nous considérons en effet Aix-MARSEC dans

le prolongement de la démarche cumulative qui a présidé à sa constitution et proposons

l’intégration raisonnée de nouveaux niveaux, permettant ainsi la croissance continue de la

base.

1.3 Le projet

Un troisième aspect d’Aix-MARSEC que nous souhaiterions évoquer est relatif à sa

conception en tant que projet. Deux éléments nous pousse à retenir cette troisième acception.

Notons tout d’abord qu’Aix-MARSEC ne se résume en réalité pas à son corpus, ni

même à sa base de donnée ; en effet, la distribution courante d’Aix-MARSEC (v1.01 à ce

jour) comporte non seulement l’état actuel de la base de données, mais aussi l’ensemble des

outils (scripts en langage Perl et Praat, fichiers-dictionnaires) qui ont été utilisés dans le cadre


324

de son développement132. L’utilisateur peut ainsi non seulement suivre toutes les étapes que

nous décrirons plus loin (cf. § 3) mais aussi apporter des modifications précises à certaines

phases ou adapter et utiliser ces outils dans le cadre d’autres recherches133.

De plus, le travail d’équipe qui a servi de cadre au développement d’Aix-MARSEC,

constitue selon nous un second argument en faveur de sa conception en tant que projet. Ainsi,

si nous ne pouvons manquer d’évoquer le groupe EPGA134 (« English Prosody Group of

Aix ») au sein duquel le projet a pris forme, nous noterons aussi une collaboration au-delà du

Laboratoire Parole et Langage, avec le Laboratoire d’Informatique d’Avignon135 (UPR 931 et

CNRS FRE2487), et notamment Christophe Lévy et Pascal Nocéra.

Les perspectives de développement envisagées, finalement, comme nous l’évoquerons,

en fin de chapitre, nous semblent être un dernier argument en faveur du statut de projet,

notamment dans la connotation prospective du terme.

1.4 Synthèse

Nous résumerons cette courte mise au point terminologique en disant que le corpus Aix-

MARSEC est un élément d’une base de données elle-même élément du projet Aix-MARSEC,

qui implique un ensemble de chercheurs appartenant à plusieurs laboratoires dans le cadre du

développement d’outils et de la proposition de nouvelles annotations.

Pour des raisons de simplicité, cependant, nous nous limiterons dans ce travail de thèse

au terme plus spécifique de « corpus » lorsque nous mentionnerons Aix-MARSEC, sans que

cela remette en cause la multiplicité de points de vue que nous venons d’évoquer.

Nous allons à présent (§ 2) retracer les grandes étapes qui ont précédé Aix-MARSEC

avant de nous livrer (§ 3) à une présentation plus détaillée des traitements spécifiques que

nous avons mis en place.

132 Les outils liés aux algorithmes MOMEL et INTSINT (cf. chapitre 5) ne sont pas inclus dans la distribution,

mais sont librement téléchargeables depuis la rubrique « ressources » de notre site (http://www.lpl.univ-

aix.fr/~auran/). 133 Ces outils sont soumis à la licence GNU GPL. 134 Visitez le site du groupe à l’adresse suivante : http://www.lpl.univ-aix.fr/~EPGA/ 135 http://www.lia.univ-avignon.fr


325

2 Aix-MARSEC : les origines

Cette seconde section va s’organiser de manière chronologique autour des principales

étapes antérieures ou préliminaires à la constitution du corpus Aix-MARSEC.

Dans une première rubrique, nous détaillerons ainsi les deux phases antérieures du

corpus (SEC et MARSEC) en nous concentrant plus précisément sur les aspects quantitatifs

(durée, nombre de locuteurs, etc.) et qualitatifs (notamment relatifs au système d’annotation

choisi) les plus importants.

La seconde rubrique de cette section présentera ensuite plus en détail les traitements

préliminaires de vérification et d’homogénéisation qui ont permis de fournir une base pour les

traitements plus spécifiques à Aix-MARSEC.

2.1 De SEC à MARSEC

Il est important de noter que le corpus Aix-MARSEC constitue en fait le troisième stade

de développement du corpus originel SEC (« Spoken English Corpus ») ; le second stade de

développement, connu sous la forme du corpus MARSEC (« Machine Readable Spoken

English Corpus ») est donc à considérer136 comme une phase intermédiaire qui a constitué le

point de départ des traitements que nous avons effectués dans le cadre du projet Aix-

MARSEC.

Remarquons pour terminer ce préambule que nos travaux se sont inscrits dans le cadre

d’une démarche cumulative non destructive et que la quasi totalité des traitements opérés

consistent en un ajout d’information, synonyme d’un enrichissement du corpus de départ.

2.1.1 Le Spoken English Corpus

SEC (« Spoken English Corpus ») est un corpus d’anglais britannique standard

contemporain, d’une durée totale de plus de cinq heures de parole authentique, contenant

approximativement 55.000 mots répartis dans 411 fichiers représentant onze styles de parole

différents. Ces onze catégories sont représentées ci-après :

136 De manière rétrospective et du point de vue d’Aix-MARSEC, bien entendu.


326

Groupe A : Commentaires Groupe B : Bulletin d’informations

Groupe C : Parole publique de type I Groupe D : Parole publique de type II

Groupe E : Emissions religieuses Groupe F : Reportages

Groupe G : Fiction Groupe H : Poésie

Groupe J : Dialogues Groupe K : Propagande

Groupe M : Divers

Tableau 8 : Styles de parole du SEC.

Ces différents styles proviennent des archives de la BBC (années 1980) et présentent un

certain éventail de catégories de discours et peuvent être exploités séparément lors d’études

expérimentales. En effet, ce corpus peut non seulement être exploité dans sa totalité en tant

qu’échantillon de parole authentique (dans l’acception que nous avons proposé en

introduction), mais aussi permettre l’observation et la comparaison d’un ou plusieurs styles

spécifiques.

Le corpus rassemble 17 femmes et 36 hommes soit un total de 53 locuteurs. Divers

chercheurs appartenant à l’université de Lancastre et au groupe IBM sont à l’origine du projet

SEC, notamment G. Knowles, P. Alderson, B. Williams et L. Taylor.

Différents niveaux d’information sont présents dans le SEC. Ainsi, outre le signal

sonore, le corpus a été transcrit orthographiquement (version ponctuée et version non

ponctuée), étiqueté morphosyntaxiquement grâce au système CLAWS (cf. Garside 1987) et

annoté prosodiquement par G. Knowles et B. Williams à l’aide d’un ensemble de quatorze

marques tonétiques (« tonetic stress marks » ou « TSM »). Les symboles utilisés par les deux

transcripteurs sont résumés dans la figure 44 ci-après :


327

Figure 44 : Marques prosodiques (TSM) utilisés dans SEC137.

Chaque syllabe accentuée est précédée d’un accent tonétique indiquant le mouvement

de la fréquence fondamentale ; ce mouvement débute sur la syllabe annotée et continue

jusqu’à la syllabe accentuée ou la frontière d’unité intonative suivante (Roach 1994)138.

Afin de tester la fiabilité de l’annotation prosodique, 24 passages (soit 9% de la totalité

des fichiers) ont été annotés par les deux transcripteurs ; nous parlerons ici

de « chevauchement » dont l’étude révèle une homogénéité certaine des annotations (plus de

80% d’accord selon Knowles 1993), mais aussi certaines différences systématiques

exploitables avec profit (cf. Wichmann 2000).

Les mots sont regroupés en unités intonatives (UI) mineures et majeures, définies en

fonction de critères phonétiques (pause, allongement final, rupture rythmique), mais aussi

syntaxiques (la rupture relative à la présence d’une frontière soit être « syntaxiquement

137 Nous remercions Anne Wichmann de nous avoir fait remarquer que cette figure empruntée au site d’ICAME

(http://khnt.hit.uib.no/icame/manuals/sec/VERS.HTM#5i) comporte une erreur concernant l’antépénultième

accent tonétique qui n’est en fait pas un “Low rise fall”, mais le symbole d’une pause non-structurelle ; le

traitement des données ne s’est pas appuyé sur cette interprétation erronée. 138 Nous ne présenterons pas ici le détail de ce système d’annotation qui bien que préservé dans sa version

MARSEC dans Aix-MARSEC, n’a pas été exploité de manière détaillée dans les travaux présentés ici (le lecteur

se réfèrera avec profit à Willimans 1996 pour une mise en perspective avec d’autres systèmes de transcription).


328

possible » ; cf. par exemple Williams 1996 : p. 51). Cette structuration implique de plus une

hiérarchie stricte (les unités mineures, délimitées par une pause plus courte, sont contenues

dans des unités majeures), dont nous avons soulevé quelques difficultés lors du chapitre 6.

Nous montrerons cependant dans le chapitre 8 que cette structure peut être utilisée avec profit

dans le cadre que nous proposons.

2.1.2 Le corpus MARSEC

SEC a ensuite été adapté dans le but de le rendre exploitable de manière informatique et

est alors devenu le corpus MARSEC (« MAchine Readable Spoken English Corpus »).

Les modifications apportées à SEC portent tout d’abord sur les marques prosodiques ;

en effet, les symboles utilisés dans SEC posaient un problème fondamental de portabilité,

notamment dans le cadre de l’utilisation de logiciels de traitement du signal. En conséquence,

ces quatorze marques ont été homogénéisées et modifiées afin de comporter uniquement des

symboles ASCII (facilement accessibles à partir du clavier de tout type d’ordinateur),

présentés dans le tableau 9 ci-dessous. Ces symboles sont utilisés selon un mode de

fonctionnement identique à celui de SEC, mais permettent une implémentation informatique

facilitée.

_ low level , low rise

~ high level ‘ low fall

< step-down ,\ (low rise-fall – not used)

> step-up \, low fall-rise

/’ (high) rise-fall * stressed but unaccented

‘/ high fall-rise | minor intonation unit boundary

/ high rise

\ high fall

|| major intonation unit boundary

Tableau 9 : Symboles ASCII utilisés dans MARSEC.

L’ajout fondamental apporté à MARSEC est l’alignement temporel du signal sonore au

niveau du mot. En effet, la totalité des mots transcrits orthographiquement a été alignée

temporellement avec le signal sonore. Cet alignement se présente sous la forme de fichiers


329

(format texte) avec une suite de balises temporelles marquant le début et la fin de chaque mot.

Que le lecteur ne se laisse pas influencer par la taille minime du paragraphe que nous

consacrons à ce point : cet alignement représente une évolution d’un ampleur énorme et dont

l’importance est fondamentale ; notamment dans le cadre des traitements spécifiques que nous

avons mis en place dans Aix-MARSEC.

2.2 Traitements préliminaires

Les traitements préliminaires du corpus Aix-MARSEC ont principalement consisté en

une homogénéisation et une vérification de l’alignement, phases précédant les traitements

automatiques spécifiques au projet Aix-MARSEC. Encore une fois, la taille des paragraphes

consacrés à ces points ne doit conduire le lecteur à minimiser ni le travail important lié à ces

étapes, ni son caractère crucial.

2.2.1 Homogénéisation : correspondance texte-audio

La première étape de traitement (réalisée en collaboration avec Caroline Bouzon) a

consisté à vérifier manuellement la correspondance exacte entre les fichiers sonores et les

fichiers d’étiquettes en mot. C’est lors de cette étape que trois fichiers du corpus ont été

abandonnés pour cause de signal défectueux ou de manque d’étiquettes.

Notons que ce tri s’est avéré nécessaire notamment en raison des 9% d’annotation

commune (le chevauchement évoqué plus haut). En effet, notre objectif n’étant de retenir

qu’une seule transcription par fichier sonore139, nous avons mis la dénomination des fichiers

de transcription en conformité avec celle des fichiers audio et avons arbitrairement conservé

la transcription de Briony Williams en cas de chevauchement.

2.2.2 Première approche de l’alignement

La deuxième étape de cette homogénéisation a consisté à vérifier manuellement

l’alignement entre la totalité des 55.000 étiquettes de mots et le signal sonore correspondant.

Pour cela, les fichiers d’étiquettes (format texte) ont été convertis en format TextGrid, à

savoir le format d’étiquettes utilisé dans le logiciel Praat (cf. Boersma et Weenink 1996 et

2000), à l’aide du script 01_mtomultitxtgrid.pl (version 3) que nous avons développé en

langage Perl.

139 Les fichiers non utilisés sont conservés dans les archives Aix-MARSEC.


330

En effet, Praat permettant un contrôle auditif et visuel simultané du signal pour la

vérification de l’alignement, tout décalage de plus de 50 millisecondes entre le signal et les

étiquettes de mot a été corrigé manuellement (Caroline Bouzon : travail de DEA) dans le but

d’obtenir des données plus fiables.

De telles modifications concernent environ 20% des fichiers, que nous avons

sauvegardés avec une extension supplémentaire (« _mod ») afin de pouvoir les identifier

aisément.

3 Les traitements spécifiques

Nous allons à présent terminer ce chapitre par une présentation détaillée des traitements

spécifiques à la constitution du corpus Aix-MARSEC. Nous regrouperons ces traitements en

quatre rubriques portant respectivement sur la phonétisation de la transcription

orthographique, l’optimisation de cette phonétisation, son alignement avec le signal de parole,

et les annotations de plus haut niveau qui viennent compléter Aix-MARSEC.

3.1 Phonétisation

La phase de transcription phonématique du signal sonore est une étape fondamentale

pour de nombreuses études expérimentales en phonétique ; ce type d’annotation est également

nécessaire à l’obtention des niveaux supérieurs de représentation que sont les constituants

syllabiques et la syllabe ou encore des unités rythmiques telles que les pieds accentuels selon

le modèle d’Abercrombie 1967.

3.1.1 Différentes approches

La transcription phonétique d’un corpus oral peut revêtir des formes très diverses en

fonction des besoins des utilisateurs, des hypothèses de leur cadre théorique ou encore des

données disponibles. On remarquera notamment qu’une prise de position dans le cadre d’une

phonologie/phonétique articulatoire induira l’utilisation de méthodes spécifiques (Damper

2001 : chapitre 8) qui dépassent le cadre de ce travail.

Les méthodes destinées à fournir la transcription phonémique d’un corpus oral (étape

qui correspond à ce que nous avons défini plus haut comme une « annotation simple ») sont

elles aussi nombreuses et diverses. On peut cependant regrouper ces méthodes en deux

grandes catégories selon qu’une annotation orthographique du corpus est disponible ou pas.


331

Dans l’éventualité où seuls les enregistrements sont disponibles, la tâche correspond à

un processus de reconnaissance de la parole. C’est alors typiquement à une méthode

stochastique que l’on va avoir recours : chaque phonème est en général modélisé à l’aide d’un

HMM (« Hidden Markov Model » ou « modèle de Markov caché »). Dans le cadre d’un

système de « décodage acoustico-phonétique », les séquences possibles de phonèmes ne sont

pas contraintes : on ne prend pas en compte le contexte afin de définir une probabilité

d’apparition d’un segment donné ; dans le cadre d’un véritable système de reconnaissance de

la parole, les séquences de phonèmes sont en général conditionnées par leur contexte (on

utilise typiquement des « n-grammes » afin de sélectionner les séquences dont la probabilité

d’apparition est la plus élevée).

Lorsqu’une annotation orthographique existe pour le corpus, la tâche consiste à générer,

à partir de celle-ci, la suite de phonèmes correspondant le mieux au signal annoté. On est alors

dans le cadre de la phonétisation d’un texte orthographique, aussi appelée « conversion

graphème-phonème » (« Grapheme-(to-)Phoneme Conversion » ou « G2P » dans la littérature

de langue anglaise) et qui constitue l’une des étapes fondamentales de tout système de

synthèse de la parole à partir du texte (Damper et al. 1999). Plusieurs méthodes sont là aussi

disponibles ; sans entrer dans le détail de l’inventaire de ces méthodes, nous noterons que l’on

peut les classer en deux grandes catégories selon :

• qu’elles font appel principalement à des règles phonologiques produites de manière

non automatique (« rule-based systems », cf. McIlroy 1973 pour l’un des premiers

systèmes ou Divay & Vitale 1997 pour l’un des plus récents) ou, au contraire,

• qu’elles s’appuient sur différentes méthodes automatiques fondées sur l’exploitation

directe de données (« data-driven systems ») : on pensera dans cette catégorie à des

algorithmes de prononciation par analogie (implicite ou explicite, cf. Damper &

Eastmond, 1997), à NETspeak (un réseau de neurones de type « perceptron multi-

couche », cf. Rumelhart et al. 1986) ou encore à IB1-IG (fondé sur une méthode

statistique de classification automatique, cf. Daelemans et al. 1997 et Van Den Bosch

1997).

Tous ces systèmes ont en commun un fonctionnement fondé sur la recherche d’entrée

dans un lexique/dictionnaire phonétisé (c'est-à-dire comportant des transcriptions en

phonèmes).


332

Le système de phonétisation utilisé pour le corpus Aix-MARSEC, vers lequel nous

allons à présent nous tourner, appartient à la première de ces catégories : en effet, fondé sur la

recherche d’entrées dans un lexique, il est ensuite complété par l’utilisation de règles

phonotactiques destinées à simuler certains des phénomènes de production spécifiques à la

parole continue. La démarche adoptée est d’inspiration clairement linguistique, caractérisée

par un équilibre entre portabilité (lexique auquel viennent s’ajouter certaines règles

phonotactiques et contraintes non spécifiques à la langue) et applicabilité spécifique à

l’anglais britannique oral (ensemble de contraintes et de règles phonotactiques spécifiques à la

langue).

3.1.2 Principes de phonétisation Aix-MARSEC

De manière plus précise, le fonctionnement global du système de phonétisation utilisé

dans ce travail consiste à rechercher automatiquement chacun des mots du corpus (à partir de

l’alignement orthographique) dans un dictionnaire électronique de prononciation à l’aide de

scripts Perl. Le dictionnaire utilisé est l’Advanced Learners’ Dictionary (publié par Oxford

University Press) qui contient un nombre total d’environ 71.000 mots.

Lors de la conversion graphème-phonème, une série d’environ 700 mots présents dans

le corpus n’avait aucune correspondance dans le dictionnaire ; il s’agit ici principalement de

noms propres associés à des personnalités ou à des lieux. Un dictionnaire de formes

complémentaires a ainsi été créé dans lequel se trouve la transcription manuelle de la totalité

de ces mots à partir du dictionnaire de prononciation Wells 1990. Par conséquent, pour

chaque mot du corpus absent du dictionnaire de prononciation principal, on cherche son

entrée dans ce deuxième dictionnaire de mots complémentaires.

Ce premier système de conversion graphème-phonème permet d’obtenir une

transcription phonologique de surface puisque le dictionnaire liste des formes de citation. Or,

la spécificité de la parole naturelle réside dans un décalage entre les réalisations phonétiques

des locuteurs et les formes de citation. Par exemple, les formes présentes dans le dictionnaire

ne tiennent pas compte de la réduction inhérente à la parole naturelle (ainsi, la conjonction

and est uniformément transcrite /ænd/). Dans le but d’améliorer la correspondance entre le

signal et la transcription obtenue automatiquement à partir des dictionnaires, s’ensuit un

traitement spécifique des formes réduites.

Un troisième dictionnaire, composé de l’ensemble des mots anglais qui possèdent à la

fois une forme pleine et une forme réduite est alors utilisé avec en entrée cette liste de mots


333

suivie de la transcription de leurs formes réduites respectives. Lors de la phase de

phonétisation, le choix entre la forme pleine (dans le dictionnaire principal) ou la forme

réduite (dans le dictionnaire de formes réduites) se fait en fonction de la présence ou absence

d’une marque prosodique sur le mot en question : s’il est précédé d’une marque prosodique, il

sera transcrit avec sa forme pleine alors que si aucune marque prosodique ne précède ce mot,

il sera transcrit avec sa forme réduite. Par exemple, « ‘/ and » est transcrit /ænd/ (présence de

la TSM « high fall-rise ») et « and » (aucune marque) est transcrit /nd/.

L’ensemble des opérations détaillées dans cette rubrique implique deux scripts que nous

avons rédigés en langage Perl :

• 02_txtgridtomatrix.pl (version 4), qui convertit le format TextGrid utilisé dans le

prétraitement en données tabulaires ;

• 03_mtx+pron_inacc.pl (version 6 ; en collaboration avec Daniel Hirst), qui effectue la

phonétisation à proprement parler et génère des données tabulaires en sortie.

Pour résumer, la phonétisation de la totalité du corpus s’effectue grâce à l’utilisation de

trois dictionnaires différents : le dictionnaire principal, le dictionnaire des mots

complémentaires transcrits manuellement et le dictionnaire des formes réduites. Notons que

ces trois dictionnaires sont séparés pour deux raisons ; dans le cas des formes réduites, il est

évident que les formes pleines et les formes réduites doivent être séparées afin que le script

sache quelle forme utiliser en fonction de la présence ou absence d’une marque prosodique.

En ce qui concerne les formes complémentaires, elles sont regroupées dans un dictionnaire

isolé plutôt qu’ajoutées au dictionnaire principal dans le but de pouvoir faire évoluer ce

système de phonétisation à d’autres corpus tout en gardant un dictionnaire spécifique à

MARSEC140.

3.1.3 Traitements spécifiques

Lors de la phase de phonétisation, certaines formes nécessitent un traitement spécifique,

notamment la réalisation du morphème ‘s’ du pluriel et de la troisième personne du singulier,

ainsi que le morphème ‘d’ du prétérit régulier et du participe passé régulier en fonction du

contexte phonémique, ou plus exactement du voisement de la consonne précédente.

140 Ainsi, une version mise à jour du dictionnaire Advanced Learners’ Dictionary pourrait être intégrée sans pour

autant perdre nos modifications.


334

De plus, la conversion graphème-phonème ne permet pas de traiter les génitifs, les

contractions (de type I’m), les abréviations, les chiffres et les dates. En effet, ceux-ci ne sont

pas présents en tant qu’entrées dans les différents dictionnaires (il serait trop coûteux de les

ajouter manuellement) et l’application de notre système à d’autres données poserait les

mêmes problèmes. Pour y remédier, un ensemble de fonctions en langage Perl (au sein du

script 03_mtx+pron_inacc.pl, développé en collaboration avec Daniel Hirst) permet de traiter

ces différentes formes en les décomposant en formes présentes dans le dictionnaire principal.

Les génitifs sont ainsi décomposés en ‘mot + forme du génitif’ ce qui permet de

rechercher le mot dans le dictionnaire puis de transcrire le génitif en fonction du contexte

phonémique (/s/ après une consonne non-voisée, /z/ après une consonne voisée et /z/ après

/sz/).

De la même manière, les formes contractées sont décomposées en ‘pronom +

contraction’ pour ensuite être transcrites en tant que deux formes différentes regroupées. Dans

le cas de I’m par exemple, la forme contractée est décomposée en I + ’m, toute deux présentes

séparément dans le dictionnaire.

En ce qui concerne les abréviations absentes du dictionnaire général, nous distinguerons

deux types différents : les abréviations alphabétiques (composées uniquement de lettres) et les

abréviations que nous qualifierons de « mixtes » (lettres et chiffres). Les premières sont

décomposées en lettres comme par exemple BBC qui devient B + B + C, chaque lettre

figurant dans le dictionnaire principal. Les abréviations mixtes, mêlant des lettres et des

nombres comme par exemple dans les codes postaux anglais (“YO1 1ET”), subissent le même

type de traitement de décomposition en lettres + nombres (convertis en mots orthographiques)

puis de conversion graphème-phonème.

Les chiffres sont convertis en mots orthographiques pour ensuite être recherchés dans le

dictionnaire principal. Ce traitement des chiffres a toutefois posé le problème des dates : il est

difficile de distinguer de manière automatique un chiffre d’une date, ce qui est gênant dans

l’optique de la phonétisation, étant données leurs réalisations fondamentalement différentes.

Par exemple, le nombre 1975 peut tantôt être considéré comme une date et être réalisé comme

« nineteen seventy five » ou comme un chiffre et être réalisé comme « one thousand nine

hundred and seventy five ». La solution adoptée est de considérer que tous les chiffres entre

1000 et 2000 ont plus de chance d’être des dates que des nombres ; ils ont alors été convertis

comme tels par notre système.


335

3.1.4 Problèmes spécifiques

Deux problèmes se sont posés lors de la phonétisation du corpus. Le premier concerne

le traitement des dates que nous venons d’évoquer. En effet, les nombres entre 1000 et 2000

sont considérés arbitrairement comme des dates mais ce choix ne nous garantit pas un

traitement correct de ces cas. Cette solution temporaire, permettant de limiter les erreurs, est

pour l’instant implémentée, mais demande à être plus amplement étudiée.

Le deuxième problème se posant lors de la phonétisation porte sur les doublons ; par

doublons, nous entendons les formes ayant deux entrées différentes dans le dictionnaire

principal et donc deux réalisations possibles. Le mot « object » par exemple possède deux

entrées dans le dictionnaire : le verbe prononcé /b'dekt/ et le substantif /'bdkt/. Aucune

solution automatique n’est pour l’instant appliquée (cf. Knowles 1994 pour un constat

similaire). Cependant, plusieurs possibilités s’offrent à nous concernant ce problème :

• la première possibilité de solution consisterait à nous appuyer sur le tagging lexical

effectué à l’aide de CLAWS par les responsables du projet SEC ; l’information

lexicale ainsi récupérée permettrait alors la sélection de la phonétisation adéquate dans

le cas d’homographes de catégories lexicales différentes (Nom vs. Verbe) ;

• la deuxième possibilité de traitement des doublons pourrait quant à elle s’appliquer y

compris dans le cas d’homographes appartenant à la même catégorie lexicale (comme

dans le cas des substantifs comme « wind » qui peut être réalisé /wand/ ou /wnd/).

La solution consisterait alors à fournir au système d’alignement la totalité des

possibilités de phonétisation, la solution optimale étant automatiquement retenue ;

• on peut finalement imaginer une solution mixte qui consisterait à s’appuyer de

manière préférentielle sur le tagging (solution 1), plus robuste, et à recourir à la

comparaison des phonétisations concurrentes (solution 2) lorsque la solution 1 s’avère

non pertinente. Cette voie constitue une piste de recherche dont la description et

l’évaluation feront l’objet de publications futures.

3.2 Optimisation par règles d’élision

La méthode utilisée pour la phonétisation du corpus Aix-MARSEC est, nous l’avons vu,

fondée principalement sur un algorithme d’extraction à partir d’un lexique. Ce procédé, qui a

indubitablement l’avantage de la rapidité et de la portabilité, comporte cependant plusieurs


336

inconvénients ; nous nous attacherons particulièrement ici au problème de l’« abstraction

phonologique » de la phonétisation extraite du lexique par l’algorithme.

En effet, la phonétisation récupérée dans le lexique est fondée sur la forme de citation

de l’unité graphique phonétisée ; la transcription phonétique ainsi produite correspond à une

prononciation canonique qui ne tient aucun compte des nombreux phénomènes de réduction

vocalique, d’assimilation régressive et progressive, d’élision, d’épenthèse, de métathèse, etc.

qui constituent certaines des caractéristiques les plus typiques de la parole continue.

L’utilisation d’un algorithme d’optimisation de la transcription phonémique par règles

d’élision permet alors de simuler partiellement la réalité de la parole continue de manière plus

fidèle, et constitue donc un début de réponse à ce problème. Matérialisée par la disparition

conditionnée d’un phonème dans la transcription brute, l’élision telle que nous l’entendons

n’est pas à concevoir ici dans une acception stricte ; en effet, nous n’affirmerons pas que le

phonème élidé est (phonétiquement) totalement absent du signal, mais plutôt qu’il est

généralement impossible de le distinguer dans son entièreté : ainsi, des indices (notamment de

durée) peuvent permettre de supposer la présence sous jacente du phonème présenté comme

élidé sans permettre pour autant la détermination exacte de ses bornes. Dans ce contexte, et

afin de faciliter la phase d’alignement automatique, nous avons ainsi opté pour la suppression

du phonème de la transcription, autorisant cependant une analyse ultérieure plus fine de la

durée des phonèmes préservés.

Les règles que nous avons implémentées doivent nécessairement voir leur application

restreinte par des contraintes (phonotactiques, morphosyntaxiques et autres) du type de celles

que nous avons utilisées dans le cadre du protocole d’optimisation appliqué au corpus Aix-

MARSEC et que nous allons à présent détailler.

3.2.1 Condition d’application des règles

Dans l’optique d’améliorer le système de phonétisation, nous avons élaboré une série de

seize règles d’élision de phonèmes. On peut répartir ces règles en deux catégories selon

qu’elles s’appuient ou non sur des contraintes phonotactiques :

• Règles non-phonotactiques :

o élision des phonèmes dont la durée prédite (cf. infra) est inférieure ou égale à

5ms ;


337

o élision fondée sur la nature morphologique des unités (cas de and, he, he’s,

he’ll, he’d, him, his et her).

• Règles phonotactiques : elles précisent l’inventaire des contextes spécifiques

"autorisant" l’élision d’un phonème donné. C’est dans cette perspective que nous

proposons d’utiliser l’expression « phonotactique prédictive » (cf. Auran & Bouzon

2003) que nous définirons comme l’application de règles phonotactiques en vue de

l’optimisation d’une phonétisation brute dans le cadre de la parole continue.

Les règles phonotactiques ne sont pas appliquées au signal de manière brute mais

requièrent un certain nombre de conditions. Ces conditions sont d’ordre intonatif, temporel et

phonotactique.

Concernant la contrainte intonative, la condition d’application porte sur la présence ou

l’absence de marque prosodique (TSM). En effet, on suppose que dans certains cas les mots

sujets aux élisions mais précédés d’une TSM ne sont pas réduits du fait de la présence d’un

mouvement mélodique sur ce mot. Ces cas seront précisés lors de la description des règles.

Dans la catégorie des contraintes temporelles, la première condition consiste en un seuil

minimal, fixé pour quatre phonèmes et au-dessus duquel le phonème ne peut pas être

supprimé : le seuil des phonèmes /t/, /d/ et // est de 55ms et celui de // de 110ms. Ces seuils

sont établis en fonction de la liste des durées minimales (tous contextes confondus) de Klatt

1979 et confirmés lors des observations des données. La seconde condition est relative à ce

que nous avons appelé le « facteur z » en référence à l’approche de Campbell 1992.

Comme le montre l’équation 1 ci-dessous, la méthode consiste à calculer, à partir d’une

part de la durée d’un mot donné du corpus et, d’autre part, de la somme des moyennes et des

écarts types de chacun des phonèmes qui le composent, un coefficient de modification de

durée segmentale (ou « facteur z ») pour le mot.

)*(__

1ii pho

phonemesNb

ipho sdzmMotDuree += ∑

=

(1)

Équation 1 : Durée du mot comme somme de la moyenne et d’un multiple constant de l’écart

type de la durée de chaque phonème.

Cette méthode, qui correspond à la transformée z utilisée de manière classique en

statistiques pour la réduction d’une variable centrée, est fondée sur un « principe d’élasticité »

étendu à l’échelle du mot (et non plus de la syllabe comme dans Campbell 1992).


338

)(

)(_

_

1

_

1

∑

∑

=

=

−= phonemesNb

ipho

phonemesNb

ipho

i

i

sd

mMotDureez (2)

Équation 2 : Facteur z exprimé en fonction de la durée du mot et de la moyenne et de l’écart

type de chaque phonème.

Le calcul du facteur z (équation 2) consiste à soustraire à la durée du mot, obtenue grâce

à l’alignement de MARSEC, la somme de la durée moyenne de chacun des phonèmes qui le

composent (numérateur de la formule) ; cette valeur est ensuite divisée par la somme des

écarts types de ces mêmes phonèmes (dénominateur). Un facteur z négatif dénote alors une

durée observée plus petite que la somme des durées moyennes et donc une probabilité de voir

se réaliser certains phénomènes d’élision caractéristiques de la parole continue.

La catégorie des contraintes phonotactiques est obtenue après observation d’une partie

des données du corpus et à partir des études de Jones 1991, Wells 1990 et Gimson (réédité par

Cruttenden 1997). Les règles sont par conséquent établies en fonction des élisions

systématiques observées dans le signal ainsi que par les règles données dans les études citées

ci-dessus et avérées dans le signal. Le détail de ces contraintes se trouve dans la description

des règles d’élision présentée dans la section suivante.

3.2.3 Règles d’élision

Pour des raisons de simplicité d’écriture du script Perl gérant les phénomènes d’élision

de phonèmes (04_mtx+prontopho.pl, version 16, développé par nous en collaboration avec

Daniel Hirst), seize règles (expressions régulières) ont été formulées en collaboration avec

Caroline Bouzon et Daniel Hirst. Ces seize règles peuvent être regroupées en onze principes

morpho-phonologiques. Nous présentons dans le reste de cette section ces onze principes en

les explicitant et en fournissant des exemples pour chaque cas pertinent.

Ces principes sont appliqués à condition que le facteur z du mot soit inférieur à zéro,

qu’il n’y ait aucune marque prosodique (selon les principes) et que le seuil soit respecté pour

les phonèmes concernés. Notons que dans la représentation de chacun des principes, la forme

« # » symbolise une frontière de mot et « – » en exposant symbolise l’exclusion du ou des

phonème(s) suivant(s).

Principe 0 : élision de tout phonème dont la durée prédite est inférieure ou égale à 5ms.


339

Principe 1 : élision du phonème [d] dans and

La forme de la conjonction and concernée est nécessairement la forme réduite /nd/

puisque, suivant notre système de phonétisation, la forme pleine est précédée d’une marque

prosodique. Cette forme est souvent réduite à /n/ qu’elle soit suivie d’un mot commençant

par une voyelle ou une consonne.

Principe 2 : élision de [h] dans les formes he, he’d, he’ll, he’s, his, him, et her

En parole continue, la fricative [h] dans les pronoms et/ou contractions ci-dessus est

souvent élidée ; toutefois, cette consonne est supprimée dans la transcription à condition

qu’aucune marque prosodique ne précède le mot en question, dans ce cas, on imagine que le

pronom accentué sera réalisé avec sa forme pleine, sans élision du /h/.

Principe 3 : élision de [t] ou de [d] dans le contexte {[t][d]} # {[t][d]}

Lorsqu’un mot se termine avec un [t] ou un [d] et que le mot suivant commence par un

[t] ou un [d], l’alvéolaire finale est souvent supprimée, cette règle ayant comme condition le

facteur z et le seuil fixé à 55ms. Ce principe s’applique aux énoncés tels que I’ve got to go qui

sera réalisé /t/ ou the red dragon réalisé /redræn/ en parole continue. Il existe une

restriction à ce principe : outre la prise en compte du seuil minimal, il ne s’applique pas

lorsque le [d] correspond au morphème du prétérit ou du participe passé -ed réalisé /d/. Ainsi,

dans an unexpected turn, le /d/ n’est pas supprimé. Les deux consonnes alvéolaires ne sont

pas produites distinctement, à savoir par deux réalisations articulatoires complètes, mais la

durée de la tenue du [t] ou du [d] restant nettement au-dessus de la moyenne reflète la

présence des deux consonnes. Pour l’alignement automatique, il est nécessaire de rendre

compte de ces phénomènes puisque le système ne pourrait trouver les deux consonnes dans le

signal. Nous perdons l’information sur cette tenue plus marquée, mais nous pourrons la

récupérer grâce à l’allongement de l’alvéolaire concernée.

Principe 4 : élision de [t] et [d] dans le contexte C1 + {[t][d]} # C2 – {[h][j]}

Si [t] ou [d] en position finale de mot est précédé d’une consonne (quelle qu’elle soit) et

suivi d’un mot commençant par une consonne autre que [h] ou [j], alors il est supprimé. Ce

principe concerne les énoncés du type you mustn’t lose réalisé /msn luz/ et est caractérisée

par deux restrictions :


340

1) [t] ou [d] doit être en position finale de mot

2) C2 peut être n’importe quelle consonne sauf [h] ou [j] : Gimson (réédité par

Cruttenden, 1997) précise qu’un [t] ou [d] final suivi d’un [j] est généralement réalisé par une

affriquée, comme dans helped you réalisé /hept/. Cette réalisation est tout à fait fréquente,

mais nous avons également rencontré des cas où le [j] était simplement dévoisé sous l’effet du

caractère non-voisé de la plosive précédente. De ce fait, cette affriquation n’est pas

généralisée à la totalité du corpus.

Principe 5 : élision de [p] ou de [k] dans le contexte nasale homorganique + {[p][k]}

(#) C – {[r][l][j]}

Ce principe supprime le phonème [p] ou [k] dans les groupes consonantiques dans

lesquels sa position est homorganique avec celle de la nasale ([m] ou []) précédente. Il traite

les mots tels que glimpse produit /lms/, mais également l’ajout du morphème du pluriel, de

la troisième personne du singulier, du prétérit et du participe passé dans les séquences /mps/

et /mpt/ : on a par exemple camps /kæms/, jumps /dms/ et jumped /dmt/. L’élision peut

apparaître à l’intérieur d’un mot mais également au-delà d’une frontière de mot comme dans

they jump silently. Concernant l’élision du [k], ce principe permet de traiter les élisions dans

des mots tels que thanks, thanked mais également dans les énoncés du type thank Peter /æ

pit/. Dans ces groupes consonantiques composés de trois consonnes, la consonne centrale a

tendance à être supprimée.

Ce principe est également restreint par la nature de la consonne suivant la plosive : il

s’applique pour toutes les consonnes sauf [r - l - j] afin d’éviter de faire l’élision dans des cas

comme computers ou wrinkle où le /p/ ou le [k] serait alors supprimé.

Principe 6 : élision de [l] dans le contexte [] + [l] (#) C

Ce principe s’applique à la fois à l’intérieur des mots et au-delà des frontières de mot.

Ainsi, il rend compte de l’élision de /l/ dans les mots tels que always, already, although, all

right et almanac (mots cités par Gimson).


341

Principe 7 : élision du phonème [] dans le contexte C + [] (#) [s]

Il s’applique à l’intérieur des mots, comme par exemple dans months, twelfths et fifths

(Gimson), mais également au-delà des frontières de mot, comme par exemple dans the fifth

soldier. Ce principe a comme condition le facteur z mais également le seuil du phonème [].

Principe 8 : élision de la plosive en contexte [s|z] + {[p|b][t|d][k|]} (#) [s|z]

Deux traitements différents sous-tendent ce principe : dans le cas d’une de ces trois

séquences, il y a élision de la plosive, on se retrouve avec deux [s] adjacents, le premier est

alors élidé. Dans l’énoncé tourists ou the tourist seems, la séquence /sts/ sera tout d’abord

réduite à /ss/, puis un traitement ultérieur supprimera le premier /s/ et réduira cette séquence à

/s/. Le principe n°8 est également étendu à l’élision de la plosive dans le contexte [z] +

{[b][d][]} (#) + [z] bien qu’aucun cas ne soit présent dans le corpus.

Principe 9 : élision du schwa dans [] + {[l][r]} (#) + voyelle réduite {[][]}

Ce principe s’applique en fonction du seuil fixé pour le schwa et possède une

restriction : il ne s’applique pas dans le cas de la séquence [r] + [] + [l] + voyelle réduite,

principalement parce que

le [r] ne peut être final en anglais britannique standard et

[rl] ne représente pas une attaque licite.

Dans necessarily, il n’y a pas élision de // et le mot est réalisé /nesserl/.

Globalement, ce principe permet de rendre compte des mots tels que camera /kæmr/,

Reverend /revrnd/ et library /labr/.

Dans les cas avec un double [l] ou un double [r] après application du principe d’élision,

il y a effacement du premier phonème ; dans honorary /nrr/, il y a élision du premier

schwa, puis du deuxième, et simplification de /nrr/ en /nr/. Notons que le principe

s’applique également lorsqu’il s’agit du -r- de liaison comme dans after a while qui peut être

réalisé /ftrwal/ en parole rapide.


342

Principe 10 : élision du schwa dans le contexte # [kn] ('syll (syll [0…n])) #

Ce principe traite les élisions de // dans les mots tels que con'front ([kn] suivi d’une

syllabe accentuée terminale) et con'stituency ([kn] suivi d’une syllabe accentuée non

terminale), ainsi que l’auxiliaire de modalité can non précédé d’une marque prosodique (I

can [kn] really believe). Un seuil de 55ms est utilisé pour le schwa.

Principe 11 : élision du schwa dans le contexte {[k][p]} + [] + [n] #

Le seuil du schwa est ici aussi fixé à 55ms et ce principe s’applique uniquement dans

les syllabes en position finale de mot, celles-ci étant nécessairement inaccentuées. Il traite les

mots tels que open, thicken. Jones (1991) précise qu’il n’y a pas d’élision après ces deux

plosives ; toutefois, lors de notre observation de certains extraits du corpus, les mots tels que

happen(ed) étaient réalisés avec un [n] syllabique et donc avec suppression du []. Nous

avons donc décidé d’étendre l’élision du schwa à tous les types de consonnes devant [n] final.

3.2.4 Évaluation des règles d’élision

L’application des seize règles d’élision de phonèmes conduit à la suppression de 4083

phonèmes dans la totalité du corpus. Le nombre de phonèmes élidés représente ainsi

approximativement 2% des 199.770 phonèmes qui constituent la phonétisation brute du

corpus Aix-MARSEC.

L’évaluation de la qualité prédictive de ces règles a été effectuée de manière manuelle

sur un échantillon de dix fichiers du corpus et est quantifiée à l’aide des mesures « rappel »,

« précision », « silence », « bruit » et « F-mesure » (cf. tableau 10 ci-après), couramment

employées en recherche documentaire (cf. Van Rijsbergen 1979).


343

MESURES

RAPPEL 50,51 %

PRECISION 74,44 %

SILENCE 49,49 %

BRUIT 25,56 %

F-MESURE 60,18 %

Tableau 10 : Mesures d’évaluation de l’algorithme de prédiction des élisions.

Le rappel quantifie le rapport des éléments pertinents récupérés sur le total des éléments

pertinents. Dans notre cas, cette mesure représente la proportion d’élisions prédites sur la

totalité des élisions rencontrées. Un taux de rappel de 100 % signifierait que toutes les élisions

rencontrées lors de l’évaluation ont été prédites par nos règles. Un rappel de l’ordre de 50 %

signifie donc que notre algorithme prédit de manière correcte la moitié des élisions

effectivement réalisées par les locuteurs dans le corpus. La mesure complémentaire du rappel

est le silence, qui représente la proportion d’élisions non prédites sur la totalité des élisions

rencontrées

La précision mesure le rapport des éléments pertinents récupérés sur le total des

éléments récupérés ; sa mesure complémentaire, le bruit, est le rapport du nombre d’éléments

récupérés à tort sur le nombre d’éléments récupérés. Dans notre cas, la précision quantifie le

nombre d’élisions prédites de manière correcte sur le nombre d’élisions prédites. Un taux de

précision de 100 % correspondrait à l’absence totale de prédiction erronée d’élision. Une

précision de 74,44 % indique donc dans notre cas que près des trois quarts des élisions

prédites par notre algorithme ont effectivement été réalisées par les locuteurs du corpus.

Il est nécessaire d’insister sur l’importance de la F-mesure dans le cadre d’une

évaluation. Dans un cas extrême, on peut en effet atteindre un rappel de 100 % en prédisant

que tous les phénomènes rencontrés sont pertinents : cela reviendrait pour nous à élider la

totalité des phonèmes du corpus… La précision, cependant diminuerait de manière

proportionnelle car la plupart des élisions prédites le seraient à tort. La performance d’un

système est optimale lorsque ce dernier obtient le couple de valeurs (rappel, précision) le plus

élevé ; cette prise en compte simultanée du rappel et de la précision d’un système est reflétée

par la F-mesure qui correspond à la moyenne harmonique des deux taux. Notre algorithme


344

bénéficie d’une F-mesure de l’ordre de 60 % qui, sans caractériser un système optimal,

démontre la qualité de la démarche adoptée.

L’annotation phonématique simple obtenue bénéficie d’un taux de fiabilité de 94,79 %

qui, comme nous le développerons en fin de chapitre, pourrait être encore amélioré par

l’augmentation du taux de rappel.

3.3 Alignement du corpus Aix-MARSEC

L’une des caractéristiques qui font du corpus Aix-MARSEC une ressource

particulièrement intéressante pour toute recherche en phonétique/phonologie anglaise est liée

à la disponibilité d’un alignement phonématique qui constitue la base fondamentale sur

laquelle peuvent s’appuyer les alignements des autres niveaux de l’analyse linguistique

(syllabe, pied, unité rythmique, mot, unité intonative). Les sections suivantes vont donc

présenter brièvement les différentes méthodes qui se sont offertes à nous pour l’alignement

des phonèmes d’Aix-MARSEC avant de fournir une évaluation détaillée de la qualité de cet

alignement.

3.3.1 Méthodes d’alignement

Une fois le corpus phonétisé, deux méthodes principales d’alignement sont disponibles.

La première méthode consiste à utiliser un algorithme Viterbi classique (Viterbi 1967) qui

calcule la séquence optimale d’états dans un modèle de Markov caché (HMM) étant donnée la

séquence d’observations que constitue notre annotation phonétique. Cette méthode dite de

« force Viterbi » consiste alors à attribuer les trames temporelles pertinentes aux phonèmes

transcrits.

La seconde méthode fait appel à la technique de programmation dynamique (« Dynamic

Time Warping » ou « DTW ») traditionnellement utilisée pour le transfert d’un jeu d’étiquettes

d’un enregistrement à un autre (Di Cristo & Hirst 1997). Dans cette perspective, la tâche

consiste à effectuer un calcul de la distance spectrale entre un signal de synthèse produit à

partir de l’annotation phonématique et le signal d’origine.

La première version de l’alignement du corpus, que nous présentons dans cet article, est

fondée sur une implémentation de la première méthode, l’implémentation de la seconde

(DTW) étant prévue lors de phases d’alignement ultérieures que nous mentionnerons plus

loin.


345

p t

HMMs

trames

Phonèmes

De manière plus précise, l’alignement du corpus Aix-MARSEC a été réalisé par

Christophe Lévy et Pascal Nocéra du Laboratoire d’Informatique d’Avignon. La méthode

employée a consisté à modéliser chaque phonème à l’aide d’un modèle de Markov caché

(HMM) « gauche-droite » composé de trois états émetteurs (Rabiner 1984) et entraîné, pour

des raisons de disponibilité, sur le corpus TIMIT. Chaque état est représenté par un modèle de

mélange de gaussiennes (« Gaussian Mixture Model ») à 8 composantes et des matrices de

covariance diagonales. Le signal sonore est quant à lui représenté à l’aide de douze

coefficients cepstraux (MFCC) auxquels viennent s’ajouter un coefficient d’énergie ainsi que

les coefficients delta et delta-delta pour un vecteur total de 39 coefficients par trame de signal.

L’algorithme Viterbi est ensuite utilisé pour attribuer la ou les trame(s) temporelle(s)

pertinente(s) à chaque état émetteur, comme le représente la figure 45 ci-dessous.

Figure 45 : états émetteurs des HMMs.

3.3.2 Evaluation

Tout alignement, de manière évidente, présente un intérêt dès lors qu’il est relativement

fiable. Le seuil de fiabilité retenu dépend bien entendu de l’exploitation prévue. Notre tâche

concernant l’évaluation de l’alignement phonématique du corpus Aix-MARSEC consiste

alors à fournir une quantification des décalages observés entre les données automatiques et les

données manuelles, et ce à différents seuils. Notre intérêt résidant principalement dans des

études appartenant au domaine phonétique, nous fournissons ici les résultats correspondants à

des seuils de 5 ms à 64 ms, ordre de valeur généralement retenu dans ce type d’étude (Di

Cristo & Hirst 1997).

L’évaluation des « erreurs » d’alignement dans le corpus a impliqué la comparaison (en

collaboration avec Caroline Bouzon) de 4 fichiers d’environ une minute de parole alignés

manuellement avec l’alignement automatique de ces mêmes fichiers, fourni par la méthode

décrite plus haut. La mesure des décalages a été effectuée de manière automatique à l’aide de


346

scripts que nous avons développés en langage Perl, et peut être résumée à l’aide du tableau

suivant :

Seuil % de décalages

inférieurs au seuil

64 ms 93.25 %

32 ms 82.02 %

20 ms 68.37 %

16 ms 59.97 %

15 ms 57.40 %

10 ms 42.43 %

5 ms 23.72 %

Tableau 11 : Evaluation de l’alignement automatique à différents seuils.

On voit que l’alignement obtenu de manière automatique est fiable à près de 70 % pour

un seuil d’acceptabilité de 20 ms. Ce résultat, sans toutefois constituer un score remarquable,

est cependant de l’ordre des 77 % présentés par Dalsgaard et al. 1991 pour deux minutes de

parole anglaise lue extraite du corpus EUROM0.

Ces résultats quantifient un produit dont il nous semble important de dissocier les deux

composantes :

• la composante « phonétisation » dont la finalité est l’obtention d’une suite de

phonèmes correspondant de manière optimale avec la production effective des

locuteurs ;

• la composante « alignement » dont la finalité est la mise en correspondance temporelle

des étiquettes de phonèmes avec les portions de signal correspondantes.

La qualité globale de l’alignement final dépend donc de la qualité de chacune de ces

composantes. On pourra alors considérer qu’il y a amélioration de l’alignement final si l’une

des deux composantes voit sa qualité croître sans que la qualité de l’autre composante ne

décroisse. Dans le cas qui nous intéresse ici, la composante « phonétisation » comporte deux

phases : phonétisation brute puis optimisation par règles d’élision. Nous avons vu que la

phase d’optimisation permet une amélioration de la qualité de la composante


347

« phonétisation » ; il nous semble alors légitime de nous questionner sur l’impact de cette

phase d’optimisation sur la composante « alignement ».

Pour résumer, pour que la qualité globale de l’alignement final soit effectivement

améliorée par l’optimisation de la composante « phonétisation », il faut que la composante

« alignement » ne soit pas pénalisée par cette optimisation.

Dans cette perspective, nous avons comparé les décalages d’alignement pour les

versions respectivement optimisée et non optimisée de notre phonétisation. Comme le

montrent la figure 46 ci-dessous, les distributions observées ne semblent pas différer de

manière significative.

-300 -200 -100 0 100 200

-300

-200

-100

010

020

0

Graphique Quantile-Quantile

Erreurs en ms sans élisions

Erre

urs

an m

s av

ec é

lisio

ns

Figure 46 : Graphique quantile-quantile des distributions des erreurs pour les alignements

fondés sur les phonétisations sans et avec élisions.

Une analyse visuelle du graphique semble indiquer une absence de différence

significative entre les deux conditions analysées (cf . la droite à 45°). Cette observation des

distributions, cependant, notamment en ce qui concerne la significativité des résultats

suggérés, doit être corroborée par des tests statistiques formels.


348

On remarquera cependant, après une rapide observation de la figure 47 ci-après, que les

distributions observées divergent de manière significative avec des distributions normales ;

cette divergence est confirmée par les indices d’aplatissement (ou « kurtosis ») et de

dissymétrie (ou « skewness ») donnés dans le tableau 12.

Sans élisions

Erreurs en ms

Fréq

uenc

es

-300 -100 0 100

010

020

030

040

050

060

070

0

Avec élisions

Erreurs en ms

Fréq

uenc

es

-300 -100 100

010

020

030

040

050

060

070

0

Figure 47 : Histogrammes des distributions des erreurs pour les alignements fondés sur les

phonétisations sans et avec élisions.

Indices Sans élisions Avec élisions Dist. normale

Aplatissement 13,07 14,64 1

Dissymétrie -0,29 -0,57 0

Tableau 12 : Aplatissement et dissymétrie pour les distributions des erreurs, mis en rapport

avec une distribution normale.

Cette divergence de la normale, notamment en ce qui concerne les forts coefficients

d’aplatissement observés (caractéristiques d’une forte concentration autour de la moyenne),

rend inapplicables d’une part une classique analyse de variance ou un test de Student pour

tester l’hypothèse de l’égalité des moyennes, et, d’autre part, le test de Fisher pour tester

l’égalité des variances, donnée de dispersion qui n'a de sens que dans le cadre d'une


349

distribution normale. Nous avons donc eu recours à des tests qui n’exigent pas la normalité

des distributions et avons testé les hypothèses d’égalité des moyennes et d'absence de

divergence entre les distributions au moyen du logiciel/environnement de programmation R

(R Project for Statistical Computing).

Nous avons tout d'abord utilisé le test de somme ordonnée de Wilcoxon (avec correction

de continuité) afin de tester l'hypothèse de l'égalité des moyennes. Avec une p-valeur de

0,7757, ce test confirme l'égalité des moyennes des erreurs d'alignement, que la phonétisation

se soit appuyée sur une version brute de la phonétisation (sans élisions) ou sur une version

optimisée (avec élisions).

Le test de Kolmogorov-Smirnov pour deux échantillons a finalement été employé afin

de tester l'hypothèse de l'absence de divergence entre les deux distributions. Avec une p-

valeur de 1 (arrondie à la seizième décimale), ce test confirme sans ambiguïté l'absence de

différence significative entre les deux distributions, et ce malgré des nombres d'éléments

(phonèmes) nécessairement différents.

Nous pouvons donc conclure d'après ces évaluations quantitatives que la distribution

des erreurs n’est pas significativement différente selon que la phonétisation est optimisée

(règles d’élisions) ou pas ; cela signifie que l'application de nos règles d'élision à la

phonétisation brute du corpus ne génère aucun biais durant la phase d'alignement

automatique.

La composante « phonétisation » voit donc sa qualité croître alors que la qualité de la

composante « alignement » reste constante. L’application des règles d’élision à notre

phonétisation brute permet ainsi une amélioration de la qualité globale de l’alignement final,

dont la fiabilité est de l'ordre de 70% pour un seuil de 20 ms.

3.4 Autres niveaux d’analyse

Comme nous l’avons mentionné plus haut, Aix-MARSEC peut être conçu comme une

base de données fournissant des informations à différents niveaux de l’analyse linguistique.

Venant de présenter les détails de la phonétisation et de l’alignement d’Aix-MARSEC, nous

proposons à présent de mentionner les unités linguistiques d’autres niveaux dont l’alignement

est fondé sur celui des phonèmes. Nous inclurons aussi dans cette rubrique une évocation de

l’annotation prosodique fréquentielle, effectuée de manière totalement indépendante, mais

dont la mise en relation avec la segmentation et l’alignement aux autres niveaux présente un

intérêt certain et constitue à l’heure actuelle l’une des thématiques les plus populaires.


350

3.4.1 Unités syllabiques

Le niveau syllabique constitue le premier niveau supérieur au phonème que nous avons

isolé sur la base de la phonétisation et de l’alignement. De manière plus précise, nous avons

adapté l’algorithme écrit par Daniel Hirst et qui effectue, sur la base d’une suite de phonèmes,

un regroupement de ces derniers en syllabes. Dans ce cadre, le principe d’Attaque Maximale

(« Maximal Onset Principle ») de Pulgram 1970 est utilisé : selon ce principe, la plus grande

séquence de consonnes obéissant aux règles phonotactiques de l’anglais est systématiquement

préférée en tant qu’attaque syllabique ; à titre d’exemple, l’algorithme analyserait la séquence

/pstskrpt/ (« postscript ») à partir de la droite, identifierait le noyau // et regrouperait en

attaque la séquence maximale licite /skr/ car la séquence immédiatement supérieure, /tskr/,

n’est pas licite ; une frontière syllabique entre /pst/ et /skrpt/ serait donc ainsi générée.

Cet algorithme a été intégré au script Perl 04_mtx+prontopho.pl (version 16 ; développé

par nous en collaboration avec Daniel Hirst), utilisé lors de l’optimisation de la phonétisation.

Il est appliqué en tenant compte de frontières de mot et permet aussi le découpage des

syllabes ainsi obtenues en composants syllabiques (attaque, noyau et coda) selon les mêmes

principes.

On retiendra donc que l’alignement de la phonétisation permet le regroupement (et

l’alignement)141 à deux niveaux d’analyse directement supérieurs, en composants syllabiques

et en syllabes.

3.4.2 Unités rythmiques

Le découpage en unités rythmiques et leur alignement avec les syllabes constitue un

niveau supplémentaire d’analyse. Les modèles rythmiques d’Abercrombie 1964 et de Jassem

1952 sont les deux modèles qui ont été utilisés dans le cadre d’Aix-MARSEC.

Pour des raisons pratiques, l’implémentation de ces deux types de segmentation a été

effectuée à l’aide de deux scripts Perl distincts (06_a_add_Aber.pl et 06_b_add_Jassem.pl)

qui prennent en compte des informations en provenance du niveau syllabique, mais aussi du

niveau orthographique comportant l’annotation prosodique en TSM (afin de récupérer les

« pitch accents » non prévisibles à partir des « stress accents »).

141 L’alignement lui-même est effectué à l’aide du script 09_re_align.pl (version 6 ; développé par nous), après

d’autres étapes.


351

Pour plus de détail, nous renvoyons le lecteur à Bouzon 2004 qui présente une analyse à

la fois théorique et expérimentale de ces deux modèles rythmiques.

3.4.3 Annotation fréquentielle

Aix-MARSEC, finalement, comporte aussi un ensemble de niveaux d’annotation

relatifs à la prosodie. Ainsi, en plus de l’annotation héritée de SEC (via les TSM de MARSEC

et la segmentation en unités intonatives mineures et majeurs), la totalité des 408 fichiers du

corpus a été automatiquement annotée à l’aide des algorithmes MOMEL et INTSINT au sein

de l’éditeur ProZEd (cf. chapitre 5).

Ce processus fournit un ensemble de fichiers dont certains aux formats PitchTier et

TextGrid de Praat, ce qui permet ensuite leur mise en commun avec les autres fichiers à l’aide

du script Praat 10_momel_mergetiers.praat (développé par nous).

Plus particulièrement, l’application de ces algorithmes fournit :

• deux niveaux au sein du TextGrid général d’annotation (précisant d’une part

l’emplacement des points cibles MOMEL et leur codage INTSINT, et d’autre part la

valeur en hertz de ces points cibles) ;

• un fichier PitchTier (par fichier son) permettant d’une part la représentation des points

cibles dans l’espace temps/fréquence et d’autre part celle de leur interpolation à l’aide

de courbes splines quadratiques, conformément à MOMEL.


Bilan

Ce chapitre nous a permis de présenter le projet Aix-MARSEC en tant que corpus et

base de données d’anglais britannique oral authentique.

Composé de 195.687 phonèmes, regroupés en 88.794 syllabes qui composent elles-

mêmes 54.083 mots pour un total de 5 heures 30 de parole, Aix-MARSEC est caractérisé par

un alignement à différents niveaux de granularité, depuis le phonème jusqu’à l’unité

intonative en passant par les composant syllabiques, les syllabes et les unités rythmiques

d’Abercromnie 1964 et de Jassem 1952.


352

Ces caractéristiques, auxquelles viennent s’ajouter un codage et un alignement

automatique de l’intonation à l’aide des algorithmes MOMEL et INTSINT, font d’Aix-

MARSEC une base unique pour tout oraliste travaillant sur l’anglais britannique.

Concernant l’exploitation plus particulière d’Aix-MARSEC dans le cadre de l’analyse

des interactions anaphore - onset, nous noterons que les étapes de phonétisation et

d’alignement phonématique, et l’alignement des niveaux supérieurs, présentent pour nous un

intérêt tout particulier dans la mesure où elles ont notamment autorisé l’exploitation de

données temporelles et la mesure précise des valeurs fréquentielles d’onset auxquelles nous

avons eu recours dans l’étude décrite dans le chapitre suivant.

La figure 48 ci-dessous donne un aperçu de l’annotation multi niveau disponible dans

Praat :

Figure 48 : Exemple d’un TextGrid d’annotation d’Aix-MARSEC dans Praat.

Les outils et le corpus Aix-MARSEC sont disponibles gratuitement sur la page du

English Prosody Group of Aix du LPL (www.lpl.univ-aix.fr/~EPGA/), permettant ainsi une

large diffusion et, nous l’espérons, un large retour qui contribuera à l’amélioration et à

l’enrichissement du projet dans la perspective évolutive que nous avons mentionnée plus haut.

Perspectives

Plusieurs perspectives majeures sont envisagées dans le cadre de l’amélioration d’Aix-

MARSEC. Nous retiendrons plus particulièrement trois pistes.


353

Amélioration de la phonétisation

Il est intéressant d’approfondir notre analyse de la mesure de rappel, qui correspond au

taux le plus faible du couple (rappel, précision). En effet, seule la moitié des élisions

effectives est prédite par notre algorithme. Cette mesure est à mettre en relation avec le faible

nombre d’élisions prédites (2% du corpus) et appelle quelques remarques. Notons tout

d’abord que certains phénomènes d’élisions récurrents mais non traités par des règles

d’élision ont été identifiés dans le corpus. La génération de nouvelles règles phonotactiques

prenant en compte ces observations est donc envisagée, laissant espérer une augmentation

significative du rappel du système de phonétisation. A titre d’exemple, on notera que la prise

en compte de l’élision du // initial de l’article défini « the », qui représente 22 % du silence,

permettrait une telle amélioration.

Finalement, les contraintes appliquées sur les règles ont entraîné à tort le blocage de

19,59 % des élisions prédites par les règles phonotactiques. Un affinement de ces contraintes

permettrait donc de diminuer cette proportion et ainsi d’augmenter le taux de rappel du

système.

Optimisation de la phonétisation

Etant donnée la valeur minimale de 10 ms de la fenêtre utilisée par le système

d’alignement automatique, il est envisageable d’optimiser la phonétisation du corpus par la

suppression des phonèmes dont la durée est fixée à ce seuil inférieur. En effet, lors de la phase

d’alignement automatique, tout phonème présent dans la phonétisation mais non détecté par

l’aligneur est automatiquement réduit à cette durée minimale. On peut donc faire l’hypothèse

que la suppression de ces phonèmes non détectés constituerait une approximation plus fine de

la production effective des locuteurs. L’application itérative et conditionnée (nouvelles règles

phonotactiques) de cette phase d’optimisation est ainsi envisagée et fera l’objet de travaux

ultérieurs.

Amélioration de l’alignement

L’amélioration du composant « correspondance temporelle » de l’alignement est

envisagée sous la forme de l’application itérative du système « DTW ». En effet, le calcul de

distance spectrale effectué par ce système lors de sa première utilisation permet un premier

alignement qui pourra ensuite servir de base à la génération d’un second signal de synthèse.

Ce procédé peut être appliqué de manière itérative (Di Cristo & Hirst 1997) jusqu’à obtention

d’un alignement au moins localement optimal, permettant ainsi la génération d’un alignement


354

dont il sera intéressant de comparer la précision temporelle avec celle obtenue à l’aide de la

première méthode (HMMs et Viterbi). Une seconde option, que nous avons déjà initiée,

consiste à développer des modèles phonétiques spécifiques au type d’anglais britannique

présent dans le corpus. Cette démarche implique nécessairement l’utilisation d’une partie

manuellement alignée du corpus ; à l’heure actuelle, près de 45 minutes ont été alignées

manuellement par plusieurs étudiants de DEA, ce qui laisse augurer l’évaluation prochaine

d’une nouvelle version de l’alignement phonématique du corpus.

Aix-MARSEC, la prosodie et l’anaphore

Le corpus idéal n’existe pas, cependant, et nous noterons que la nature relativement peu

« spontanée » des données présentes dans Aix-MARSEC pourrait gêner les analystes forcenés

de la « conversation quotidienne ». Nous noterons néanmoins que la diversité des styles de

parole présents dans Aix-MARSEC permet une première approche intermédiaire entre la

parole de laboratoire et la conversation, déjà partiellement satisfaisante dans le cadre qui nous

intéresse. Précisément, nous allons à présent nous tourner vers l’exploitation d’Aix-MARSEC

dans le cadre de l’interaction du marquage de la (dis)continuité discursive par l’anaphore et

par la prosodie. Les potentialités du corpus viennent d’être exposées, reste à les exploiter …

355

Chapitre 8

Aspects de production et analyse de corpus

356


1 Hypothèses et cahier des charges expérimental ....................................... 358 1.1 Approche interactive de l’onset et de l’anaphore ...................................................... 358 1.2 Cahier des charges expérimental................................................................................. 360 1.3 Synthèse ......................................................................................................................... 360 2 Protocole expérimental ............................................................................... 361 2.1 Extraction des données ................................................................................................. 361

2.1.1 Avantages et limites des extractions manuelle et automatique............................ 361 2.1.2 Protocole adopté................................................................................................... 363

Critères d’extraction des anaphores pronominales ................................................... 363 Critères d’extraction des paramètres prosodiques .................................................... 365 Implémentation ......................................................................................................... 366

2.2 Echantillonnage............................................................................................................. 366 2.3 Normalisation ................................................................................................................ 373

2.3.1 Transformation logarithmique ............................................................................. 373 2.3.2 Procédure de normalisation.................................................................................. 375

3 Résultats et discussion................................................................................. 379 3.1 Résultats......................................................................................................................... 379

3.1.1 Valeur fréquentielle d’onset et structure prosodico-discursive............................ 379 3.1.2 Valeur fréquentielle d’onset et anaphore pronominale ........................................ 383

3.2 Discussion....................................................................................................................... 386 4 Synthèse générale ........................................................................................ 392

Chapitre 8 – Aspects de production et analyse de corpus

357

Les parties précédentes nous ont permis d’isoler un ensemble de ressources prosodiques

mobilisées par les interactants dans le cadre de l’organisation du discours. Dans le cadre d’une

structuration prosodique discursive à deux niveaux (unité intonative et au-delà), nous avons

choisi de retenir plus particulièrement la valeur de l’attaque ou onset des unités intonatives

comme phénomène particulièrement représentatif.

Intimement lié aux modifications des dimensions fréquentielles localisantes et au

phénomène de (supra-)déclinaison, l’onset constitue en effet un lieu privilégié du marquage

de la discontinuité tout autant que de la continuité discursive. Marqueur prosodique

polyvalent, l’onset nous semble ainsi constituer un candidat particulièrement prometteur dans

le cadre d’interactions avec l’anaphore pronominale.

C’est dans ce cadre général que nous avons choisi d’effectuer les différentes analyses

retracées ici. Plus précisément, la première partie de ce chapitre va nous permettre de

formuler de manière plus explicite les hypothèses que nous avons souhaité tester dans ce

travail de thèse, et de formuler un « cahier des charges expérimental » destiné à identifier

certains éléments indispensables au bon déroulement de nos analyses.

La seconde partie de ce chapitre exposera le détail du protocole utilisé pour l’extraction

et l’analyse des données, notamment dans le cadre de la démarche de recherche de

représentativité que nous aurons décrite dans la première section.

Nous terminerons ce chapitre par un compte-rendu des résultats obtenus et une mise en

perspective de ces derniers dans un cadre discursif complexe.


358

1 Hypothèses et cahier des charges expérimental

1.1 Approche interactive de l’onset et de l’anaphore

Nous avons proposé, au terme du chapitre consacré à la thématique du discours, de

considérer se concept comme une heuristique complexe de l’interaction langagière ;

explicitons cette proposition, et notamment les concepts d’heuristique et de complexité à la

lumière des phénomènes que nous avons mis en évidence concernant l’anaphore et la

prosodie.

Le caractère heuristique de l’interaction est lié à sa nature fondamentalement

dynamique. Comme le montre par exemple la modélisation de l’état attentionnel proposée

dans le cadre de la Théorie du Centrage, l’interprétation du discours procède par

« mouvements successifs » pouvant ajouter ou supprimer des espaces focaux en relation avec

son organisation hiérarchique et séquentielle. En d’autres termes, les modèles mentaux des

interactants semblent se structurer par ajouts, modifications et suppressions, comme le

proposent aussi à juste titre la pragmatique gricéenne (notamment avec le concept de

defaisabilité des implicatures conversationnelles), la Théorie de la Pertinence (par le biais de

la modification dynamique de l’environnement cognitif des interactants) ou encore le Modèle

Genevois (avec le principe de rétro interprétation). Les représentations mentales entretenues

par les interactants dans le cadre discursif sont ainsi à concevoir comme autant d’hypothèses

provisoires intégrées dans une démarche alternant inférences inductives et hypothético-

déductives.

La complexité de l’interaction est ici à prendre dans le sens le plus commun de la

Théorie de la Complexité. L’une des propriétés clés de ce type de conception réside dans

l’irréductibilité d’un système complexe à la somme de ses composantes ; il y a dans ce cadre,

au sein d’interactions multiples et non linéaires, émergence de propriétés qui n’appartiennent

pas en propre aux éléments constitutifs. Un exemple classique emprunté au système de la

géométrie permet de montrer que le concept de distance entre deux points n’est pas une

propriété spécifique des points, mais constitue en fait une propriété émergente résultant de

leur interaction. L’émergence de fonctions discursives de haut niveau (telles que les fonctions

énonciative ou d’expression de l’affect) à partir d’interactions entre éléments de la fonction

structurale, plus fondamentale, et d’autres niveaux de l’analyse, constitue selon nous un

exemple de cette complexité du discours. De manière similaire, les notions d’inférence ou

d’implicature conversationnelle, liées schématiquement à l’interprétation d’un texte dans un


359

contexte, repose sur cette propriété d’émergence du sens pragmatique dans le discours conçu

comme système complexe.

Dans ce contexte, l’ensemble des phénomènes discursifs que nous avons pu évoquer est

à appréhender au sein d’une vision massivement interactive des formes et des fonctions à tous

les niveaux de l’analyse linguistique. Dire alors que la description exhaustive de ces

phénomènes constitue une tâche extraordinairement complexe (au sens de « compliqué »,

cette fois-ci !) relève de l’euphémisme. Notre objectif dans ce chapitre sera néanmoins de

tenter l’analyse d’une infime partie de ce système complexe en nous concentrant sur les deux

éléments que sont la valeur de l’onset des unités intonatives et l’anaphore pronominale dans le

cadre du marquage de la continuité discursive.

De manière plus explicite, nous faisons l’hypothèse fondamentale de l’existence

d’interactions mesurables entre valeur d’onset et présence d’une anaphore pronominale en

relation avec la (dis)continuité discursive. Malgré la nature complexe du discours que nous

venons d’évoquer, cette hypothèse n’est pas triviale dans la mesure où la complexité implique

des relations non linéaires : en effet, dans ce contexte, la variation d’un élément donné

n’induit pas nécessairement la variation d’un autre élément avec lequel il interagirait.

Plus précisément, nous choisissons de concentrer nos efforts sur l’influence du

marquage de la continuité discursive par l’anaphore pronominale sur la réalisation des onsets

des unités intonatives. En conséquence, notre première hypothèse de travail (H1) est que le

marquage de la continuité discursive par l’anaphore à une influence mesurable et

explicable sur la réalisation de l’onset.

Nous avons vu que le marquage de la continuité discursive s’effectue notamment par

abaissement de la valeur de l’onset ; nous formulerons donc une seconde hypothèse (H2)

selon laquelle le marquage de la continuité discursive par l’anaphore induit un

abaissement de l’onset dans le cadre d’un marquage collaboratif par redondance.

L’investigation de ces hypothèses présuppose un protocole expérimental dont nous

allons à présent fournir le « cahier des charges ».


360

1.2 Cahier des charges expérimental

Nous ferons une présentation détaillée du protocole expérimental mis en place dans

cette étude dans la deuxième partie de ce chapitre. Pour l’heure, nous proposons de formuler

un « cahier des charges », véritable ensemble de contraintes préliminaires à la constitution de

ce protocole, précisant les éléments indispensables à l’analyse.

La mise en place d’un protocole expérimental permettant le test de nos hypothèses

repose selon nous sur un concept fondamental : la mesure.

Ainsi, si nous souhaitons pouvoir (in)valider nos hypothèses, il est indispensable que

nous puissions avoir des mesures représentatives de chaque élément impliqué ; cette notion

supplémentaire de représentativité implique que les mesures identifient le phénomène mesuré

et lui seul, et en donne une quantification pertinente.

Etant donné son caractère binaire, la mesure de l’anaphore pronominale discursive

consiste en son identification, dans le cadre de la double opposition avec l’anaphore liée et

l’anaphore discursive non-pronominale.

L’onset pourra quant à lui principalement être mesuré en liaison avec deux valeurs

graduelles : sa valeur fréquentielle et sa valeur d’alignement avec la syllabe accentuée. Le

chapitre 5 nous a permis de mentionner certaines ruptures de correspondance entre niveau

physico-acoustique et niveau phonétique au sein de la prosodie ; dans ce contexte, une mesure

représentative des valeurs d’onset devra neutraliser les effets microprosodiques qui influent

sur la réalisation de la courbe fréquentielle afin de ne conserver que la composante

macroprosodique, pertinente d’un point de vue linguistique. La représentativité des mesures

d’onset devra aussi tenir compte de la variabilité inter-locuteurs, qu’elle devra neutraliser par

normalisation.

1.3 Synthèse

Cette brève section a permis de préciser notre vision du discours en tant qu’heuristique

complexe, impliquant l’interaction dynamique de différents niveaux de l’analyse linguistique.

Ce cadre nous a de plus poussé à formuler les deux hypothèses de travail que nous souhaitons

tester dans le cadre de ce chapitre :

• H1 : le marquage de la continuité discursive par l’anaphore à une influence mesurable

et explicable sur la réalisation de l’onset.


361

• H2 : le marquage de la continuité discursive par l’anaphore induit un abaissement de

l’onset dans le cadre d’un marquage collaboratif par redondance.

Nous avons finalement souligné l’importance de la représentativité des mesures

relatives aux deux éléments que nous souhaitons analyser ; nous retiendrons notamment que

cette propriété implique un ensemble de contraintes sur le protocole expérimental mis en

place, notamment concernant l’identification des anaphores pronominales discursives et la

modélisation et la normalisation des valeurs d’onset.

C’est donc vers la présentation de ce protocole que nous allons à présent nous tourner,

avant de livrer et de discuter les résultats obtenus dans la partie finale de ce chapitre.

2 Protocole expérimental

Nous allons consacrer cette section à la présentation du protocole expérimental que nous

avons adopté dans cette étude. Nous identifierons plus précisément trois parties principales,

respectivement centrées sur la phase d’extraction des données expérimentales, sur

l’échantillonnage que nous avons effectué, et finalement sur la normalisation que nous avons

dû opérer afin de garantir un niveau minimal de représentativité à nos analyses.

2.1 Extraction des données

2.1.1 Avantages et limites des extractions manuelle et automatique

Comme nous l’avons précisé lors du précédent chapitre, Aix-MARSEC peut être

envisagé comme une base de données de parole aux dimensions pour le moins généreuses ;

rappelons notamment que les quelques 5 heures d’enregistrements renferment plus de 195.000

phonèmes, presque 89.000 syllabes et plus de 54.000 mots.

Dans ce contexte une analyse manuelle des données, que ce soit pour l’annotation ou

pour l’extraction, bien qu’envisageable, présente un ensemble de problèmes majeurs dont

nous retiendrons les suivants :

• Pour commencer par le problème le plus évident, nous soulignerons le fait que

l’analyse manuelle d’un grand corpus implique un investissement temporel important.

On pourra bien argumenter du fait que les outils modernes, tout en préservant le

caractère manuel de la démarche, facilitent et accélèrent cette dernière, notamment par

des méthodes d’affichage et d’annotation des données très performantes. L’argument

est valide, certes, mais notons tout de même à titre d’exemple que l’on estime


362

généralement (cf. Di Cristo & Hirst 1997) qu’une minute de parole nécessite

approximativement 12 heures de travail pour être phonétisée et alignée, et ce malgré

l’utilisation d’outils récents et ergonomiques.

• Un second aspect important réside dans le fait que l’extraction manuelle des données

ne garantit pas un traitement homogène de bout en bout. A contrario, étant donné un

ensemble de critères, le propre du traitement automatique est de n’autoriser aucune

variation liée à la fatigue, à l’évolution des seuils d’évaluation ni aucune différence

d’accord entre les experts.

• Nous retiendrons comme troisième problème majeur le fait que l’extraction manuelle

est relativement peu réactive et tolérante aux changements d’orientation des intérêts du

ou des chercheurs. Une démarche automatisée, en revanche, notamment dans le cadre

d’une démarche de type « data mining », lorsqu’une réorientation des recherches est

rendue indispensable par les premières analyses (et la relative inexpérience du jeune

chercheur …), ou bien encore en cas d’intégration de nouvelles informations

(obtention d’un tagging, etc.), entraîne généralement des modifications qui prennent

considérablement moins de temps qu’une nouvelle itération de l’extraction manuelle.

Ces éléments, et sans doute d’autres que nous n’avons pas mentionnés, constituent selon

nous autant d’arguments en faveur d’une démarche automatisée par opposition à une

démarche manuelle. Nous tenons cependant à insister fortement que le fait que nous ne

prônons par pour autant la remise en cause de la démarche manuelle : en effet, la dimension

longitudinale de ce type de démarche, et notamment l’interaction constante qu’elle implique

entre le chercheur et le corpus nous semble être une source précieuse pour nombre

d’hypothèses fructueuses.

Toujours en faveur de l’extraction manuelle des données, nous noterons de plus que

l’identification de phénomènes fonctionnels est une spécificité hors de la portée des systèmes

automatisés actuels ; de nombreux travaux s’attachent bien entendu à l’analyse de ce type de

phénomène142, mais force est de constater que les algorithmes, aussi efficaces soient-ils dans

le cadre de la reconnaissance des formes, sont de piètres juges en matière de fonction.

C’est sans doute précisément dans cette spécialisation dichotomique que se trouve une

partie de la solution concernant l’opposition des démarches manuelle et automatique

142 Nous avons nous même proposé dans Auran & Di Cristo 2003 un algorithme de prédiction de la longueur

subjective (aspect fonctionnel) des syllabes dans le discours en français.


363

d’analyse et d’extraction des données ; ainsi, à la suite de nombreux travaux, dont notamment

Hirst à paraître, nous pensons judicieux de laisser à chaque démarche la responsabilité de son

domaine d’excellence : de manière schématique, nous suggérons que l’humain s’attache à

l’analyse (annotation, extraction, etc.) des phénomènes fonctionnels, et que la machine

s’occupe des formes qu’elle sait identifier.

L’exemple du système ToBI (cf. Silverman et al. 1992) est particulièrement instructif.

Comme le soulignent Wightman 2002 et Hirst à paraître, l’identification des aspects

prosodiques fonctionnels tels que les frontières et les accents par des experts humains présente

un accord inter juges élevé (de 85% à 92% et 87% à 91%, respectivement) ; tel n’est pas le

cas concernant les aspects formels, avec moins de 50% d’indentification consensuelle pour 6

des 8 types de « pitch accents » et pour 6 des 9 types de tons de frontières, avec les mêmes

experts humains assistés de courbes de fréquence fondamentale et de spectrogrammes.

Fondant notre démarche sur ce constat et sur les contraintes suggérées par le cahier des

charges expérimental évoqué plus haut, nous allons à présent détailler le protocole employé

dans le cadre de notre analyse.

2.1.2 Protocole adopté

L’ensemble des contraintes que nous avons évoquées semble pouvoir se résumer à deux

éléments fondamentaux : la mesure et la spécialisation de l’extraction. Nous allons donc

aborder ces deux aspects concernant l’anaphore pronominale et les valeurs d’onset.

Critères d’extraction des anaphores pronominales

Nous pensons important de noter que le choix de l’anaphore pronominale comme

élément de nos analyses n’est pas innocent. En effet, en plus des aspects fonctionnels que

nous avons longuement évoqués (notamment le marquage robuste de la continuité discursive),

l’anaphore pronominale est caractérisée par une faible diversité formelle : par définition, elle

implique des pronoms personnels de troisième personne (et par extensions des formes

obliques telles que les pronoms et adjectifs possessifs) qui appartiennent à des classes

fermées.

Sur le plan fonctionnel, il est important de rappeler que les pronoms personnels (et leur

formes obliques) sont nettement plus spécialisés que les autres types d’expression

anaphorique que nous avons pu mentionner : contrairement aux expressions définies (qui

connaissent des usages génériques fréquents) et aux expressions démonstratives (souvent liées


364

à une forme de reclassification ou de rupture avec les conditions d’évaluation), les

expressions pronominales semblent pliées de manière privilégiée au marquage de la continuité

discursive.

Prenant en compte ces deux points, il semblerait donc que le problème de la

représentativité de la mesure, lié à l’identification des formes pertinentes, soit aisément

résolu : il suffirait d’extraire automatiquement les formes pronominales de troisième personne

pour obtenir les éléments pertinents à notre analyse. Deux problèmes majeurs se posent

cependant, respectivement relatifs au pronom « it » et à l’accentuation de l’anaphore

pronominale.

Le pronom « it » est une forme polyvalente utilisable non seulement dans le cadre de

l’anaphore mais aussi dans des constructions impersonnelles qu’une analyse automatique

fondée sur les éléments que nous avons ne permet pas d’identifier. Le risque est alors réel,

dans le cadre d’une extraction systématique, de récupérer ces formes dans leur fonction non

anaphorique.

En conséquence, nous avons choisi de ne pas effectuer l’extraction de la forme « it », et

proposons de l’inclure ultérieurement dans nos analyses lorsque le tagging et le parsing de

SEC, que nous avons obtenus récemment, auront été intégrés à Aix-MARSEC143.

Le second problème est relatif au fait que l’accentuation a une influence notoire sur le

fonctionnement de l’anaphore pronominale dans le cadre du marquage de la continuité

discursive (cf. chapitre 6). Ne pas différencier les pronoms anaphoriques accentués de leurs

contreparties inaccentuées risque donc de nous faire regrouper en une unique catégorie des

phénomènes fonctionnellement assez différents.

Notons cependant, que le problème de l’accentuation des anaphores pronominales,

implique en définitive la rencontre d’une forme lexicale (un pronom), d’une fonction

discursive (l’anaphore) et d’une fonction prosodique (l’accent). Seule la fonction prosodique

d’accentuation varie dans le cadre de l’opposition qui nous intéresse ici ; en conséquence,

nous proposons de prendre en considération l’annotation prosodique héritée de SEC et

143 Ceci constitue un exemple concret de l’intérêt de la démarche automatique.


365

MARSEC afin de distinguer les pronoms accentués (comportant une TSM) des pronoms

inaccentués (sans TSM)144.

Notons pour conclure que ces deux solutions sont en accord avec le principe évoqué

plus haut : la forme pronominale (pronoms personnels de troisième personne sauf « it ») est

extraite de manière automatique et la fonction prosodique d’accentuation est elle aussi extraite

automatiquement, mais à partir d’une annotation préalable manuelle.

Critères d’extraction des paramètres prosodiques

L’extraction des paramètres prosodiques implique en fait deux niveaux distincts : l’unité

intonative et l’onset lui-même.

Identifiées dans SEC sur la base de critères formels syntaxiques et fonctionnels

prosodiques (allongement final, pause, rupture rythmique, etc.), les unités intonatives sont en

fait composites et auraient été pour le moins délicates à identifier automatiquement. Ce travail

ayant déjà été effectué dans le corpus SEC (et repris dans MARSEC) par des experts humains,

nous n’aurons qu’à extraire automatiquement cette segmentation.

L’onset, est lui aussi un phénomène composite, mêlant aspects prosodiques fonctionnels

(c’est une syllabe accentuée) et formels (c’est la première syllabe accentuée d’une unité

intonative, ce qui constitue un critère formel). L’extraction de cette information sera alors à

effectuer en accord avec les principes de spécialisations évoqués plus haut : nous nous

appuierons ainsi sur l’annotation prosodique (manuelle) fournie par SEC et MARSEC pour

identifier les syllabes accentuées au sein d’une unité intonative, et recourrons à un algorithme

automatique pour extraire les informations relatives à la première de ces syllabes.

Comme nous l’avons rappelé plus haut, la prise en considération des variations

microprosodiques évoquées lors du chapitre 5 implique l’utilisation de l’algorithme MOMEL,

qui ne conserve que la composante fréquentielle macro-prosodique ; notons qu’une

normalisation sera de plus nécessaire afin de neutraliser la variation entre locuteurs et ainsi

obtenir une représentativité optimale des mesures.

144 Dans ce contexte, les pronoms porteurs d’une TSM « level » (perceptivement proéminents sans être pour

autant porteurs d’un « pitch accent »), tout comme les pronoms caractérisés par un « upstep » (lié à un

changement de registre), ont été classés dans la catégorie générale « accentué ».


366

Implémentation

Les différents critères que nous venons de mentionner ont été intégrés dans le script Perl

query_UI.pl (version 13) qui effectue schématiquement les traitements suivants :

• lecture des fichiers de données (fichiers TextGrids et fichiers de F0 modélisée à l’aide

de MOMEL) ne comportant qu’un seul locuteur145 ;

• identification des unités intonatives et classification (type majeur ou mineur de la

frontière droite, type de la frontière gauche, durée de l’unité, nombre de mots lexicaux,

etc.) ;

• recherche d’un éventuel pronom/adjectif personnel anaphorique (« he, she, they, him,

his, her, them, their ») au sein de l’unité intonative et codage éventuel (pronom

accentué codé 2 ; pronom inaccentué codé 1 ; absence de pronom codée 0) ;

• identification de l’onset et prises de mesures prosodiques (par exemple, valeur absolue

de l’onset, valeurs absolue et relative de l’onset par rapport à la dernière syllabe

accentuée de l’unité précédente, durée normalisée de l’onset, durée de l’unité

rythmique contenant l’onset, durée de l’unité intonative, etc.)

• génération des fichiers de sortie par enregistrement sous forme de données tabulaires.

Les données ainsi obtenues ont ensuite pu être chargées dans l’environnement

statistique R146, au sein duquel nous avons effectué toutes les analyses vers lesquelles nous

allons à présent nous tourner.

2.2 Echantillonnage

En dépit du fait que cette phase constitue une réelle première analyse des données

générées par notre script d’extraction, nous avons décidé d’inclure ce que nous avons appelé

« échantillonnage » dans cette section consacrée au protocole expérimental. Parmi les raisons

qui justifient ce choix, nous retiendrons particulièrement le fait que ces traitements constituent

une réponse directe aux contraintes spécifiées dans le cahier des charges et sont plus à

considérer comme des précisions méthodologiques que des résultats finaux.

145 Les fichiers multi-locuteurs ont été écartés, de fait de l’impossibilité de normaliser automatiquement les

valeurs de F0 de manière fiable. 146 The R Project for Statistical Computing, disponible sur le site: http://www.r-project.org


367

Par échantillonnage, nous entendons ici « sélection d’un échantillon représentatif des

phénomènes analysés ». Entendue dans son acception plus statistique, cette démarche va

consister pour nous à assurer un nombre raisonnable d’observations impliquant une anaphore

pronominale.

Une première analyse globale des données brutes nous permet de fournir les éléments

numériques suivants :

Enreg. UI A A 1 A 2 A3 A4 A5 38 8618 1053 973 2 10 34 34 % de Total 12,22% 11,29% 0,02% 0,12% 0,39% 0,39%

% de A 92,40% 0,19% 0,95% 3,23% 3,23%

Tableau 13 : Première analyse des données brutes.

Légende du tableau 1 :

• Enreg. : groupes d’extraits formant un enregistrement ;

• UI : nombre total d’unité intonatives (UI) extraites ;

• A : nombre total d’UI marquées par anaphore pronominale ;

• A1 : nombre d’UI marquées par anaphore pronominale inaccentuée ;

• A2 : nombre d’UI marquées par anaphore pronominale accentuée par upstep ;

• A3 : nombre d’UI marquées par anaphore pronominale accentuée ;

• A4 : nombre d’UI marquées par anaphore pronominale accentuée par upstep et en position d’onset ;

• A5 : nombre d’UI marquées par anaphore pronominale accentuée et en position d’onset.

L’application du script d’extraction des données à ainsi conduit à la sélection de 38

enregistrements mono-locuteurs pour une durée de plus de 3h 42min et à l’extraction de

données concernant 8618 unités intonatives dont

• 1053 (12,22%) contenaient au moins un pronom anaphorique,

• 973 (11,29%) contenaient au moins un pronom anaphorique et pas de pronom

anaphorique accentué et

• 80 (A2+A3+A4+A5, soit 0,92%) contenaient au moins un pronom anaphorique

accentué.


368

Ces premières analyses, et notamment la faible proportion d’unités intonatives

contenant un pronom anaphorique, nous encouragent à pousser un peu plus loin l’observation

des données, particulièrement concernant la distributions des anaphores pronominales

inaccentuées.

En effet, le risque principal dans le cas présent est de voir la plupart des occurrences

regroupées chez une groupe restreint de locuteurs, voire même un seul, et donc d’observer un

biais important (notamment en fonction du sexe de ce locuteur) dans les valeurs

fréquentielles.

En conséquence, nous allons étudier de manière plus précise les distributions des UIs

marquées et non marquées par anaphore pronominale inaccentuée. La figure 49 ci-dessous

représente, par groupe d’enregistrements, la distribution des unités intonatives non marquées

par anaphore pronominale ; La figure 50 ci-après représente, toujours par groupe

d’enregistrements, la distribution des unités intonatives marquées par anaphore pronominale

inaccentuée.

A01

A02

A03

A04

A05

A06

A07

A08

A09

A10

A11

A12

B04

C01

D01

D02

D03

G01

G02

G03

G04

G05

H01

H02

H03

H04

H05

K01

K02

M01

M02

M03

M04

M05

M06

M07

M08

M09

543210

Distribution des unités intonatives non marquées par anaphore pronominalepar groupe d'enregistrements

group[which(anaph == "0")]

anap

h[w

hich

(ana

ph =

= "0

")]

0

200

400

600

800

1000

1200

1400

Figure 49 : Distribution des unités intonatives non marquées par anaphore pronominale

par groupe d’enregistrements.


369

A01

A02

A03

A04

A05

A06

A07

A08

A09

A10

A11

A12

B04

C01

D01

D02

D03

G01

G02

G03

G04

G05

H01

H02

H03

H04

H05

K01

K02

M01

M02

M03

M04

M05

M06

M07

M08

M09

543210

Distribution des UI marquées par anaphore pronominale inaccentuée par groupe d'enregistrements

Groupes d'enregistrements

Effe

ctif

0

50

100

150

200

250

300

Figure 50 : Distribution des unités intonatives marquées par anaphore pronominale

inaccentuée par groupe d’enregistrements.

Nous tirerons particulièrement deux conclusions de ces distributions :

• premièrement, les enregistrements, de durées très différentes, contiennent

nécessairement des nombres d’unités intonatives très différents (cf. figure 49). On

notera par exemple que l’enregistrement C01 culmine à un total de 780 unités

intonatives (tous statuts confondus), alors que d’autres enregistrements n’en

regroupent que quelques unes.

• deuxièmement, la distribution des unités marquées par anaphore pronominale

inaccentuée montre elle aussi une grande disparité selon les groupes d’enregistrement,

avec des groupes très représentés (par exemple G01 avec 325 UIs marquées) et

d’autres largement sous-représentés.

Un échantillonnage est donc indispensable si l’on veut mesurer des tendances à valeur

générale, et pas uniquement celles du locuteur des enregistrements C01 ou G01. Dans ce

contexte, le problème principal consiste à définir les critères de l’échantillonnage.

Etant donné le cadre de notre étude, nous avons pour objectif de maximiser le nombre

d’occurrences de marquage par anaphore ; deux stratégies sont dès lors envisageables :


370

• premièrement, on pourra sélectionner les enregistrements dont les valeurs absolues

sont les plus élevées (tableau 14 ci-dessous) ;

• deuxièmement, on pourra sélectionner les enregistrements dont les valeurs relatives

(nombre d’unités marquées par anaphore pronominale inaccentuée sur nombre total

d’unité) sont les plus élevées (tableau 15 ci-après).

Enreg. UI A A 1 A1%UI

G01 709 325 295 41,61%G02 325 83 81 24,92%G05 396 53 53 13,38%M06 262 49 49 18,70%C01 1223 44 43 3,52%D02 630 43 41 6,51%G04 230 41 38 16,52%K01 223 34 32 14,35%D01 612 35 29 4,74%A04 295 24 24 8,14%A10 150 24 24 16,00%M05 123 24 24 19,51%A11 194 28 23 11,86%A03 145 21 20 13,79%

Tableau 14 : Tableau partiel par ordre décroissant d’effectif d’anaphore.


371

Enreg. UI A A 1 A1%UI

G01 709 325 295 41,61% G02 325 83 81 24,92% H05 51 12 12 23,53% H01 56 12 12 21,43% M05 123 24 24 19,51% M06 262 49 49 18,70% G04 230 41 38 16,52% A10 150 24 24 16,00% K01 223 34 32 14,35% A03 145 21 20 13,79% M09 81 12 11 13,58% G05 396 53 53 13,38% A06 157 23 19 12,10% A11 194 28 23 11,86%

Tableau 15 : Tableau partiel par ordre décroissant de pourcentage d’anaphore.

Nous proposons de coupler ces deux approches afin de définir un échantillon strict et un

échantillon élargi ; pour ce faire, nous allons fixer deux seuils minimaux (un seuil pour le

classement en termes absolus et un seuil pour le classement en termes relatifs) en dessous

desquels nous exclurons les enregistrements de notre échantillon.

Nous choisirons comme seuil absolu minimal la valeur moyenne du nombre d’unités

marquées par anaphore pronominale inaccentuée, c’est-à-dire 27,71.

Nous choisirons comme seuil relatif minimal la valeur moyenne du nombre d’unités

marquées par anaphore pronominale inaccentuée par rapport au nombre total d’unités

intonatives ; cette valeur est de 11,17%.

Nous allons ainsi inclure dans notre échantillon élargi tout groupe d’enregistrements

comportant plus de 27 ou plus de 11,17% d’unités intonatives marquées ; l’échantillon strict

accueillera quant à lui les enregistrements répondant simultanément à ces deux critères. Nous

parlerons groupes « qualifiés » dans le premier cas, et « doublement qualifiés » dans le

second.


372

Les groupes doublement qualifiés sont : A11, G01, G02, G04, G05, K01147 ; et les

groupes qualifiés sont A02, A03, A05, A06, A10, C01, D01, D02, H01, H05, M05 et M09.

Le tableau 16 ci-dessous résume les groupes retenus et précise leur durée absolue et

relative à l’ensemble des groupes retenus.

Enreg. Sexe Temps de parole en sec.

% sur Aix-MARSEC mono-locuteur (doublement) qualifiés

G01 F 1146 12,46%

G02 M 534 5,81%

G05 M 549 5,97%

G04 F 314 3,41%

K01 M 276 3,00%

Doublement qualifiés

A11 M 253 2,75%

A02 M 214 2,33%

A05 M 286 3,11%

A03 M 243 2,64%

A06 M 272 2,96%

A10 M 262 2,85%

C01 M 1763 19,17%

D01 M 971 10,56%

D02 M 1099 11,95%

H01 M 105 1,14%

H05 M 73 0,79%

M05 M 271 2,95%

Qualifiés

M09 M 140 1,52%

DUREE TOTALE 8771 sec.

(2 h. 26 min. 11 sec.)

Tableau 16 : Groupes d’enregistrements retenus après échantillonnage.

La suite de nos analyses portera à la fois sur l’échantillon strict et sur l’échantillon

étendu et nous tâcherons de détailler les différences lorsque cela s’avèrera pertinent.

147 Nous avons dû exclure M06 de nos mesures suite à un problème de détection de la F0 pour cet enregistrement


373

2.3 Normalisation

Comme nous l’avons précisé dans notre cahier des charges expérimental, la

normalisation s’avère indispensable à la représentativité des mesures. Nous allons donc

consacrer une rubrique spécifique à la méthode employée dans ce travail. Au préalable,

cependant, nous allons détailler la transformation logarithmique, traitement préliminaire

classique concernant des données temporelles et fréquentielles.

2.3.1 Transformation logarithmique

Les données temporelles et fréquentielles ont pour caractéristique inhérente de ne pas

pouvoir être négatives ; ceci explique le tassement des effectifs « à gauche » que l’on observe

généralement dans les histogrammes de distributions. La figure 51 ci-dessous confirme ce fait

pour notre échantillon élargi.

Distribution de la F0 brute des onsets de l'échantillon élargi

F0 brute de l'onset

Effe

ctifs

0 100 200 300 400 500 600

020

040

060

080

010

00

Figure 51 : Histogramme et courbe de densité des valeurs brutes de F0

des onsets de l’échantillon élargi.

La transformation logarithmique des données permet d’atténuer cet effet

d’accumulation artificielle des données en début de distribution, et fournit une distribution

plus proche d’une distribution normale, dont l’analyse statistique est plus aisée. La figure 52


374

ci-dessous représente nos valeurs fréquentielles d’onset après transformation logarithmique,

toujours pour l’échantillon élargi.

Distribution de la F0 transformée des onsets de l'échantillon élargi

F0 transformée de l'onset

Effe

ctifs

2 3 4 5 6

010

020

030

040

050

060

0

Figure 52 : Histogramme et courbe de densité des valeurs de F0 des onsets pour l’échantillon

élargi après transformation logarithmique.

Si cette distribution est moins dissymétrique, elle fait néanmoins ressortir une apparente

tendance bimodale dont les deux modes sont signalés par des flèches sur la figure 52. Nous

faisons l’hypothèse que cette bimodalité est notamment liée à la différence de sexe entre les

locuteurs.

La figure 53 ci-après représente sous forme de « boxplots » les distributions de F0

transformée pour l’échantillon élargi (partie gauche) et pour l’échantillon strict (partie droite).


375

F M

3.5

4.0

4.5

5.0

5.5

6.0

6.5

F0 transformée des onsetsen fonction du sexe du locuteur

Echantillon élargi

F M

3.5

4.0

4.5

5.0

5.5

6.0

6.5

F0 transformée des onsetsen fonction du sexe du locuteur

Echantillon strict

Figure 53 : F0 transformée des onsets pour l’échantillon élargi et pour l’échantillon strict

en fonction du sexe du locuteur.

Cette différence très significative dans les deux échantillons (ANOVA : F=1193 et

F=784 pour p<2.2e-16 / KS148 : D=0.057 et D=4874 pour p<2.2e-16) ne constitue en aucun

cas une découverte ; nous espérons cependant avoir montré au lecteur non spécialiste de

traitement statistique tout l’intérêt que représente une analyse préliminaire des données.

Il nous reste à présent à neutraliser la variabilité de valeur de F0 des onsets liée au sexe

dans le cadre d’une démarche de normalisation que nous allons à présent aborder.

2.3.2 Procédure de normalisation

La procédure de normalisation que nous allons mettre en place consiste en une

« transformée z » des valeurs logarithmiques. Comme le représente l’équation 3 ci-dessous,

cette procédure statistique courante149 consiste à exprimer une valeur donnée en terme de

différence par rapport à la moyenne (on parle de centrage) divisée par l’écart type (on parle de

réduction) :

148 Nous présenterons ce second test statistique (Kolmogorov-Smirnov) un peu plus loin. 149 Que l’on retrouve dans la procédure de prédiction des élisions de phonèmes que nous avons détaillée dans le

chapitre précédent.


376

typeEcartMoyenneValeurNorm.

−=

Équation 3 : Valeur normalisée exprimée en fonction de la valeur brute et de la moyenne

et de l’écart type pour chaque sujet.

Appliquée à notre analyse, cette méthode permet d’obtenir un ensemble de valeurs

indépendantes du niveau et de l’étendue fréquentiel du locuteur ; ce qui permet une mise en

commun et une comparaison des données de plusieurs locuteurs.

Cette méthode de normalisation, cependant, exige pour être pertinente que les notions

de moyenne et d’écart type aient un sens pour la variable analysée ; en d’autres termes, il faut

que la distribution de cette variable soit relativement proche d’une distribution normale. La

section précédente nous a permis de voir que la transformation logarithmique de nos données

permet d’obtenir une distribution sensiblement plus proche de la distribution normale.

Il nous semble cependant opportun de quantifier précisément la similitude des

distributions de valeurs fréquentielles d’onset pour chacun des groupes retenus avec une

distribution normale. Nous allons ainsi tout d’abord nous livrer à l’analyse des

caractéristiques d’aplatissement et de dissymétrie à l’aide du tableau 17 ci-après.


377

Aplatissement Dissymétrie

Dist. Norm 1 0

G01 0,95 0.62

G02 -0.76 0.17

G05 0.33 0.62

G04 -0.78 0.06

K01 -0.36 0.48

A11 2.13 0.45

A02 1.74 1.52

A05 32.88 -3.29

A03 -0.11 0.04

A06 -0.22 0.04

A10 -0.48 0.44

C01 15.16 -0.81

D01 0.09 0.02

D02 0.41 0.84

H01 -0.78 0.52

H05 1.81 -0.70

M05 0.79 0.89

M09 -0.21 0.82

Tableau 17 : Aplatissement et dissymétrie des distributions de F0 transformée des onsets.

Ces indices quantitatifs laissent penser que la distribution des valeurs transformées

semble dans certains cas se démarquer de manière importante d’une distribution normale.

Nous allons donc recourir au test de Kolmogorov-Smirnov qui permet de comparer deux

distributions sans que celles-ci soient nécessairement proches d’une distribution normale.

Notre objectif va ici consister à comparer les distributions des valeurs transformées avec

une distribution normale générée aléatoirement, mais de même effectif, de même moyenne et

de même écart type. Les résultats de ces tests sont résumés dans le tableau 18 ci-après, qui

reprend aussi les valeurs d’aplatissement et de dissymétrie :


378

Aplatissement Dissymétrie D P-Valeur

G01 0,95 0.62 0.0664 0.2323

G02 -0.76 0.17 0.0862 0.1791

G05 0.33 0.62 0.0684 0.3146

G04 -0.78 0.06 0.0913 0.2931

K01 -0.36 0.48 0.1031 0.1864

A11 2.13 0.45 0.0825 0.5243

A02 1.74 1.52 0.1538 0.0377

A05 32.88 -3.29 0.1468 0.0182

A03 -0.11 0.04 0.069 0.8807

A06 -0.22 0.04 0.0955 0.4707

A10 -0.48 0.44 0.1 0.4413

C01 15.16 -0.81 0.0828 0.0005

D01 0.09 0.02 0.0525 0.3708

D02 0.41 0.84 0.1048 0.002

H01 -0.78 0.52 0.2443 0.1528

H05 1.81 -0.70 0.1176 0.872

M05 0.79 0.89 0.0569 0.9885

M09 -0.21 0.82 0.1852 0.1243

Tableau 18 : Aplatissements, dissymétries, statistiques D et P-valeurs des tests de

Kolmogorov-Smirnov effectués sur les distributions de F0 transformée des onsets.

Avec un seuil classique de confiance à 0.05, nous rejetons les groupes

d’enregistrements A02, A05, C01 et D02, qui diffèrent de manière significative d’une

distribution normale. En conséquence, nous appliquerons notre méthode de normalisation aux

autres groupes d’enregistrements, vers l’analyse desquels nous allons à présent nous tourner.


379

3 Résultats et discussion

Après avoir défini le protocole d’extraction et de traitement préliminaire des données,

nous allons à présent évoquer les résultats de nos analyses et proposer une mise en perspective

de ces derniers dans le cadre d’une discussion.

3.1 Résultats

Cette rubrique va se décomposer en deux parties traitant des relations que l’onset

entretient avec le marquage de la (dis)continuité discursive indépendamment de l’anaphore

ainsi que l’influence de l’anaphore pronominale sur sa réalisation.

3.1.1 Valeur fréquentielle d’onset et structure prosodico-discursive

Plus qu’un réel apport de données nouvelles, l’analyse des relations unissant la valeur

fréquentielle des onsets à la structure prosodique devrait nous permettre de valider le

protocole mis en place.

Parmi les mesures que nous avons extraites de manière automatique, nous avons choisi

de sélectionner deux mesures relatives à la structuration prosodique. La première mesure

correspond à la nature de la frontière finale de l’unité intonative « en cours » ; la seconde

concerne la nature de la frontière initiale de l’unité « en cours », c'est-à-dire la frontière finale

de l’unité précédente. Comme nous allons le voir avec la figure 54 ci-dessous, ces deux

mesures permettent l’apport d’informations complémentaires.

Figure 54 : Exemple de segmentation prosodique extraite de l’enregistrement A0101.

Considérons tout d’abord l’information apportée par la nature de la frontière finale de

l’unité en cours. Dans l’exemple de la figure 54, la frontière finale de la première unité

intonative a été identifiée comme majeure (TSM « || ») par les annotateurs du SEC, tout

comme pour l’unité 5 ; ce que ces deux frontières ont en commun est, en accord avec notre

vision principalement ponctuelle, de marquer un regroupement rétroactif par le biais d’une

[Good Morning] [More news about the Reverend Sun Myung Moon] 1 2 || | [founder of the Unification Church] [who’s currently in jail] [for tax evasion]

3 4 5 | | ||


380

discontinuité finale liée à la présence d’un allongement et notamment d’un pause longue (cf.

Williams 1996 et ici même, chap. 7, pour l’explicitations des critères utilisés). Nous coderons

ces unités « U-Maj » ou simplement « Maj », par opposition aux « U-min » ou plus

simplement « min », marquées par une frontière finale mineure (TSM « | »). Dans ce cadre,

notre hypothèse est que la valeur fréquentielle de l’onset devrait être abaissée ou non marquée

en cas d’U-MAJ non précédée d’U-min, comme pour 1 dans notre exemple.

A contrario, l’information que l’unité en cours est U-min (frontière finale « | ») ne nous

permet pas de formuler d’hypothèse concernant la valeur fréquentielle de l’onset ; en effet,

une telle unité peut tout à fait suivre une U-MAJ (comme l’UI 2 de notre exemple) et donc

probablement marquer une discontinuité initiale, ou bien suivre une autre U-min (comme les

UI 3 et 4 de notre exemple) et donc probablement marquer une continuité initiale.

Cette lacune est compensée par le second type d’information, qui concerne l’unité

précédente. Lorsque celle-ci est U-MAJ (c’est le cas pour l’UI 2 de noter exemple, précédée

par l’UI 1 qui est U-MAJ), l’unité en cours est liée à une discontinuité initiale, et nous

prédisons donc une augmentation de la valeur fréquentielle de l’onset.

Lorsque l’unité précédente est U-min, aucun regroupement rétroactif n’a déjà été

effectué et l’on peut postuler que l’on se situe dans une perspective de continuité discursive,

avec soit une valeur fréquentielle non marquée soit une valeur abaissée de l’onset. Ce cas de

figue est représenté par l’UI 3 de notre exemple.

On peut résumer ces hypothèses à l’aide du tableau 19 ci-dessous :

Type Prédiction

| 0 / < / > En cours

|| <

| < Précédente

|| >

Tableau 19 : Prédiction des valeurs d’onset en fonction de la nature de la frontière finale de

l’unité en cours ou de l’unité précédente.


381

En croisant ces deux types d’informations, on peut obtenir les prédictions représentées

dans le tableau 20 ci-dessous :

En cours Précédente Type

| || | ||

| 0 / < > En cours

|| < ?

| 0 / < < Précédente

|| > ?

Tableau 20 : Prédiction des valeurs d’onset en fonction de la nature de l’unité en cours

et de l’unité précédente.

L’analyse de notre échantillon confirme les prédictions effectuées. De manière

schématique, nous retiendrons que les valeurs fréquentielles d’onset sont les plus élevées

lorsque l’unité précédente est U-MAJ et l’unité en cours U-min (configuration MAJ/min), ce

qui correspond à une unité initiale de paraton dans le modèle utilisant ce concept. A l’autre

extrême, les valeurs les plus basses correspondent aux cas où l’unité précédente est U-min et

où l’unité en cours est U-MAJ (configuration min/MAJ), ce qui correspond à une unité finale

de paraton.

Les valeurs intermédiaires se rencontrent lorsque les deux unités sont U-MAJ

(configuration MAJ/MAJ, c'est-à-dire lorsque l’unité en cours constitue un paraton à elle

seule) ou U-min (configurations min/min, lorsque l’unité en cours n’est ni initiale ni finale de

paraton). La figure 55 ci-après résume cette situation :


382

min / min MAJ / min min / MAJ MAJ / MAJ

-4-2

02

4

Valeurs fréquentielles des onsets en fonction de la nature de l'unité précédente et de celle de l'unité en cours

Figure 55 : Valeurs fréquentielles des onsets en fonction de l’unité intonative précédente et de

l’unité intonative en cours (échantillon élargi).

Le tableau 21 ci-dessous résume la significativité des effets dans le cadre d’une analyse

de variance à deux facteurs croisés :

Echantillon élargi Echantillon strict

Statistique F P-valeur Statistique F P-valeur

UI précédente 312.161 < 2.2e-16 113.4834 <2.2e-16

UI en cours 178.513 < 2.2e-16 88.1092 <2e-16

Précédente : en cours 14.111 0.0001752 2.8277 0.0928

Tableau 21 : Statistique F et P-valeur pour les ANOVAS sur échantillons élargi et srict.


383

Si les configurations min/min et MAJ/MAJ sont toutes deux significativement

différentes des autres configurations, elles ne sont en revanche significativement différentes

l’une de l’autre que dans notre échantillon élargi (avec une p-valeur de 0,03226 juste en

dessous du seuil classique de 0,05). Les tableaux 22 et 23 ci-après rassemblent les p-valeurs

liées aux tests de Kolmogorov-Smirnov des comparaisons binaires :


min / min 2.694e-07 3.874e-10 0.03226

MAJ / min < 2.2e-16 4.429e-09

min / MAJ 3.475e-14

MAJ / MAJ

Tableau 22 : P-valeurs des tests de Kolmogorov-Smirnov pour l’échantillon élargi.


min / min 0.000539 7.188e-05 0.7202

MAJ / min 2.016e-13 7.257e-05

min / MAJ 0.0001535

MAJ / MAJ

Tableau 23 : P-valeurs des tests de Kolmogorov-Smirnov pour l’échantillon strict.

En résumé, cette première série d’analyses confirme les observations antérieures (cf.

chapitre 6) relatives au marquage prosodique de la (dis)continuité discursive ; ce fait permet

de valider le protocole que nous avons mis en place, ce qui nous conduit à nous tourner à

présent vers l’étude des interactions entre anaphore et valeur fréquentielle d’onset.

3.1.2 Valeur fréquentielle d’onset et anaphore pronominale

Il semble utile de rappeler ici nos deux hypothèses fondamentales :






384

Comme le montre le tableau 24 ci-dessous, l’analyse des données vérifie partiellement

l’hypothèse H1 :



Anaphore 9.5963 0.001966 1.5179 0.2181

Tableau 24 : Statistique F et P-valeur pour les ANOVAS sur échantillons élargi et strict.

La prise en compte de l’échantillon élargi indique en effet (au seuil classique de 0,05)

une influence du marquage de la continuité discursive par anaphore pronominale sur la

réalisation des valeurs fréquentielles des onsets (F=9,5963, p=0,001966). Cette influence,

cependant, ne semble pas être confirmée dans l’échantillon strict, ce qui laisse supposer un

effet du locuteur150.

Le tableau 25 ci-dessous fournit les résultats de l’analyse de variance à deux facteurs

croisés prenant en compte le facteur « anaphore » et le facteur « locuteur » pour les deux

échantillons :



Anaphore 9.6058 0.001956 1.5175 0.2181

Locuteur 0.5182 0.904503 0.5264 0.7565

Anaphore : Locuteur 1.7627 0.048687 1.3509 0.2400

Tableau 25 : Statistique F et P-valeur pour les ANOVAS sur échantillons élargi et strict.

Ces résultats semblent indiquer trois phénomènes principaux :

• le marquage de la continuité discursive par anaphore pronominale paraît influencer la

réalisation des onsets (c’est ce que suggère la significativité observée pour ce facteur

dans l’échantillon élargi) ;

150 Un effet du style de parole a aussi été envisagé, mais est écarté par nos analyses statistiques (ANOVAs à un et

deux facteurs croisés, l’anaphore étant le second facteur) tant sur l’échantillon strict que sur l’échantillon élargi.


385

• il semble cependant que cet effet est minime, comme le laissent penser la faible

statistique et la p-valeur supérieure à 0,001 ;

• l’effet de l’anaphore pronominale sur la valeur d’onset est visiblement dépendant des

locuteurs, comme le montre d’une part la perte de significativité liée au passage à

l’échantillon strict et d’autre part la significativité (p-valeur de 0,048687) de

l’interaction entre les deux facteurs.

Nous enchaînerons donc temporairement sur ce point en observant que si l’ampleur et la

variabilité de l’effet de l’anaphore sur l’onset sont plus ténues et complexe que ce que nous

supposions, le sens de cet effet est pour le moins surprenant.

Au niveau global de nos échantillons, en effet, nos analyses font ressortir que la valeur

normalisée de l’onset « avec anaphore » est supérieure à celle observée « sans anaphore » ; le

tableau 26 ci-dessous précise le détail de ces mesures :


- Anaphore + Anaphore - Anaphore + Anaphore

Valeurs normalisées -0.1531412 -0.01967583 -0.1556522 -0.0929139

Différence 0.1334653 0.06273824

Tableau 26 : Moyennes et différences des valeurs normalisées

pour les échantillons élargi et strict.

Afin d’avoir une idée moins abstraite de la différence observée, nous avons effectué une

analyse du facteur anaphore pour la réalisation des onsets par locuteur, ce qui nous a permis

d’identifier 6 locuteurs pour lesquels cet effet était significatif ; nous avons ensuite extrait les

valeurs fréquentielles moyennes d’onset dans chaque condition (avec et sans anaphore) et les

avons converties en demi-tons (par rapport à la valeur basse). Les résultats de cette procédure

sont regroupés dans le tableau 27 ci-après :


386

Diff. en Htz Diff en ½ tons

G04 24,66 1,62

A03 15,95 1,64

A06 17 1,79

A10 12,79 1,73

M05 16,69 1,94

M09 19,45 2,02

Moyenne 1,79

Tableau 27 : Différences de valeurs fréquentielles d’onset en Htz et en demi-tons en fonction

de la présence d’une anaphore pronominale ou pas, par locuteur

pour lequel l’effet est significatif.

Nous résumerons cette partie de nos analyses en rappelant que le marquage de la

continuité discursive par anaphore pronominale semble influencer la réalisation des valeurs

fréquentielles des onsets d’unités intonatives ; cette influence est cependant variable en

fonction des locuteurs et se traduit, lorsqu’elle est significative, par une augmentation de la

valeur de l’onset d’un peu moins de deux tons.

Ainsi, si notre hypothèse H1 est partiellement vérifiée, un tel comportement est

contraire à notre hypothèse H2, et va faire l’objet de la discussion vers laquelle nous nous

tournons à présent.

3.2 Discussion

3.2.1 Conceptions de l’onset

Nous remarquerons en préliminaire à cette discussion de nos résultats que le choix que

nous avons effectué concernant la conception de la valeur fréquentielle d’onset n’est pas

théoriquement neutre. Schématiquement, en effet, il y a trois manières de considérer une

valeur fréquentielle donnée :

• en termes absolus globaux (valeur brute en Htz), ce qui pose les problèmes de

comparaison et de mise en commun soulevés lors de la présentation de notre méthode

de normalisation ;


387

• en termes localement absolus (valeur relative à un domaine), par rapport au niveau et à

l’étendue fréquentielle du locuteur sur un empan de texte ;

• en termes relatifs (valeur relative au contexte immédiat), par rapport aux valeurs

environnantes au sein d’un même domaine.

Comme nous l’avons suggéré lors de nos chapitres 5 et 6, ces deux dernières

conceptions (présentes dans le système INTSINT) nous semblent être les seules capables

d’éclairer une approche linguistique de la prosodie.

Concernant le problème particulier de l’onset, ces deux approches (localement absolue,

et relative) pourraient aussi s’appliquer : on retrouve alors deux conceptions de l’onset, soit

comme valeur localement absolue étant donnés le niveau et l’étendu usuels du locuteur (notre

approche), soit comme valeur relative, notamment par rapport à la valeur finale de l’unité

précédente ; le terme « resetting » est lié à cette seconde conception et implique généralement

un retour à une valeur d’attaque par rapport à la valeur finale de l’unité précédente.

Parmi les nombreux facteurs que nous avons extraits, nous avons aussi calculé le ratio

entre ces deux valeurs, qui nous offre ce type de mesure relative. Une rapide analyse de cette

variable prise comme variable dépendante fournit les résultats résumés dans le tableau 28 ci-

dessous :

Onset relatif (=resetting) Onset localement absolu

F P F P

UI précédente 220,31 < 2.2e-16 * 302,97 < 2.2e-16 *

UI en cours

78,31 < 2.2e-16 * 226,28 < 2.2e-16 *

Anaphore 1,5684 0,2105 9,5963 0,001966 *

Tableau 28 : Valeurs de la statistique F et de la p-valeur pour les ANOVAs à un facteur

prenant l’onset localement absolu ou relatif comme variable dépendante.

Nous retiendrons deux aspects principaux de ces résultats. Le premier aspect

fondamental concerne les valeurs de la statistique F obtenues dans le cadre de l’analyse des

facteurs « UI en cours » et « UI précédente » ; on remarque que ces valeurs sont

systématiquement beaucoup plus élevées lorsque l’onset est une valeur considérée localement

absolue (notre approche) que lorsque il est appréhendé en tant que valeur relative

(« resetting »). Sans formuler de conclusion trop hâtive, ce phénomène semble indiquer que


388

les facteurs « UI en cours » et « UI précédente » expliquent mieux la variable dépendante

lorsque celle-ci est considérée comme localement absolue.

Deuxièmement, de manière similaire, seule une appréhension localement absolue de

l’onset permet à l’effet du facteur « anaphore » de se révéler significatif.

Pris ensemble, ces deux points semblent indiquer que la conception de l’onset que nous

avons adoptée ici, en termes localement absolus s’avère plus à même de mettre en évidence

les effets des différents facteurs que nous savons importants. Nous nous garderons bien

cependant de tirer ici une conclusion définitive sur ce point qui mériterait de plus amples

investigations ; l’une des raisons principales de notre méfiance réside dans le risque de

circularité qui consiste à retenir une vision de l’onset notamment parqu’elle permet à l’une de

nos variables indépendantes d’être significative.

Gardant ce danger à l’esprit nous nous appuierons cependant sur la significativité accrue

des deux autres facteurs (« UI en cours » et « UI précédente »), pour réaffirmer notre

préférence concernant la vision localement absolue que nous avons choisi d’adopter,

conforme au codage « M », « T » ou « B » que propose INTSINT pour cette valeur.

3.2.2 Discussion de nos résultats

Nous avons choisi de classer les résultats que nous avons obtenus dans deux catégories

distinctes selon que l’on s’intéressait à la relation onset-structure prosodico-discursive ou à

l’influence du marquage de la continuité par anaphore pronominale sur la réalisation

fréquentielle des onsets.

La première thématique n’a à vrai dire pas apporté de résultats fondamentalement

nouveaux : nous avons notamment confirmé les relations déjà fréquentes dans la littérature

concernant l’association d’une élévation de la valeur fréquentielle de l’onset en association

avec la discontinuité discursive et, de manière complémentaire, l’abaissement de cette valeur

dans le cadre de la continuité.

Nous tenons cependant à noter que la démarche que nous avons suivie s’est inscrite

dans un cadre (esquissé au chapitre 6) qui consiste à reconnaître un niveau d’organisation

hiérarchique supérieur à l’unité intonative, mais pas nécessairement une unité (au sens strict)

plus grande que cette dernière (de type « paraton »). Les résultats que nous avons fournis, en

total accord avec nos prédictions, semblent argumenter en faveur de la pertinence d’une

approche plus localiste du marquage prosodique de la structure discursive. Nous noterons


389

cependant pour conclure sur ce premier point que le concept de supra-déclinaison (cf. Sluijter

& Terken 1993 ; Thorsen 1985 ; Wichmann 2000), s’il doit effectivement être envisagé

comme un procédé prosodique de marquage de la continuité discursive, constitue un argument

majeur en faveur de l’hypothèse d’une unité supérieure à l’unité intonative, similaire au

paraton si souvent mentionné dans la littérature (cf. cependant Hird 2002 pour une vision

contraire).

La seconde thématique a quant à elle été moins explorée dans le cadre de travaux

antérieurs. Les résultats que nous proposons ne sont en accord que partiel avec les hypothèses

que nous avons formulées en début de chapitre ; ainsi s’il semble bien que le marquage de la

continuité discursive par l’anaphore pronominale influence la réalisation fréquentielle de

l’onset des unités intonatives, force est de constater que cette influence est moins importante

et plus complexe que nos hypothèses ne le laissaient penser. L’orientation de l’effet,

notamment est totalement contraire à nos hypothèses : on assiste en effet à une élévation de

l’onset lorsque l’unité intonative comporte une anaphore pronominale, phénomène contraire à

un marquage redondant souvent observé entre différents paramètres discursifs.

Il semble cependant qu’une explication satisfaisante puisse être apportée à ce

phénomène si l’on considère le phénomène d’onset comme la résultante d’un ensemble de

contraintes à plusieurs niveaux de l’analyse linguistique. Notamment, suivant les propositions

de Swerts et al. 1996, il nous semble intéressant d’analyser plus avant la relation unissant

valeur d’onset et durée de l’unité intonative. Ce type de corrélation suggère une anticipation

de la part du locuteur (« look ahead ») et donc une orientation « vers l’avant », contraire à

l’orientation « vers l’arrière » liée au marquage de la (dis)continuité discursive initiale.

Une analyse des corrélations entre valeur fréquentielle des onsets et durée des unités

intonatives donne des résultats tout à fait conformes à ceux suggérés par Swerts et al. 1996 ;

le tableau 29 ci-après présente les résultats de l’analyse de variance à six facteurs croisés que

nous avons effectuée dans ce cadre.


390

Facteur Statistique F P-valeur

nlui 0.0093 0.9231238

nsui 0.5141 0.4734231

nruui 6.6435 0.0099944 *

nwui 12.7314 0.0003646 *

npui 43.0414 6.19e-11 *

dui 384.7268 < 2.2e-16 *

Tableau 29 : Statistiques F et P-valeurs de l’ANOVA croisant six mesures de la durée des UI

dans le cadre de la détermination des contraintes de durée pesant

sur la valeur fréquentielle de l’onset.

L’extraction automatique de données que nous avons mise en place dans le cadre de

cette thèse a permis l’extraction de six mesures différentes de la durée des unités intonatives

analysées : npui (nombre de phonèmes), nsui (nombre de syllabes), nruui (nombre d’unité

rythmiques), nwui (nombre de mots), nlui (nombre de mots lexicaux) et dui (durée en

milisecondes). Comme le montre le tableau ci-dessus, avec une statistique F de plus de 380, la

durée brute de l’unité intonative en millisecondes est de loin la variable qui explique le mieux

les valeurs d’onset observées151.

En conséquence, nous proposons (en accord avec les résultats de Swerts et al. 1996 et

Hird 2002) de concevoir l’onset comme dépendant de deux contraintes principales :

• D’un point de vue discursif, l’onset est, nous l’avons vu, l’une des marques les plus

robustes de (dis)continuité ; on peut donc en ce sens dire que la fonction de marquage

de (dis)continuité constitue la première contrainte pesant sur l’onset. Si nous ne

prenons en compte que le marquage de la continuité, nous réduirons cette contrainte à

une contrainte d’abaissement (cf. l’ « onset depression » ; Wichmann 2000).

• D’un point de vue psycho-physiologique, l’onset est directement lié à la durée de

l’unité intonative, conçue par nombre d’auteurs comme unité informationnelle

fondamentale. Il semble donc que le locuteur ait un accès anticipé à cette information

de durée et planifie une valeur d’onset destinée à permettre au phénomène plus

151 Nous noterons que le second facteur le plus important est le nombre de phonèmes, qui est en relation directe

(et plus linéaire que les syllabes ou les unités rythmiques) avec la durée brute.


391

physiologique de déclinaison de prendre place. En ce sens, l’anticipation de la durée

de l’unité et de la déclinaison qu’elle va entraîner constitue la seconde contrainte

majeure pesant sur la valeur d’onset ; cette contrainte est fondamentalement une

contrainte d’élévation.

On pourra donc considérer qu’une valeur fréquentielle donnée d’onset, dans le cadre du

marquage de la continuité discursive, résulte d’un arbitrage entre la contrainte d’abaissement

et la contrainte d’élévation liée à l’anticipation du matériau verbal à venir.

Nous l’avons maintes fois répété, l’anaphore pronominale inaccentuée constitue une

marque fiable de continuité discursive. Nous proposons de faire l’hypothèse que la présence

d’une telle marque constitue en quelque sorte une garantie de continuité fournie par le

locuteur à son interlocuteur, et permet donc l’allègement de la contrainte d’abaissement de

l’onset. L’influence relative de la contrainte d’élévation génère ainsi une augmentation de la

valeur d’onset, sans que celle-ci ne puisse être méprise pour une marque de discontinuité.

La figure 56 ci-dessous représente schématiquement le type de fonctionnement que

nous proposons ici.

Figure 56 : Représentation schématique de l’allègement des contraintes discursives

d’abaissement de l’onset par l’anaphore pronominale inaccentuée (API). Les contraintes

d’élévation obtiennent un poids relatif plus important.

Contraintes Discursives

CONTINUITE

ABAISSEMENT

Contraintes d’Anticipation

DECLINAISON

ELEVATION

Valeur d’onset

API


392

Auran & Hirst 2004 présente dans le détail une analyse (fondée sur un protocole

similaire à celui présenté ici) qui montre que le marquage de la continuité par des connecteurs

tels que « and » ou « then » n’induit pas d’élévation d’onset.

L’interprétation que nous proposons, inspirée du « Modèle de Compétition » de Bates &

Mac Whinney (cf. par exemple Bates & Mac Whinney 1982 ; Mac Whinney & Bates 1989 et

1994), s’appuie sur le fait que ces connecteurs sont fonctionnellement polyvalents et peuvent

induire différents types de relations rhétoriques entre segments de discours (cf. Halliday &

Hasan 1976 : chap. 5). Dans les termes du Modèle de Compétition, ces connecteurs

bénéficient ainsi d’une « validité » (« Cue Validity ») peu élevée, liée à leur faible « fiabilité »

(« Cue reliability »), définie comme la fréquence avec laquelle une forme donnée est associée

à une fonction donnée. On peut dès lors faire l’hypothèse que l’emploi d’une forme de ce type

ne garantit pas le niveau de continuité fourni par l’anaphore pronominale inaccentuée : dans

ce cas, la présence de ce type de connecteur ne suffit pas à inhiber les contraintes discursives

d’abaissement pesant sur l’onset, ce qui explique l’absence d’élévation.

Notons tout de même pour conclure que cet ensemble d’hypothèses nécessite une

validation empirique non seulement en production, mais aussi en perception, afin de vérifier

la rétro interprétation de l’élévation de l’onset. C’est plutôt vers ce second type de démarche

que le dernier chapitre de ce travail de thèse va nous orienter, laissant par là même le premier

type s’ajouter à la grande liste des travaux que nous souhaiterions mener à bien dans le futur.


La première partie de ce chapitre, notamment fondée sur l’explicitation de notre

conception du discours en tant qu’heuristique complexe, a permis de mettre deux points en

évidence. Nous avons ainsi tout d’abord pu formuler deux hypothèses de travail

fondamentales concernant l’interaction du marquage de la continuité discursive par anaphore

pronominale inaccentuée sur les valeurs d’onset :






393

D’autre part, nous nous sommes aussi interrogés sur la notion de mesure appliquée à

nos variables d’analyse, ce qui nous a conduit à la constitution d’un cahier des charges

expérimental destiné à garantir une représentativité minimale de nos données.

Ce cahier des charges a ainsi constitué le moteur de la présentation de notre protocole

expérimental dans le cadre de la seconde section de ce chapitre. Nous avons ainsi argumenté

en faveur d’une méthode automatisée d’extraction des données, tout en insistant sur les

avantages nombreux, voire même l’exclusivité d’une méthode manuelle, notamment

concernant l’annotation des phénomènes fonctionnels. Concernant la mesure de l’anaphore

pronominale, nous avons ainsi choisi de nous intéresser plus particulièrement aux pronoms

personnels et aux adjectifs possessifs inaccentués de troisième personne, à l’exclusion de

« it ». La mesure des valeurs fréquentielles d’onset a quant à elle été médiatisée par

l’application de l’algorithme MOMEL, qui permet de neutraliser les variations

microprosodiques liées au contexte segmental.

Cette seconde section nous a aussi permis d’appliquer à nos données brutes un

échantillonnage et une normalisation destinés à garantir une plus grande représentativité des

mesures.

La section finale de ce chapitre nous a permis de présenter les résultats obtenus

concernant deux phénomènes particuliers. Nous avons ainsi tout d’abord validé notre

protocole expérimental par la production de résultats conformes à ceux répertoriés dans la

littérature sur la question. Plus précisément, nous avons proposé une application de notre

approche localiste du marquage de la structure prosodico-discursive fondée sur l’annotation

fournie par les annotateurs du SEC ; les résultats confirment la pertinence de ce type

d’approche par la validation des prédictions de tendance à l’élévation ou à l’abaissement des

valeurs d’onset en fonction des frontières de l’unité précédente et de l’unité en cours.

Toujours en accord avec notre démarche, les résultats médians observés en cas de conflit de

tendances prédites (configuration MAJ/MAJ) ne sont pas significativement distincts de ceux

obtenus dans la configuration min/min, qui n’implique qu’un marquage optionnel de la

continuité discursive par abaissement.

Le second phénomène analysé ici concerne spécifiquement l’interaction onset-anaphore

envisagée ici de manière orientée, de l’anaphore pronominale inaccentuée vers l’onset. Les

résultats obtenus ne valident que partiellement notre hypothèse H1 (interaction) et invalident

totalement notre hypothèse H2 (effet d’abaissement).


394

Nous avons ainsi pu montrer que si l’anaphore pronominale inaccentuée influence

effectivement les valeurs fréquentielles d’onset, cette influence est relativement peu marquée

et varie en fonction des locuteurs. On aurait ainsi, comme c’est d’ailleurs le cas pour nombre

d’autres phénomènes152, différentes stratégies de marquage selon les locuteurs et les

contextes (sur les six enregistrements pour lesquels cet effet est significatif, trois proviennent

du style de parole A d’Aix-MARSEC (« commentaire journalistique »), sans que cela nous

permettent de tirer la moindre conclusion concernant une quelconque influence stylistique).

Le résultat le plus surprenant concerne en fait le sens de l’influence : nous avons en

effet observé que la tendance induite par l’anaphore sur l’onset est en fait, en totale opposition

avec notre hypothèse H2, une tendance à l’élévation. Nous avons quantifiée cette élévation

pour les six locuteurs pour lesquels l’effet est significatif et avons pu mesurer une élévation

moyenne de l’ordre de 2 demi-tons (1,80 demi-tons).

Nous proposons d’analyser ce phénomène comme une « garantie de continuité » fournie

par l’anaphore pronominale inaccentuée permettant l’allègement des contraintes discursives

d’abaissement de l’onset dans le cadre du amrquage de la continuité discursive ; le poids

relatif des contraintes psycho-physiologiques d’élévation (liées à l’anticipation de la durée de

l’unité et de la déclinaison) se trouve alors augmenté, ce qui explique selon nous la tendance

observée.

On aurait donc dans certains cas, contrairement à notre hypothèse H2 de marquage par

redondance, une forme de hiérarchisation du poids des marques expliquant la possibilité d’une

élévation de la valeur d’onset sans induction de discontinuité. Une telle approche est

compatible avec des conceptions telles que celles proposées par Blache & Di Cristo 2002 ou

Bates & Mac Whinney (cf. Bates & Mac Whinney 1982 ; Mac Whinney & Bates 1989 et

1994) dans le cadre du Modèle de Compétition.

Il est fondamental de rester très prudent concernant l’explication hypothétique proposée

ici : la diversité des facteurs à l’œuvre dans la parole authentique (même pour le type non

conversationnel représenté dans Aix-MARSEC) doit nous conduire à la plus grande prudence.

Il nous semble néanmoins intéressant de pousser plus avant cette démarche et de formuler des

hypothèses précises en relation avec les prédictions que l’on peut fournir dans ce cadre.

152 Nous avons par exemple montré dans Auran & Di Cristo 2003 et Di Cristo et al. à paraître que deux

locutrices en interaction « spontanée » (débat radiophonique perceptivement naturel) utilisaient des stratégies

différentes pour le marquage de la durée syllabique.


395

En conséquence, le chapitre suivant de cette partie expérimentale sera consacré à la

formulation d’hypothèses plus explicites inspirées de cette conception. Etant données les

contraintes logistiques qui ont présidé à ce travail, nous aborderons cependant le problème de

l’interaction anaphore-onset du point de vue de la perception en français. Comme nous allons

le voir, le protocole expérimental mis en place permet cette fois-ci de tester la

bidirectionnalité de l’interaction entre les paramètres retenus et serait aisément transférable à

l’anglais.

Chapitre 9

Aspects perceptifs des interactions anaphore-onset

398


1 Formulation des hypothèses ....................................................................... 400 1.1 Hypothèses générales .................................................................................................... 400

1.1.1 Asymétrie des rôles de production et de perception ............................................ 400 1.1.2 Onset et anaphore chez l’interlocuteur : premières hypothèses........................... 402

1.2 Revue des méthodes et de quelques résultats antérieurs........................................... 403 1.2.1 Anaphore et méthodes expérimentales de la psycholinguistique......................... 403

Remarques préliminaires........................................................................................... 403 Méthodes expérimentales courantes ......................................................................... 404

1.2.2 Quelques résultats ................................................................................................ 406 1.3 Hypothèses de travail.................................................................................................... 407 2 Protocole expérimental : éléments communs ........................................... 409 2.1 Phase préparatoire........................................................................................................ 409

2.1.1 Enregistrement et numérisation ........................................................................... 409 2.1.2 Manipulations....................................................................................................... 410 2.1.3 Préparation des scripts d’expérimentation ........................................................... 410

2.2 Exécution des expérimentations .................................................................................. 411 2.2.1 Environnement ..................................................................................................... 411 2.2.2 PERCEVAL......................................................................................................... 411

2.3 Récupération et traitement des résultats .................................................................... 411 3 Expérimentations......................................................................................... 412 3.1 Première phase d’expérimentation.............................................................................. 412

3.1.1 Hypothèses traitées .............................................................................................. 412 3.1.2 Protocole expérimental ........................................................................................ 413

Facteurs expérimentaux ............................................................................................ 413 Stimuli....................................................................................................................... 413 Résultats .................................................................................................................... 414 Synthèse .................................................................................................................... 419

3.2 Seconde phase d’expérimentation ............................................................................... 420 3.2.1 Hypothèse expérimentale..................................................................................... 420 3.2.2 Protocole expérimental ........................................................................................ 420

Facteurs expérimentaux ............................................................................................ 421 Stimuli....................................................................................................................... 421 Résultats .................................................................................................................... 422 Synthèse .................................................................................................................... 428

3.3 Discussion....................................................................................................................... 429 4 Synthèse générale ........................................................................................ 433

Chapitre 9 – Aspects perceptifs des interactions anaphore-onset

399

Nous avons consacré les deux premiers chapitres de cette partie expérimentale de notre

thèse à la présentation du projet Aix-MARSEC et à son exploitation dans le cadre de l’étude

des interactions unissant anaphore pronominale inaccentuée et valeur fréquentielle des onsets

d’unité intonatives. Notre démarche a donc abordé la question de l’interaction de ces deux

phénomènes sous l’angle de la production à partir d’un corpus de parole authentique en

anglais.

Plus précisément, le chapitre précédent a permis une confirmation partielle des

hypothèses que nous avions proposées concernant l’impact de l’anaphore pronominale

inaccentuée sur l’onset : le marquage de la continuité discursive par anaphore pronominale

semble influencer la réalisation des onsets, mais cette influence est non seulement

relativement faible, mais aussi très dépendante des locuteurs ; le sens de cette influence,

finalement, s’est avéré contraire à nos attentes, avec une élévation de la valeur fréquentielle

des onsets, dans le cadre d’un marquage de la continuité par complémentarité et non par

redondance.

Cette interprétation de la tendance observée, si elle semble assez intéressante du point

de vue de la production (notamment par le phénomène d’anticipation de la durée de l’unité

intonative déjà observé par Swerts et al. 1996) pose de nouveaux problèmes concernant les

aspects plus perceptifs, notamment concernant l’interprétation par l’interlocuteur des signaux

à première vue contradictoires que sont une élévation de l’onset et un marquage de la

continuité par anaphore pronominale.

En conséquence, nous consacrerons ce chapitre à l’étude de certains de ces aspects

perceptifs et interprétatifs. Nous tenterons de plus de mettre en évidence certains des aspects

liés à l’autre sens de l’interaction dont nous faisons l’hypothèse, c'est-à-dire à l’influence

qu’une modification d’onset peut avoir sur le décours temporel de l’interprétation de

l’anaphore pronominale.

Nous dévouerons la première section de ce chapitre à l’explicitation de nos hypothèses

concernant le traitement de ce phénomène par l’interlocuteur. Nous effectuerons ainsi tout

d’abord une première formulation générale sous la forme d’un ensemble hiérarchisé et

ordonné d’hypothèses, dont chacune devra être vérifiée par l’expérimentation. Dans la

seconde rubrique de cette section, nous proposerons une revue préliminaire des principales

méthodes et des principaux résultats relatifs à l’interprétation de l’anaphore pronominale dans

un cadre psycholinguistique ; cette démarche plus théorique nous permettra finalement


400

d’effectuer la traduction des hypothèses générales fournies dans la première rubrique en

hypothèses de plus bas niveau, directement falsifiables par expérimentation.

La seconde section de ce chapitre précisera brièvement les méthodes et les outils

communs aux protocoles expérimentaux de nos expérimentations.

La dernière section de ce chapitre sera dédiée à la présentation des résultats

expérimentaux obtenus. Nous donnerons ainsi un compte-rendu explicite des deux

expérimentations que nous avons menées avant de proposer une discussion de nos résultats.

1 Formulation des hypothèses

Nous allons consacrer cette première section à la formulation des hypothèses destinées

à être testées dans le cadre de notre approche expérimentale. Nous allons suivre une démarche

en trois phases principales : dans une premier temps, nous proposerons ainsi une première

formulation des hypothèses que nous suggèrent les résultats obtenus lors de l’analyse du

corpus Aix-MARSEC, décrite dans le chapitre précédent ; nous proposerons ensuite un rapide

tour d’horizon des principales méthodes et de quelques résultats associés à l’analyse

psycholinguistique de l’anaphore pronominale ; cette revue nous permettra finalement dans un

troisième temps de traduire les hypothèses générales formulées en début de section en

hypothèses expérimentales destinées à être testées.

1.1 Hypothèses générales

1.1.1 Asymétrie des rôles de production et de perception

Comme nous l’avons suggéré en introduction, l’analyse des relations anaphore-onset au

sein du corpus Aix-MARSEC a soulevé un nombre important de questions nouvelles. Parmi

celles-ci, nous pourrons distinguer deux catégories selon que l’approche porte plutôt sur les

aspects de production ou sur les aspects de perception.

Concernant la production, on pourra notamment vouloir s’interroger sur les contraintes

précises (sémantiques, syntaxiques, discursives, rhétoriques, etc.) qui gouvernent la tendance

observée chez certains locuteurs.

Malgré l’importance fondamentale de ces questionnements, c’est cependant les aspects

perceptifs qui vont nous intéresser ici plus particulièrement. En effet, l’hypothèse que nous

proposons concernant l’élévation de la valeur fréquentielle de l’onset en cas de marquage de


401

la continuité discursive par anaphore pronominale inaccentuée ne semble constituer qu’une

explication partielle du phénomène, centrée sur le locuteur.

Or, si le discours est indéniablement une entreprise interactive, il semble bien qu’une

asymétrie importante règne en son sein entre locuteur (ou « énonciateur » selon les approches)

et interlocuteur (« coénonciateur »). A ce propos, Bard et al. 2000 remarque notamment une

diminution de l’intelligibilité des expressions désignant un référent déjà mentionné ; pris

comme tel, ce résultat semble uniquement confirmer la tendance communément observée à la

réduction (segmentale, prosodique et morpho-lexicale) de l’information « donnée » en général

et des expressions anaphorisantes en particulier ; l’élément particulièrement intéressant de ce

travail réside dans le fait que l’hypo-articulation qui se trouve à l’origine de la faible

intelligibilité est maintenue y compris dans des contextes où l’interlocuteur n’a pas pu

entendre la première mention. De manière similaire, lorsque la première mention du référent a

été effectuée par l’interlocuteur, le locuteur produit également une expression faiblement

intelligible. Les auteurs interprètent ces résultats par un phénomène d’amorçage sémantique

rapide (« semantic priming ») à partir des connaissances du locuteur, opposé à une démarche

inférentielle plus lente concernant l’hypothétique état attentionnel de l’interlocuteur.

Ainsi, que ce soit pour des raisons de rapidité de traitement ou d’économie de

ressources cognitives (déjà mobilisées par la production), tout se passe donc comme si le

locuteur prenait principalement en considération son propre modèle mental (que les entités y

aient été introduites par lui ou un autre) comme référentiel à sa production.

Transposée à notre thématique, cette analyse nous pousse à voir dans l’élévation de

l’onset en relation avec l’anaphore pronominale inaccentuée une manifestation de cette forme

de principe d’égoïsme du locuteur : de manière schématique, le locuteur fournissant par le

biais de l’anaphore une marque robuste et univoque de continuité, la production d’une marque

moins robuste potentiellement associée à la discontinuité est tolérée si le locuteur en retire un

bénéfice en terme de minimisation des efforts ou de maximisation des effets, comme dans le

cadre de la déclinaison, qui, démarrant à partir d’une position plus élevée, peut permettre de

ne pas avoir à « forcer sa voix » dans le registre infra-bas en fin d’unité.

En conséquence, par opposition à une vision binaire de la « stratégie de l’interprète »

(stratégie critiquée notamment par Reboul & Moeschler 1998), nous proposons une

conception plus graduelle selon laquelle le locuteur oscillerait entre un statut coopératif (cas


402

généralement prototypique selon la plupart des approches) et un statut plus égoïste (que l’on

pourrait rapprocher du « principe de nonchalance » de Berrendonner).

Dans ce second cas de figure, le coût cognitif est augmenté pour l’interlocuteur, qui doit

effectuer un travail inférentiel plus important. La situation est donc symétrique en ce qui

concerne la répartition des coûts cognitifs, mais hiérarchisée si l’on prend en compte le fait

que c’est le locuteur (bien entendu en fonction de contraintes situationnelles diverses) qui fixe

en quelque sorte les proportions.

1.1.2 Onset et anaphore chez l’interlocuteur : premières hypothèses

Appliquons le cadre que nous venons de suggérer, à la thématique des relations onset-

anaphore. Il semble que l’on puisse faire l’hypothèse fondamentale que, du point de vue du

locuteur, le relâchement (si ce n’est la suppression temporaire) de la contrainte d’abaissement

de l’onset constitue une diminution de l’effort de production ; de manière corrélée, on

postulera alors que le coût de traitement est augmenté pour l’interlocuteur, qui va devoir

mobiliser plus de ressources afin de régler l’apparent conflit qui oppose les signaux produits

(onset élevé = discontinuité / anaphore = continuité).

Cette hypothèse fondamentale suppose en fait un ensemble d’hypothèses chaînées par

une relation de dépendance. Suivons cette séquence à rebours en partant d’une reformulation

de notre hypothèse fondamentale (H-A) du point de vue exclusif de l’interlocuteur :

H-A : L’association d’un onset élevé à une anaphore pronominale inaccentuée

constitue un ensemble contradictoire d’indices que l’interlocuteur doit « arbitrer »

dans le cadre d’inférences supplémentaires sur le degré d’« égoïsme

communicatif » du locuteur. Nous parlerons dans ce cas d’ « hypothèse

d’arbitrage ».

L’arbitrage évoqué à l’instant implique nécessairement l’interprétation de l’onset élevé

comme une marque de discontinuité contradictoire avec la continuité marquée par l’anaphore

pronominale. Nous avons vu dans le chapitre 6 que cette condition constitue l’un des résultats

les plus récurrents de la littérature sur le sujet.

Finalement, pour que cette interprétation de l’onset élevé puisse avoir lieu, il est

indispensable que cette élévation soit perçue. La question se pose alors de savoir à partir de

quel seuil cette perception est effective. Dans le chapitre 6, nous avons observé que la valeur


403

moyenne d’élévation de l’onset pour les locuteurs qui recourraient à ce procédé était proche

de 1 ton (1,8 demi tons). Nous pourrons donc formuler l’hypothèse B ci-dessous153 :

H-B : Le seuil de perception de l’élévation d’un onset en relation avec une

anaphore pronominale inaccentuée est inférieur ou égal à 1 ton. Nous parlerons

dans ce cas d’ « hypothèse de perception ».

En résumé, dire que l’interlocuteur doit compenser la stratégie d’égoïsme du locuteur

par une utilisation plus intense de sa propre stratégie inférentielle revient à considérer que

l’élévation d’onset consécutive à l’utilisation d’une anaphore pronominale est perçue,

interprétée comme une marque potentielle de discontinuité puis écartée par traitement

inférentiel.

Ces hypothèses, cependant, et notamment notre hypothèse d’arbitrage, ne sont pas

encore suffisamment explicites pour être directement (in)validables par expérimentation.

Nous allons donc à présent proposer une revue des méthodes et de certains résultats relatifs au

traitement perceptif et interprétatif de l’anaphore, étape préliminaire indispensable à la

traduction de cette hypothèse générale en hypothèse expérimentale.

1.2 Revue des méthodes et de quelques résultats antérieurs

Nous allons à présent donner un aperçu sommaire des méthodes généralement utilisées

dans le domaine psycholinguistique en relation avec l’anaphore pronominale, ainsi que

quelques résultats importants pour notre thématique.

1.2.1 Anaphore et méthodes expérimentales de la psycholinguistique

Remarques préliminaires

Il nous semble important de noter deux faits principaux concernant l’investigation

psycholinguistique de l’anaphore. D’une part, nous retiendrons qu’une écrasante majorité de

travaux psycholinguistiques s’intéressant à l’anaphore abordent cette thématique dans le cadre

classique de la coréférence avec un antécédent linguistique explicite ; les auteurs présentent

alors généralement leurs travaux comme un point de vue complémentaire à une analyse

linguistique formelle :

153 Nous noterons que cette hypothèse revient à dire que l’interlocuteur disposerait d’une valeur d’onset

référence à partir de laquelle « calculer » l’élévation. Nous reviendrons sur ce point problématique dans la

dernière partie de ce chapitre.


404

« The psycholinguistic study of anaphora is different from the formal analysis of anaphora, which

we take to be, primarily, the characterization of the constraints on coindexation and coreference

within a syntactic domain. The psycholinguist’s approach is to explore how the sentence

comprehension mechanism computes coreference during sentence processing. » (Nicol & Swinney

2003 : p. 72)

Comme nous l’avons mentionné précédemment, cette démarche fondée sur la

coréférence constitue une catégorisation restrictive de l’anaphore qui laisse de côté certains

cas que nous avons rangés dans la classe des anaphores discursives et qui dérogent à ce

schéma classique (notamment l’anaphore dite « situationnelle », mais aussi l’anaphore

évolutive et, dans une moindre mesure, l’anaphore associative154).

D’autre part, la perspective généralement adoptée dans ces études est souvent qualifiée

de « phrastique » par les auteurs eux-mêmes. Une telle qualification nous semble restrictive

dans la mesure où, dans de nombreuses études, les déclencheurs d’antécédent des pronoms

anaphoriques analysés se situent dans des phrases distinctes de celle hébergeant l’anaphore.

On notera de plus qu’un nombre croissant d’études s’intéresse à l’influence discursive sur

l’interprétation anaphorique (que ce soit dans le cadre de « Modèles Situationnels », cf. Rinck

1995, ou en relation avec la structure attentionnelle, cf. par exemple Fossard 1999 et les

travaux réalisés dans le cadre de la Théorie du Centrage présentés ici dans les chapitres 4 et

6). Nous ne souhaitons pas pour autant qualifier cette approche de « discursive » car la

perspective n’est pas celle d’une heuristique complexe située (cf. la définition que nous

proposons dans le chapitre 3). Il semblerait donc que la démarche psycholinguistique se situe

entre ces deux types d’approche, dans une perspective que nous assimilerons à l’approche

textuelle dont nous avons évoqué le statut charnière plus tôt dans cette thèse.

Méthodes expérimentales courantes

Concernant la question centrale des méthodes psycholinguistiques, nous suivrons la

présentation donnée dans Nicol & Swinney 2003 et isolerons trois types principaux. La

première méthode communément employée est celle de mesure de temps de lecture par suivi

oculaire (« eye tracking »). Bien que fondamentale dans l’investigation de la compréhension

des énoncés, cette technique pose la question de la relation temporelle entre mouvement

oculaire et traitement cognitif et est de plus réservée à un mode de présentation visuel. C’est

154 Une exception notoire est Garrod & Terras 2000, mais nous reviendrons sur ce point lors de notre

présentation de la méthode d’amorçage sémantique.


405

cette seconde raison qui nous pousse à ne pas approfondir cette méthode afin de nous

concentrer plus particulièrement sur les deux autres.

La seconde technique importante est celle de la « vérification d’occurrence par sondage

» (« probe verification »). Cette technique consiste à demander aux sujets si un mot (présenté

visuellement) est déjà apparu dans un énoncé ou un texte présenté de manière visuelle ou

auditive. La notion de sondage est liée au fait que le mot testé (ou « mot cible ») est

susceptible d’apparaître à plusieurs positions dans l’énoncé en cours, chaque mesure

correspondant alors à un « coup de sonde » mesurant l’activation du référent désigné par

l’expression dans le modèle mental du sujet en relation avec son temps de réponse. De

manière générale, ce temps de réponse diminue avec la distance et l’introduction de nouveaux

référents ; l’anaphore, qui coréfère avec la première mention, est alors supposée suspendre

cette décroissance de l’activation du référent ; dans ce cas, une réponse plus rapide sera

produite pour la seconde mention de l’antécédent que pour la seconde mention d’un autre

élément du cotexte qui ne serait pas son antécédent.

La troisième méthode expérimentale, l’ « amorçage sémantique » (ou « semantic

priming ») est dérivée de la précédente. Dans ce type d’expérimentation, le sujet doit porter

un jugement lexical (mot vs. non mot) à propos d’une suite de lettres apparaissant sur un écran

pendant qu’il lit ou écoute un énoncé ou une suite d’énoncés formant un texte. Lorsque le

texte est présenté de manière sonore, méthode qui va nous intéresser ici plus particulièrement,

on parlera d’« amorçage sémantique trans-modal » (« cross-modal semantic priming »). Le

constat que nous avons formulé plus haut, relatif au fait que l’anaphore associative était

généralement écartée des analyses psycholinguistique de l’anaphore, n’est en fait que

partiellement justifié ; ainsi, s’il est vrai que ce type d’anaphore n’est que rarement l’objet

principal de l’analyse, force est de constater que l’anaphore associative est fréquemment

utilisée en tant qu’outil d’analyse dans le cadre de l’amorçage sémantique. En effet,

contrairement à la méthode de vérification d’occurrence par sondage, l’amorçage sémantique

consiste à effectuer des « coups de sonde » à l’aide de mots cibles associés sémantiquement

(au sens large) à une expression du cotexte (comme par exemple « grenouille » pour

« crapaud » ou « punch » pour « boxer »). On observe alors un effet similaire à celui

mentionné pour la vérification d’occurrence : le temps de réponse à un stimulus associé

sémantiquement à une expression précédant le « coup de sonde » est inférieur à celui observé

pour un mot sans lien sémantique.


406

1.2.2 Quelques résultats

Nous allons à présent dans cette rubrique donner quelques éléments concernant certains

résultats obtenus dans le cadre d’études psycholinguistiques de l’anaphore et qui pourraient

s’avérer intéressants dans le cadre de nos analyses ; étant données nos centres d’intérêt

présent (anaphore et prosodie), nous nous limiterons ici à quelques résultats majeurs obtenus

dans le cadre de l’amorçage sémantique trans-modal.

Comme nous l’avons suggéré plus haut, le résultat fondamental de l’application du

paradigme de l’amorçage sémantique trans-modal à l’étude de l’anaphore pronominale est

qu’une facilitation de la décision lexicale est observée après le pronom anaphorique pour une

suite de lettres correspondant à un mot associé à l’antécédent. Observons l’exemple 59 ci-

dessous, emprunté à Shillcock 1982 :

Ex (59) The teacher (1) did not board the train, for the (2) simple reason that it/he (3)

was not going to the South Coast of England.

Dans l’expérience de Shillcock 1982, un mot cible associé sémantiquement au sujet

« teacher » (comme « school »), ou un autre mot cible non associé (tel que « street ») ont été

présentés visuellement à chacun des trois points de sondage codés dans l’exemple par les

chiffres 1,2 et 3. Pour le mot cible associé, un effet d’amorçage est enregistré aux points 1

(juste après « teacher ») et 3 après « he », mais pas au point 2 ni au point 3 après « it », ce qui

conforte la thèse de l’activation du référent désigné par « teacher » par l’anaphorique « he ».

Hormis la thématique centrale des contraintes sémantiques, syntaxiques et discursives

qui pèsent sur l’attribution référentielle des anaphores (la prise en compte de contraintes

prosodique est un phénomène relativement récent)155, une autre question semble cruciale dans

le cadre des études psycholinguistiques de l’anaphore. Cette question concerne le décours

temporel de l’activation liée à l’anaphore. Plusieurs travaux utilisant le paradigme de la

vérification d’occurrence ont mis en évidence un effet facilitateur un certain temps après

l’anaphore pronominale ; c’est par exemple le cas de MacDonnald & MacWhinney 1990 qui

identifie un tel effet 500 ms. après le pronom anaphorique (les deux autres « coups de sonde »

de l’expérience, immédiatement après le pronom et 250 ms plus tard, ne présentaient pas

d’effet facilitateur). A contrario, les expérimentations qui s’appuient sur la méthode

155 Nous avons abordé partiellement ces points dans les chapitres 4 et 6 et renvoyons le lecteur à Nicol &

Swinney 2003 (notamment pp. 98-100) pour une synthèse sur la question du point de vue psycholinguistique.


407

d’amorçage sémantique argumentent en faveur d’un effet immédiatement après l’anaphore

pronominale (cf. par exemple Nicol 1988).

Nicol & Swinney 2003 (pp. 81-83) suggère que cette différence peut s’expliquer par

deux raisons principales. La première raison est à trouver dans le fait que la vérification

d’occurrence pourrait induire une réitération interne du cotexte gauche (« replaying ») liée à

la recherche du mot cible. La seconde raison est liée au fait que les études reposant sur la

vérification d’occurrence utilisent généralement des pronoms anaphoriques en position sujet,

alors que les celles qui reposent sur l’amorçage sémantique trans-modal utilisent

généralement des pronoms anaphoriques en position objet. L’hypothèse proposée par Cornish

1999 concernant le rôle du segment indexical dans l’attribution référentielle (cf. chapitre 4)

permet alors de comprendre la différence de début d’activation observée en relation avec le

fait que le pronom en position sujet, de par sa position initiale, ne peut pas bénéficier des

informations fournies par le segment indexical, ce qui induit un délai dans l’identification de

son référent ; un pronom anaphorique en position objet, en revanche, apparaissant en position

plus tardive, peut bénéficier de ces informations, et donc trouver son référent de manière plus

rapide.

Pour terminer, nous noterons finalement avec Nicol & Swinney 2003 (p. 77) que si

l’activation du référent semble immédiate dans certaines conditions, elle n’en est pas moins

très temporaire, avec une durée typique comprise entre 250 et 700 ms. Il est en conséquence

indispensable que la séquence de lettres cible soit présentée dans cet intervalle pour qu’un

effet puisse être observé dans le cadre de l’amorçage sémantique trans-modal.

1.3 Hypothèses de travail

Nous venons de donner les grandes lignes d’une présentation de plusieurs méthodes et

de quelques résultats obtenus dans le cadre d’analyses psycholinguistiques de l’anaphore ;

cette évocation nous permet à présent de traduite notre hypothèse d’arbitrage, en hypothèse

(in)validable de manière expérimentale.

D’une part, nous avons proposé d’expliquer le délai d’activation observée entre la

méthode de vérification d’occurrence et la méthode d’amorçage sémantique par la

mobilisation des ressources cognitives dans le cadre du « replaying » du cotexte.

D’autre part, notre hypothèse d’arbitrage postule que l’association d’un onset élevé à

une anaphore pronominale inaccentuée constitue un ensemble contradictoire d’indices que


408

l’interlocuteur doit « arbitrer » dans le cadre d’inférences supplémentaires sur le degré

d’« égoïsme communicatif » du locuteur.

En conséquence, nous proposons d’obtenir une mesure de ce travail inférentiel

supplémentaire lié à l’arbitrage des indices conflictuels par une méthode indirecte fondée sur

la méthodologie de l’amorçage sémantique trans-modal. Plus concrètement, nous proposons

deux effets :

• D’une part, par analogie avec le phénomène de délai d’activation, nous pensons qu’un

début d’activation plus tardif pourrait être observé en relation avec l’élévation de

l’onset ; ceci signifie que la présentation précoce d’un mot associé sémantiquement au

référent du pronom pourrait ne pas donner lieu à une diminution du temps de réponse.

• D’autre part, il n’est pas illogique de postuler un affaiblissement de l’effet d’amorçage

qui se traduirait par un temps de réponse intermédiaire entre celui observé avec un mot

cible non associé sémantiquement et celui observé avec un mot cible sémantiquement

associé.

En conséquence, nous proposons de tester l’hypothèse d’arbitrage explicitée plus haut

par une mesure du temps de réponse de sujets soumis à une tâche de décision lexicale dans le

cadre de la méthodologie d’amorçage sémantique trans-modal. Plus particulièrement, nous

proposons une présentation précoce des stimuli cibles (250 ms. après l’anaphore

pronominale), plus à même de mettre en évidence l’un ou l’autre des effets proposés ci-

dessus156.

La traduction expérimentale de notre hypothèse d’arbitrage est donc la suivante :

H-A’ : l’association d’un onset élevé à une anaphore pronominale inaccentuée

génère chez le sujet auditeur un coût cognitif supplémentaire matérialisé par une

absence ou une atténuation de l’effet facilitateur observé dans l’amorçage

sémantique trans-modal avec une présentation des stimuli cibles 250 ms. après le

pronom anaphorique.

Le protocole expérimental complet que nous avons retenu, et vers la présentation duquel

nous nous tournons à présent, comporte donc pour résumer deux étapes destinées à tester

156 Si ces deux effets sont cumulés, nous n’observerons qu’une absence de facilitation avec un stimulus cible à

250 ms. ; cette observation, assimilée à tort, à l’effet de délai suffirait néanmoins à montrer un effet de la valeur

d’onset en terme de coût cognitif.


409

chacune de nos principales hypothèses. Nous commencerons tout d’abord par hypothèse de

perception H-B, dont les résultats pourront permettre d’aborder et de mettre en perspective le

test de notre hypothèse d’arbitrage H-A.

2 Protocole expérimental : éléments communs

Le détail des éléments de protocole communs à nos deux phases d’expérimentation va

s’organiser de manière chronologique en trois phases principales. Nous étudierons ainsi tout

d’abord les éléments relatifs à la préparation des expérimentations (enregistrement,

manipulation, préparation des scripts d’expérience, etc.), avant de mentionner la phase

d’exécution expérimentale (environnement, outil, etc.) et, finalement, la récupération et le

traitement des données (scripts de mise en forme, environnement d’analyse).

2.1 Phase préparatoire

2.1.1 Enregistrement et numérisation

Comme nous le détaillerons plus loin, les trois expérimentations que nous avons menées

ont impliqué des stimuli sonores qu’il nous a fallu enregistrer et numériser. Nous avons nous-

même produit les stimuli originaux et avons fait vérifier la qualité et le relatif naturel par un

phonéticien et un sujet non spécialiste.

L’enregistrement s’est déroulé dans la chambre anéchoïde du Laboratoire Parole et

Langage (CNRS UMR 6057) dans les locaux du département de Phonétique-FLE de

l’Université d’Aix-Marseille I. Le microphone utilisé est un microphone super cardioïde

Senheiser E 845 fixé sur trépied.

Afin de limiter toute perturbation de l’intensité globale du signal, nous avons conservé

une distance constante avec le microphone ; un support papier fixe a de plus été utilisé comme

support de lecture afin d’éviter tout bruit parasite lié à la manipulation d’une feuille.

Tant pour des raisons de facilité et de rapidité de mise en œuvre que pour garantir une

qualité optimale des enregistrements, nous avons effectué une numérisation des données

audio en temps réel. Dans ce cadre, nous avons effectué la numérisation par l’intermédiaire de

l’unité indépendante Tascam US-122 reliée à l’entrée USB d’un ordinateur portable Dell

Latitude D800 (512 Mo de mémoire vive et disque dur 5400 tr/min ; Microsoft Windows XP

Pro SP1) dont tous les programmes résidents non indispensables ont été désactivés. La


410

fréquence d’échantillonnage retenue est 44100 Hz, avec un encodage mono sur 16 bits

(format PCM Microsoft WAV).

Un total de 32 fichiers son originaux a ainsi été généré, correspondant aux 16

enregistrements sources de la phase d’expérimentation 1, et aux 16 enregistrements sources

requis pour la phase d’expérimentation 2.

2.1.2 Manipulations

Les manipulations que nous avons effectuées à partir des enregistrements sources ont

été effectuées au sein de l’éditeur ProZEd présenté au chapitre 5.

Plus précisément, la modification des valeurs fréquentielles des onsets a été effectuée

par resynthèse à l’aide de l’algorithme PSOLA à partir de la courbe de F0 modélisée par

l’algorithme MOMEL.

Les manipulations ont été semi-automatisées dans le cadre de l’utilisation de scripts en

langage Praat et ont impliqué les étapes spécifiques suivantes :

• Chargement du fichier son source

• Détection automatique des frontières d’énoncés + validation manuelle

• Sélection manuelle des zones à manipuler

• Génération automatique des nouvelles valeurs de FO modélisée par MOMEL

• Resynthèse PSOLA

• Sauvegarde des fichiers son modifiés

Par cette méthode, 528 fichiers sonores ont été générés pour les expérimentations 1 et 2

et 272 pour l’expérimentation 3.

2.1.3 Préparation des scripts d’expérimentation

Comme nous allons le voir plus en détail, les expériences ont été réalisées à l’aide de la

station d’évaluation de la perception PERCEVAL. Le déroulement de la procédure de test,

totalement automatisé, nécessite cependant que l’on définisse les stimuli à utiliser, l’ordre de

présentation, le point de sondage, le délai entre deux stimuli, etc. Cette définition se fait par

l’intermédiaire d’un script qui peut être généré soit à l’aide d’un module dédié,

PercGenScript, soit manuellement dans un éditeur de texte. Etant donnée la simplicité du


411

langage de script et nos habitudes de programmation, nous avons sélectionné la seconde

option et avons donc rédigé un script pour chaque expérimentation.

2.2 Exécution des expérimentations

2.2.1 Environnement

Tout comme pour l’enregistrement des stimuli source, la procédure d’expérimentation

s’est déroulée au sein de la chambre anéchoïde du Laboratoire Parole et Langage. Les sujets

étaient équipés d’un casque obturant Beyer Dynamic DT 100 branché sur la sortie audio

analogique d’un ordinateur Dell Latitude D800 dont tous les programmes résidents non

indispensables ont été désactivés.

2.2.2 PERCEVAL

Le déroulement de la procédure expérimentale s’est effectué dans le cadre de

l’environnement PERCEVAL157 (version monoposte 3.0.2 2004), station d’évaluation de la

perception développée au sein du Laboratoire Parole et Langage par Carine André et Alain

Ghio en collaboration avec Christian Cavé et Bernard Teston (cf. André et al. 2003 et Ghio et

al. 2003).

Le boîtier utilisé pour les réponses, conçu et réalisé par les concepteurs de la station, a

été relié à l’ordinateur hébergeant l’environnement (Dell Latitude D800, Microsoft Windows

XP Pro SP1) par interface USB.

Nous retiendrons particulièrement la précision de l’ordre de la milliseconde offerte par

PERCEVAL ainsi que la possibilité de présentation multimodale (texte, images, audio)

simultanée, indispensable pour notre troisième expérimentation.

2.3 Récupération et traitement des résultats

Les fichiers ASCII générés par PERCEVAL ont été reformatés et concaténés à l’aide de

scripts spécifiques que nous avons développés en langage Perl.

La récupération et le traitement statistique des données ont ensuite été effectués à l’aide

de l’environnement statistique R158.

157 Pour toute information complémentaire : http://www.lpl.univ-aix.fr/~lpldev/perceval/ 158 R PROJECT FOR STATISTICAL COMPUTING : http://www.r-project.org


412

3 Expérimentations

Nous allons à présent détailler dans les deux rubriques suivantes les expérimentations

que nous avons menées dans le but de tester nos hypothèses. Au sein de chaque rubrique,

nous réserverons une partie à la présentation du protocole utilisé avant de fournir les résultats

les plus importants.

3.1 Première phase d’expérimentation

3.1.1 Hypothèses traitées

La première phase d’expérimentation que nous avons menée est destinée à tester

l’hypothèse de perception H-B rappelée ci-dessous :

H-B : Le seuil de perception de l’élévation d’un onset en relation avec une

anaphore pronominale inaccentuée est inférieur ou égal à 1 ton.

Comme nous allons le détailler ci-dessous, bien que la tâche proposée aux sujets soit

linguistique (et pas métalinguistique), elle recourt à des énoncés porteurs de sens et suscite

donc un jugement conscient faisant nécessairement suite à l’interprétation du message

verbal entendu ; on ne se trouve pas ici dans le cadre asémantique d’une expérimentation de

discrimination de sons purs ou de voyelles. Ceci nous pousse à relativiser notre prétention de

tester la simple perception de l’élévation de l’onset : en l’absence d’une méthode d’imagerie

telle que les potentiels évoqués, nous testerons en réalité dans cette expérimentation un

jugement de différence faisant suite à une interprétation.

En conséquence, nous proposons de formuler une hypothèse complémentaire relative à

la différence d’effet sur l’élévation de l’onset selon que l’unité est marquée pour la continuité

par anaphore pronominale ou par connecteur.

Plus précisément, le connecteur « et » (polyvalent) présente un fiabilité inférieure à celle

de l’anaphore ; nous faisons donc l’hypothèse que ce connecteur sera moins « résistant » à

l’élévation d’onset, celle-ci étant alors perçue à un seuil inférieur. Nous retiendrons la

formulation réciproque suivante :

Hypothèse complémentaire : La perception de l’élévation de l’onset requiert une

amplitude plus importante quand l’unité marquée contient un pronom anaphorique

inaccentué que quand elle contient un connecteur.


413

3.1.2 Protocole expérimental

Afin de tester la perception de la différence d’onset, nous avons choisi de procéder à un

test de discrimination catégorielle classique dans lequel la tâche des 12 sujets volontaires non

experts consistait à répondre si les deux stimuli (textes de trois énoncés) entendus étaient

identiques ou différents. Plus précisément la consigne était la suivante :

« Vous allez entendre des enregistrements (composés de trois phrases) groupés par deux.

Vous devrez choisir s'ils sont identiques (bouton blanc à gauche) ou différents (bouton gris à

droite).

Les différences peuvent être de plusieurs sortes ; choisissez simplement "Différents" dès que vous

percevez une différence.

Veuillez attendre que la diffusion des deux enregistrements de la paire soit terminée avant de

répondre. »

Nos sujets ont été répartis en deux groupes, chacun effectuant deux sessions

d’approximativement une demi-heure, séparées par une pause de 10 minutes.

Facteurs expérimentaux

Nous avons contrôlé deux facteurs principaux dans le cadre de cette analyse :

l’élévation de l’onset et le type de marque morpho-lexicale de continuité (anaphore

pronominale vs. « et »).

Stimuli

Les stimuli utilisés sont ceux générés par resynthèse PSOLA à partir de 16

enregistrements originaux fournis en annexe. Ces stimuli correspondent à des enchaînements

de trois énoncés phonétiquement équilibrés en terme de durée syllabique, de complexité

sémantico-lexicale et de structure syntaxique (cf. exemples 60 et 61).

Ex (60) Texte 1a-01

Michèle fait de magnifiques bouquets

Elle a un grand sens de l’esthétique

Et ce talent est fort reconnu


414

Ex (61) Texte 1a-11

Laura arriva à la piscine

Et les plongeoirs étaient assez hauts

Elle avait peur de sauter dans l’eau

Les modifications de la valeur d’onset ont porté sur la première syllabe de l’unité,

position de l’onset pour le français (cf. par exemple Simon & Grobet 2001).

Pour chaque enregistrement source, nous avons généré 17 stimuli expérimentaux

correspondant à

• 1 resynthèse sans modification de valeur d’onset (destinée à être utilisée à la place de

l’enregistrement original pour éviter tout biais dû à la resynthèse PSOLA) et

• 16 resynthèses présentant une valeur croissante d’onset (1/4 de ton par niveau), dont 8

ont été utilisée par groupe.

Au total, chaque sujet a porté un jugement sur 272 paires de textes.

Résultats

Globalement, les résultats obtenus confirment notre hypothèse complémentaire, mais

pas notre hypothèse H-B.

Observons tout d’abord à l’aide de la figure 57 ci-après les résultats cumulés pour tous

les sujets sans distinction entre anaphore et connecteur.

On notera particulièrement que le seuil des 50% est franchi avec le sixième niveau de

modification, qui correspond à une élévation de l’onset d’un ton et demi, supérieure d’un

demi-ton au seuil proposé dans H-B.


415

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

identdiff

Effectifs des jugements d'identité en fonction du niveau de modification de l'onset

Niveau de modification

Effe

ctifs

050

100

150

200

Figure 57 : Jugements de différence en fonction du niveau de modification

(tous sujets confondus).

De manière plus large, le tableau 30 ci-dessous nous permet de constater que la zone

comprise entre le quatrième et le septième niveau est celle qui comprend les variations de

score les plus importantes.

Modification % Identique Ecart Modification %

Identique Ecart

1 98,96% 0 9 17,19% 6,25% 2 91,15% 7,81% 10 11,46% 5,73% 3 84,38% 6,77% 11 6,25% 5,21% 4 68,75% 15,63% 12 6,77% -0,52% 5 55,73% 13,02% 13 6,77% 0,00% 6 40,63% 15,10% 14 5,73% 1,04% 7 31,25% 9,38% 15 2,08% 3,65% 8 23,44% 7,81% 16 3,13% -1,04%

Tableau 30 : Scores en pourcentage d’identité et écart avec le niveau précédent en fonction

du niveau de modification.


416

0 1 2 3 4 5 6 7 8 9 10 12 14 16

identdiff

Sujet an


Effe

ctifs

05

1015

0 1 2 3 4 5 6 7 8 9 10 12 14 16

identdiff

Sujet ca


Effe

ctifs

05

1015

0 1 2 3 4 5 6 7 8 9 10 12 14 16

identdiff

Sujet cc


Effe

ctifs

05

1015

0 1 2 3 4 5 6 7 8 9 10 12 14 16

identdiff

Sujet cd


Effe

ctifs

05

1015

Figure 58 : Jugements de différence en fonction du niveau de modification (an, ca, cc et cd).

0 1 2 3 4 5 6 7 8 9 10 12 14 16

identdiff

Sujet cy


Effe

ctifs

05

1015

0 1 2 3 4 5 6 7 8 9 10 12 14 16

identdiff

Sujet im


Effe

ctifs

05

1015

0 1 2 3 4 5 6 7 8 9 10 12 14 16

identdiff

Sujet jr


Effe

ctifs

05

1015

0 1 2 3 4 5 6 7 8 9 10 12 14 16

identdiff

Sujet ls


Effe

ctifs

05

1015

Figure 59 : Jugements de différence en fonction du niveau de modification (cy, im, jr et ls).


417

0 1 2 3 4 5 6 7 8 9 10 12 14 16

identdiff

Sujet mg


Effe

ctifs

05

1015

0 1 2 3 4 5 6 7 8 9 10 12 14 16

identdiff

Sujet rl


Effe

ctifs

05

1015

0 1 2 3 4 5 6 7 8 9 10 12 14 16

identdiff

Sujet th


Effe

ctifs

05

1015

0 1 2 3 4 5 6 7 8 9 10 12 14 16

identdiff

Sujet tv


Effe

ctifs

05

1015

Figure 60 : Jugements de différence en fonction du niveau de modification (mg, rl, th et tv).

Une analyse plus détaillée des réponses de chacun des 12 sujets confirme cette plage de

seuil ; le sujet « an » constitue cependant une exception flagrante. Les figures 58, 59 et 60 des

pages précédentes donnent une représentation graphique des effectifs de jugement de

différence en fonction des niveaux de modification.

Nous avons résumé dans le tableau 31 ci-après les seuils correspondant à l’égalisation

ou au dépassement des 50 % de jugement de différence ; lorsque deux valeurs sont indiquées

(par exemple « 4-5 »), cela signifie que le sujet égale le seuil pour le premier niveau

mentionné et le dépasse pour le suivant. Le contraste entre le seuil du sujet « an » et celui des

autres sujets est ici flagrant :


418

Sujet Niveau-seuil Sujet Niveau-seuil

an 10-11 jr 7 ca 4-5 ls 4 cc 6 mg 4-5 cd 5 rl 7 cy 5-6 th 7 im 9 tv 6

Tableau 31 : Niveau de modification pour le seuil de 50 % pour les 12 sujets.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

identdiff

Effectifs des jugements d'identité en fonction du niveau de modification de l'onset.(Sujet an retiré de l'analyse)


Effe

ctifs

050

100

150

200

Figure 61 : Jugements de différence en fonction du niveau de modification (un sujet exclu).

Etant donné cet écart important entre le sujet « an » et l’ensemble des autres sujets, nous

avons décidé de l’exclure de l’analyse. La figure 61 ci-dessus présente la nouvelle distribution

des jugements de différence en fonction des niveaux de modification de l’onset.

Cette nouvelle distribution semble adopter une tendance plus sigmoïdale mais nous

noterons néanmoins que le seuil des 50% reste lié au sixième niveau de modification de

l’onset, c'est-à-dire à une élévation d’un ton et demi.

En revanche, comme le suggère la figure 62 ci-après, l’observation des effectifs en

fonction du type de marqueur morpho-lexical de continuité (pronom anaphorique vs.

connecteur « et ») semble indiquer une différence de traitement confirmant notre hypothèse

complémentaire 1.


419

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

identdiff

Condition Anaphore : Effectifs des jugements d'identité en fonction du niveau de modification de l'onset.(Sujet an retiré de l'analyse)


Effe

ctifs

020

4060

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

identdiff

Condition Connecteur : Effectifs des jugements d'identité en fonction du niveau de modification de l'onset.(Sujet an retiré de l'analyse)


Effe

ctifs

020

4060

80

Figure 62 : Jugements de différence en fonction du niveau de modification et du type de

marqueur de continuité discursive (un sujet exclu).

Nous remarquons en effet que le seuil des 50% de jugement de différence est perçu au

niveau 6 (1 ton et demi) pour l’anaphore et dès le niveau 5 pour le connecteur « et ». Cette

différence de distribution est confirmée par un test de chi quarré qui permet de rejeter

l’hypothèse de l’identité des distributions au seuil de 0,05 (χ2 = 197,625 et p = 0,1749).

Synthèse

Nous retiendrons de cette première phase d’expérimentation que les sujets perçoivent la

différence d’onset pour des seuils compris entre 1 ton (niveau 4 de notre expérimentation) et

1,75 tons (niveau 7).

De plus, cette perception semble influencée par la nature de la marque morpho-lexicale

de continuité discursive, avec une perception de différence inférieure d’un niveau (1/4 de ton)

dans la condition « connecteur ».


420

Nous discuterons ces deux résultats dans la rubrique finale de cette section et allons à

présent nous tourner vers la seconde phase d’expérimentation.

3.2 Seconde phase d’expérimentation

3.2.1 Hypothèse expérimentale

Rappelons tout d’abord notre formulation expérimentale de l’hypothèse H-A :

H-A’ : l’association d’un onset élevé à une anaphore pronominale inaccentuée

génère chez le sujet auditeur un coût cognitif supplémentaire matérialisé par une

absence ou une atténuation de l’effet facilitateur observé dans l’amorçage

sémantique trans-modal avec une présentation des stimuli cibles 250 ms. après le

pronom anaphorique.

3.2.2 Protocole expérimental

Comme nous l’avons précisé dans la première partie, nous avons opté pour la méthode

d’amorçage sémantique trans-modal : 12 sujets volontaires non phonéticiens ont écouté un

ensemble d’enregistrements formant de courts textes composés de trois phrases équilibrées en

terme de nombre de syllabes, de complexité sémantique et de structure syntaxique. La

consigne était la suivante :

« Vous allez entendre des enregistrements racontant de petites histoires.

En fin de session, vous allez devoir répondre VRAI ou FAUX à des affirmations concernant ces

histoires.

Pendant la session vous allez devoir répondre le plus rapidement possible lorque des mots

apparaîtront à l'écran.

Si le mot est effectivement un mot français, appuyez sur le bouton blanc à gauche.

Si le mot n'est pas un mot français, appuyez sur le bouton gris à droite. »

Les sujets étaient donc supposés être interrogés en fin d’expérimentation sur le contenu

des textes entendus ; ce leurre a permis de forcer l’écoute active des textes, et pas simplement

leur perception en « bruit de fond » pendant la tâche de décision lexicale.

Pendant l’expérimentation, trois types de séquences de lettres pouvaient apparaître à

l’écran 250 ms après l’occurrence du pronom anaphorique inaccentué situé au sein de

l’énoncé final : un mot sémantiquement relié à l’antécédent du pronom, un mot non relié


421

sémantiquement, ou un non mot. Dans tous les cas, la lecture de l’enregistrement n’était pas

interrompue par la présentation visuelle de la séquence de lettres cible.

Nos sujets ont été répartis en deux groupes, chacun effectuant deux sessions

d’approximativement un quart d’heure, séparées par une pause de 10 minutes.

Facteurs expérimentaux

Les facteurs expérimentaux que nous avons contrôlés dans cette expérimentation sont :

la modification de l’onset du troisième énoncé (comportant l’anaphore pronominale

inaccentuée), la séquence de lettres affichée (type, principalement, mais avec analyse a

posteriori du nombre de lettres et de la fréquence), le genre, et le nombre de l’antécédent.

Stimuli

Les stimuli utilisés dans cette expérience ont été obtenus à l’aide de la méthode de

resynthèse PSOLA évoquée plus haut ; pour chacun de nos 16 enregistrements originaux,

nous avons ainsi obtenus 17 enregistrements resynthétisés, dont un resynthétisé sans

modification de F0.

Comme nous l’avons évoqué plus haut, ces enregistrements forment de courts textes

composés de trois phrases équilibrées en terme de nombre de syllabes, de complexité

sémantique et de structure syntaxique (cf. exemples 62 et 63 ci-dessous).

Ex (62) Texte 1c-09

Le policier est en train de vérifier les alibis.

Dans dix-sept jours, il ira présenter son rapport au juge.

Le mois prochain, il devra se rendre à l’audience à Toulouse.

Ex (63) Texte 1c-10

La secrétaire est en train de débrancher l’ordinateur.

Dans cinq minutes, elle va ranger ses dossiers une dernière fois.

L’année prochaine, elle doit occuper un nouveau poste au Mans.

Nous avons placé le pronom anaphorique en position non initiale d’unité modifiée afin

que l’élévation de l’onset ne puisse pas être perçue, notamment dans le cadre des pronoms

personnels féminins « elle » et « elles », comme une accentuation.


422

Pour des raisons de durée d’expérimentation, nous avons en revanche utilisé, pour

chaque enregistrement original,

• l’enregistrement resynthétisé sans modification de F0 ;

• deux enregistrements resynthétisés et dont la F0 a été modifié par des seuils distants

de 8 niveaux (par exemple niveaux 1 et 9, 2 et 10, 3 et 11, etc.)

Chaque stimulus sonore a été entendu trois fois (non consécutivement, bien entendu)

par les sujets, couplé à chaque fois avec une séquence de lettres cible différente (mot associé,

mot non associé, non mot), ce qui représente un nombre total de 144 stimuli sonores

différents.

Les séquences de lettres cible ont elles-mêmes été équilibrées en terme de nombre de

syllabes et de lettres ; une analyse a posteriori à partir de la base de données Frantext de

l’ATILF159 a été effectuée et n’a révélé aucun effet de fréquence lexicale. Les exemples 64 et

65 ci-dessous donnent une idée des mots et non mots employés :

Ex (64) Texte 1c-09 : menottes (mot associé) / sacoches (mot non associé)

baltoches (non mot)

Ex (65) Texte 1c-10 : lettre (mot associé) / cheval (mot non associé) luttrel (non mot)

Résultats

Comme avec les valeurs fréquentielles lors du chapitre précédent, les temps de réponses

fournis varient de manière significative entre les sujets. La figure 63 ci-après donne une

représentation graphique de cette variation importante.

159 Pour tout renseignement : http://www.atilf.fr/


423

at cb cd cy da jl ls lt nz sd sr th

050

010

0015

0020

00

Temps de réponse par sujet

Sujets

Tem

ps d

e ré

pons

e en

ms.

Figure 63 : Temps de réponse bruts par sujet.

En conséquence, nous avons décidé d’adopter une méthode de normalisation destinée à

permettre la mise en commun et la comparaison des réponses des sujets. Une fois encore (cf.

chapitres 7 et 8), nous avons eu recours, pour chaque sujet, à la méthode de « transformée z »

qui consiste à exprimer une valeur donnée en terme de différence par rapport à la moyenne

(on parle de centrage) divisée par l’écart type (on parle de réduction) :

typeEcartMoyenneValeurNorm.

−=

Équation 3 : Valeur normalisée exprimée en fonction de la valeur brute et de la

moyenne et de l’écart type pour chaque sujet.

Cette normalisation (cf. figure 64 ci-après), permet d’obtenir des valeurs comparables

pour tous les sujets, quel que soit leur temps de réponse moyen.


424

at cb cd cy da jl ls lt nz sd sr th

-4-2

02

4

Temps de réponse normalisés par sujet

Sujets

Tem

ps d

e ré

pons

e no

rmal

isés

Figure 64 : Temps de réponse normalisés par sujet.

Malgré un aplatissement de 9,013983, une dissymétrie de -0,6232997 et une légère

tendance bimodale, la distribution des temps de réponse normalisés ne semble pas différer

d’une distribution normale de manière significative au seuil de 0,05 (Kolmogorov-Smirnov :

D = 0,0295 et p = 0,4391 / Wilcoxon : W = 1519515 et p = 0,3658). Nous pourrons donc

utiliser des ANOVAs de manière relativement fiable.

La figure 65 ci-dessous représente cette distribution sous la forme d’un histogramme

des temps de réponse normalisés.

Histogramme et courbe de densité des temps de réponses normalisés

Temps de réponse normalisés

Effe

ctifs

-4 -2 0 2 4

050

100

150

200

250

300

350

Figure 65 : Histogramme et courbe de densité des temps de réponse normalisés.


425

Après cette nécessaire normalisation des données, nous proposons à présent de nous

tourner vers l’observation des résultats spécifiques à notre expérimentation.

Observons tout d’abord l’effet du type de séquence de lettres sur le temps de réponse

normalisé au niveau global (figure 66 ci-dessous) :

Mot non associé Mot associé Non mot

-4-2

02

4Boxplots des temps de réponse normalisés par type de séquence de lettres

Tem

ps d

e ré

pons

e no

rmal

isés

Figure 66 : Boxplots des temps de réponse normalisés par type de séquence de lettres.

L’analyse formelle des données permet de confirmer de manière significative la

tendance observée (ANOVA : F = 30,78 et p = 1.081e-13 et tests de Kolmogorov-Smirnov

deux à deux) :

• les réponses face aux non mots sont les plus lentes, avec une moyenne normalisée

positive de 0,2509133 ;

• les mots non associés viennent en second avec une moyenne normalisée négative de -

0,06661934 ;

• les mots sémantiquement associés, finalement, génèrent les réponses les plus rapides,

avec une moyenne normalisée négative de -0,184294.

Ces résultats, qui confirment l’effet d’amorçage sémantique trans-modal, semblent

cependant gênants concernant notre hypothèse H-A car la modification du niveau d’onset

semble ne pas avoir d’effet sur ce phénomène. Observons à ce propos la figure 67 ci-après :


426

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

-4-2

02

4

Boxplots des temps de réponse normaliséspar niveau de modification

Niveaux de modification

Tem

ps d

e ré

pons

e no

rmal

isés

Figure 67 : Temps de réponse normalisés par niveau de modification d’onset.

Une ANOVA globale du facteur « niveau de modification » semble d’ailleurs confirmer

cette apparente absence d’effet (ANOVA : F = 1,703 et p = 0,1921).

Cependant, une ANOVA croisant les facteurs « type de séquence de lettre » et « niveau

de modification » donne des résultats plus intéressants (cf. tableau 32 ci-dessous).

Echantillon élargi

Statistique F P-valeur

Type de séquence 30,615 8,61e-14 ***

Niveau de

modification 1,774 0,1830672

Type : Niveau 7,334 0,0006736 ***

Tableau 32 : Statistique F et P-valeur pour l’ANOVA croisant les facteurs « type de séquence

de lettre » et « niveau de modification ».


427

Comme le montre le tableau 32, l’interaction des deux contraintes semble avoir un effet

significatif, ce qui nous encourage à analyser chaque type de séquence de lettres séparément

(sans prendre en considération les non mots). Observons tout d’abord l’influence du niveau de

modification sur le temps de réponse dans la condition « mot non associé ».

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

-4-2

02

4Temps de réponse normalisés par niveau de modification

Condition "mot non associé"


Tem

ps d

e ré

pons

e no

rmal

isés

Figure 68 : Temps de réponse normalisés par niveau de modification d’onset pour la

condition « mot non associé ».

La très faible tendance graphique d’augmentation du temps de réponse normalisé en

relation avec l’augmentation du niveau de modification n’est pas confirmée comme

significative par un test formel au seuil de 0,05 (ANOVA : 3,6308 et p = 0,05722).

Observons ce qu’il en est pour l’influence du niveau de modification sur le temps de

réponse dans la condition « mot associé ».


428

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

-4-2

02

4

Temps de réponse normalisés par niveau de modificationCondition "mot associé"


Tem

ps d

e ré

pons

e no

rmal

isés


condition « mot associé ».

Ici encore, on observera une très faible tendance graphique d’augmentation du temps de

réponse normalisé en relation avec l’augmentation du niveau de modification ; cette fois-ci,

cependant, cette tendance est confirmée comme significative par un test formel au seuil de

0,05 (ANOVA : 7,9828 et p = 0, 004887).

Synthèse

Cette seconde phase d’expérimentation a permis d’observer clairement l’effet

d’amorçage sémantique trans-modal que nous pouvions attendre, avec des temps de réponse

significativement inférieurs pour les mots associés sémantiquement à l’antécédent du pronom

anaphorique ; la validation de notre hypothèse H-A, en revanche, semble plus délicate : en

effet, nous ne remarquons aucun effet global du niveau de modification de l’onset sur les

temps de réponse ; la dissociation des deux types de mot cible utilisés en revanche (mot

associé vs. mot non associé) permet la mise en évidence d’un effet significatif concernant les

temps de réponse.


429

Etant donnée notre hypothèse H-A, nous considérons ces résultats comme

encourageants, mais devant être approfondis.

C’est précisément vers ce type d’approche que nous allons à présent nous tourner dans

le cadre de la discussion générale des résultats de nos deux phases d’expérimentation.

3.3 Discussion

Comme nous venons de le mentionner, il semble que l’élévation de l’onset ait un effet

sur le temps de réponses des sujets dans le cadre de l’effet d’amorçage sémantique trans-

modal ; si ceci constitue un élément favorable concernant notre hypothèse fondamentale H-A,

il est bien entendu indispensable d’approfondir notre analyse pour éclaircir la nature précise

de cet effet.

Dans ce contexte, il est important de noter que notre première phase d’expérimentation

avait permis de mettre en évidence un seuil de perception de l’élévation de l’onset compris

entre 1 ton et 1,75 tons (nos niveaux de modification 4 et 7). Nous nous inspirerons donc de

ce résultat et postulerons un effet de seuil dans le cadre de l’influence de l’onset sur le temps

de réponse des sujets dans la condition « mot associé ».

L’observation d’une courbe de moyenne mobile des temps de réponse des sujets dans la

condition « mot associé » en fonction du niveau de modification de l’onset (cf. figure 70 ci-

après) nous permet de préciser de manière univoque le sens de l’effet observé ci-dessus ainsi

que de proposer une première approximation concernant son seuil :

• le sens de l’effet est incontestablement à l’augmentation du temps de réponse en

relation avec l’augmentation de la modification de l’onset ; ce qui est compatible avec

notre hypothèse H-A ;

• le seuil à partir duquel l’effet d’augmentation est particulièrement visible semble être à

proximité des niveaux 5 et 6, ce qui confirme les observations que nous avons

effectuées dans le cadre de notre première phase d’expérimentation.


430

0 5 10 15

-0.3

0-0

.28

-0.2

6-0

.24

-0.2

2-0

.20

-0.1

8

Moyenne mobile des temps de réponse normalisés par niveau de modificationCondition "mot associé"


Moy

enne

s de

tem

ps d

e ré

pons

e no

rmal

isé

Figure 70 : Moyenne mobile des temps de réponse normalisés par niveau de modification

d’onset pour la condition « mot associé ».

Nous proposons donc de reprendre l’ANOVA à deux facteurs croisés que nous avons

déjà utilisée plus haut (cf. tableau 32) et de fragmenter son domaine d’application en fonction

des valeurs de seuils que nous proposons.

0-4 > 5

F P F P

Type de séquence 51,0547 <2e-16 *** 2,2144 0,1098

Niveau de modification 1,7095 0,1914 0,2420 0,6229

Type : Niveau 0,5602 0,5713 0,2992 0,7415


de lettre » et « niveau de modification » pour les plages 0-4 et >5.

Nous remarquons qu’entre les niveaux 0 et 4, le seul effet significatif est celui qui

oppose les mots associés aux mots non associés. D’autre part, tout comme l’effet du facteur

« niveau », celui de l’interaction « type:niveau » n’est pas significatif. Ceci nous permet de


431

conclure en l’absence d’effet de l’élévation de l’onset sur le temps de réponse à un niveau

inférieur au niveau 5, ce qui corrobore cette fois-ci de manière formelle le seuil de perception

proposé dans le cadre de notre première expérimentation.

La plage supérieure au niveau 5 pose un nouveau problème d’interprétation : en effet,

plus aucun facteur, pas même le type de séquence de lettres, ne semble avoir d’effet

significatif sur le temps de réponse des sujets. Le retour à l’observation des données, et

notamment la figure 14 ci-avant, nous pousse à faire l’hypothèse d’une seconde fragmentation

de la plage des niveaux de modification de l’onset à partir du niveau 10, qui présente une

rupture avec la croissance forte de la moyenne mobile observée depuis le niveau 5.

5-10 > 10

F P F P

Type de séquence 2,4973 0,08376 1,1877 0,30593

Niveau de modification 4,0232 0,04564 * 3,7683 0,05289

Type : Niveau 0,6996 0,49747 0,6752 0,50959


de lettre » et « niveau de modification » pour les plages 5-10 et >10.

Suite à l’observation des résultats présentés dans le tableau 34 ci-dessus, nous

remarquerons que la plage centrale des niveaux de modification de l’onset (niveaux 5 à 10)

est la seule à comporter un effet significatif au seuil de 0,05, en relation avec la modification

de niveau de l’onset.

L’ensemble de ces résultats peut selon nous s’interpréter de la manière suivante :

• Niveaux de modification 0 à 4 : l’élévation de l’onset n’est pas perçue et l’effet

d’amorçage sémantique (lié au type de séquence de lettres) est très significatif ;

• Niveaux de modification 5 à 10 : l’élévation de l’onset est à présent perçue et

influence significativement l’effet d’amorçage sémantique qui n’est plus significatif ;

• Niveaux de modification au-delà de 10 : l’élévation de l’onset dans cette plage n’est

plus significative, de même que l’effet d’amorçage sémantique.

Formulé de manière plus explicite, il semble donc que lorsque l’élévation de l’onset

n’est pas perçue (niveau inférieur à 5), l’effet d’amorçage sémantique se produit

normalement, avec une facilitation de la reconnaissance des mots associés sémantiquement à


432

l’antécédent du pronom ; à partir du moment où l’élévation de l’onset est perçue (niveau 5), la

différence de temps de réponse liée à cette facilitation n’est plus significative et l’effet

d’amorçage sémantique s’estompe ; à partir d’un niveau encore plus élevé (niveau 11, c'est-à-

dire une élévation de 2,75 tons) ni l’élévation de l’onset ni le type de séquence de lettres cible

n’ont d’influence significative sur le temps de réponse : l’effet d’amorçage sémantique n’est

plus significatif et l’élévation de l’onset ne contribue plus à augmenter le temps de réponse de

manière significative.

Ce fonctionnement semble donc confirmer l’hypothèse d’arbitrage que nous avons

proposée en début de chapitre, mais de manière plus complexe que nous ne l’avions

envisagé : il semble en effet qu’à partir du moment où elle est perçue, l’élévation de l’onset

induit un traitement cognitif supplémentaire qui se traduit par une annulation de l’effet

d’amorçage sémantique trans-modal ; notre expérimentation montre aussi, qu’au-delà d’un

seuil estimé à presque 3 tons ni l’élévation de l’onset ni le type de séquence de lettre cible ne

semblent influencer significativement le temps de réponse des sujets : nous interprèterons

temporairement ce résultat comme un phénomène de saut catégoriel (le texte étant peut-être

dès lors perçu comme mal formé), potentiellement un artefact de notre démarche, et

reconnaissons bien volontiers que d’autres approfondissements de cette thématique semblent

s’imposer.

Nous terminerons cette discussion de nos résultats par un rapide retour sur l’hypothèse

de perception H-B et son hypothèse complémentaire, toutes deux formulées plus haut. Ainsi,

si nous remarquons que le marquage de la continuité discursive par l’anaphore pronominale

inaccentuée semble induire un seuil perceptif très légèrement plus élevé, ce seuil reste

néanmoins plus élevé que les valeurs observées dans l’analyse du corpus d’anglais Aix-

MARSEC. Ceci nous pousse à nous interroger sur la validité inter-langue de la valeur de ce

seuil, interrogation qui ne nous semble pouvoir recevoir de réponse que dans le cadre d’un

croisement des méthodes utilisées dans cette thèse (analyse de corpus en français et analyse

de perception en anglais). Tout cela, à l’évidence, en pourra faire l’objet que de recherches

futures …


433


Les trois parties principales de ce chapitre nous ont permis de formuler et de tester la

validité de deux hypothèses relatives aux aspects perceptifs des interactions anaphore

pronominale-onset.

Notre démarche a trouvé son origine dans le constat fait lors du chapitre précédent

concernant l’élévation significative, pour certains locuteurs de la valeur fréquentielle de

l’onset des unités intonatives marquées pour la continuité discursive par anaphore

pronominale inaccentuée. Nous nous sommes appuyés sur le concept d’asymétrie

locuteur/interlocuteur afin d’interpréter ce phénomène dans le cadre d’une économie de

production pour le locuteur (un onset plus élevé permettant en quelque sorte une déclinaison

plus « comfortable ») que ce dernier laisse à la charge de l’interlocuteur de compenser par un

effort cognitif plus intense lié à la compétition de formes antagonistes.

Un rapide survol des principales méthodes psycholinguistiques utilisées dans le cadre

des études sur l’anaphore nous a ensuite permis de proposer que cet effort de traitement

supplémentaire puisse avoir un impact sur l’effet d’amorçage sémantique trans-modal.

En conséquence, après une présentation du protocole et des outils employés dans la

mise en place de nos expérimentations, l’objectif principal de notre partie expérimentale a

consisté à tester cette hypothèse centrale.

Nos résultats semblent confirmer que l’élévation de l’onset en relation avec une

anaphore pronominale inaccentuée induit des temps de réponses liés à un traitement cognitif

plus important. Ce fonctionnement est cependant conditionné par deux seuils :

• le premier, que nous appellerons « seuil de perception d’onset », compris entre 1 et

1,75 tons, est la limite inférieure à partir de laquelle l’onset est perçue par les sujets et

entre en compétition avec l’anaphore ;

• le second seuil, que nous nommerons « seuil de saturation », situé à un peu moins de

trois tons, constitue la limite à partir de laquelle la poursuite d’une élévation de l’onset

ne semble plus générer d’effet supplémentaire.

Nous avons aussi noté que le seuil de perception d’onset observé en français semble

supérieur à ce que nos analyses fondées sur l’anglais pouvaient laisser penser ; cette

différence constitue une question majeure abordable dans le cadre d’une indispensable

permutation des méthodologies que nous avons employées ici.


434

435

Conclusion

Conclusion

436

Proposer une conclusion à ce point de notre réflexion nous paraît presque artificiel tant

les problèmes en suspens et les pistes à approfondir sont nombreuses ; nous pensons

néanmoins que les proposisitons théoriques et les analyses expérimentales évoquées dans

cette thèse constituent un ensemble relativement homogène et assez représentatif de l’état

actuel de nos travaux. Considérons dès lors ce travail pour ce qu’il est, un instantané de notre

réflexion à ce jour, et résumons-en les aspects les plus fondamentaux.

Bilan …

Au-delà des découpages en parties et chapitres, ce travail a eu pour objectif de réaliser

une articulation entre propositions de nature théorique et expérimentation concernant les

thèmes de l’anaphore, de la prosodie et de leurs interactions dans un cadre discursif.

Concernant les propositions théoriques, nous avons souhaité placer notre réflexion

générale au sein d’une vision dynamique de la linguistique ; la description reste lacunaire,

bien évidemment, et confine parfois à une simplification réductrice, mais nous pensons que

l’idée essentielle que nous souhaitions mettre en avant est préservée : la linguistique subit

depuis quelques décennies l’influence (que nous jugeons fort positive, mais la chose est à

débattre) de la pragmatique, ce qui a pour effet de les faire évoluer toutes deux. La prosodie,

l’une des branches les plus dynamiques et les plus populaires de cette linguistique élargie,

semble elle aussi bénéficier de cette pragmatisation de la linguistique et paraît systématiser sa

représentation d’un large spectre de phénomènes depuis le lexique et la syntaxe jusqu’aux

frontières de la linguistique.

C’est dans ce cadre général que nous avons souhaité placer notre étude des relations de

la prosodie et de l’anaphore dans une perspective discursive. Ainsi, si nous avons souhaité

aborder cette étude par un rappel des conceptions traditionnellement attachées au concept

d’anaphore (chapitre 2), nous avons, dans la foulée (chapitre 3), proposé une caractérisation

du concept parfois évanescent de discours. Nous avons ainsi souligné l’intérêt de dissocier le

texte en tant que produit de et indice pour les activités cognitives des interactants, du discours

pésenté comme perspective heuristique. Notons aussi que face à la diversité des arguments en

faveur ou en défaveur de la conception du discours en tant qu’unité linguistique supérieure à

la phrase, nous avons préféré adopter une position de neutralité et proposer de concevoir le

discours comme une heuristique complexe de l’activité de communication humaine par

l’intermédiaire d’un texte verbal, para-verbal et non verbal, à la fois trace de et indice pour les

processus cognitifs qui président à sa production et à son interprétation situées. Ce type de

Conclusion

437

définition, bien qu’évidemment imparfait, a selon nous l’avantage de mettre en évidence les

aspects multi-paramétriques, dynamiques et multidimensionnels que nous pensons

fondamentaux.

Cette ébauche de définition du discours nous a ensuite permis de proposer un double

changement de perspective qui constitue l’un des points centraux de ce travail. Ainsi, nous

inspirant principalement des propositions de Francis Cornish (notamment Cornish 1999) et de

la distinction proposée dans la Théorie de la Pertinence entre sens conceptuel et sens

procédural, nous avons proposé de considérer l’anaphore non plus comme une coquille vide et

dépendante de son cotexte, un problème à « résoudre », mais plutôt comme un procédé actif

de gestion cognitive de la dynamique discursive. Ce premier changement de perspective s’est

ensuite vu complémenté par un second, relatif à la dépendance mutuelle de l’attribution

référentielle de l’anaphore et de la structure rhétorique du discours.

Le deuxième volet de notre réflexion théorique s’est organisé autour de la thématique de

la prosodie. Dans un premier temps, nous avons souhaité nous intéresser plus particulièrement

à l’organisation et à la représentation de la prosodie. En continuité partielle avec les travaux

d’Albert Di Cristo et de Daniel Hirst, nous avons proposé de concevoir la prosodie comme un

système complexe de sous-systèmes nécessitant une représentation à plusieur niveaux, depuis

le niveau physico-acoustique jusqu’au niveau phonologique profond via les niveaux

phonétique et phonologique de surface. La partie plus originale de nos propositions comporte

trois principaux éléments :

• la généralisation de cette représentation multi-niveau à un ensemble de quatre espaces

prosodiques ancrés substance (espaces fréquentiel, d’intensité, de durée et spectral) ;

• l’extension du concept d’orthogonalité à ces espaces (notamment avec le niveau et

l’étendue fréquentiels et le débit, bien que des pistes restent ouvertes concernant les

autres espaces ancrés substance) ; permettant la mise en place du concept de

dimension « localisante » ou « cadre », au sein de laquelle se produite la

réinterpréation phonologique des phénomènes phonétiques ;

• et l’articulation de ces espaces avec un espace métrique plus abstrait, organisé autour

des deux concepts fonctionnels primaires d’accent et de frontière, et spécialisé dans

l’interfaçage de la prosodie à la syntaxe.

Nous avons de plus argumenté, contra Levelt 1989, pour un positionnement du

« compilateur » prosodique non seulement après le module syntaxique (par l’intermédiaire de

Conclusion

438

l’espace métrique gérant les proéminences et les frontières), mais aussi en parallèle avec

celui-ci, en contact direct avec le module de conceptualisation (par l’intermédiaire des espaces

ancré substance).

Nous avons terminé ce parcours théorique par un survol de quelques conceptions

relatives à l’interaction directe de la prosodie et de l’anaphore par le biais de l’accentuation

des pronoms personnels et au rôle de la prosodie dans l’organisation de l’interaction

discursive. Concernant plus particulièrement ce second point, nous avons proposé une

caractérisation unifiée des dimensions localisées et localisantes des espaces fréquentiel,

d’intensité et de durée160 en relation avec le marquage initial (« vers la gauche ») et final

(« vers la droite ») de la (dis)continuité discursive.

Arrivé au terme de cette approche théorique, nous avions ainsi pu mettre en évidence les

rôles respectifs de l’anaphore pronominale et de la prosodie dans la dynamique du discours ; il

semblait dès lors intéressant, étant donnée notre conception massivement interactive de

l’heuristique discursive, de tester expérimentalement l’interaction de phénomènes prosodiques

tels que l’onset avec l’anaphore dans le cadre du marquage de la (dis)continuité discursive,

tant du point de vue du locuteur (en production) que de celui de l’interlocuteur (en

perception).

En conséquence, nous avons consacré les chapitres 7 et 8 à la description et à l’analyse

de ces phénomènes en anglais britannique authentique dans le corpus Aix-MARSEC. Il

ressort principalement de cette analyse une confirmation encourageante de l’interaction de ces

deux paramètres pour certains locuteurs. Nous avons ainsi mis en évidence une valeur plus

élevée d’onset lorsque l’unité concernée était marquée par anaphore pronominale

inaccentuée ; nous avons proposé une interprétation cognitive et psycho-physiologique à ce

phénomène, liée au fait que l’anaphore pronominale inaccentuée constituait une garantie de

continuité permettant un relâchement (voire une annulation) des contraintes discursives

d’abaissement pesant sur la valeur de l’onset dans le cadre de la continuité discursive.

La contrepartie perceptive de cette hypothèse a ensuite été testée dans notre dernier

chapitre. Cette dernière analyse expérimentale a permis de confirmer globalement la

compensation cognitive de la production d’indices antagonistes (ou « compétitifs » si l’on se

place dans le cadre du Modèle de Compétition) que constituent un onset plus élevé et une

160 Nous avons aussi fait mention des aspects liés à la qualité de voix, mentionnés dans nombre d’études sur la

question.

Conclusion

439

anaphore pronominale inaccentuée : il semble en effet que l’interlocuteur perçoive, interprète

et arbitre ces différents indices, comme le suggère l’annulation de l’effet d’amorçage

sémantique trans-modal observée lorsque un onset plus élevé est perçu.

Globalement, ce travail de thèse a tenté de coupler certains aspects théoriques et

expérimentaux concernant la prosodie et le discours, plus particulièrement en relation avec

l’anaphore. Nous avons argumenté en faveur d’une conception massivement interactive de

l’heuristique discursive et avons suggéré la possibilité d’interactions concertées mais

indirectes de la prosodie et de l’anaphore.

… et perspectives

De nombreux problèmes, cependant ont été soulevés et mériteraient d’être approfondis.

Parmi ceux-ci nous noterons plus particulièrement le problème des unités dans le cadre du

discours : le discours est-il une unité ? Implique-t-il des unités supérieures à la phrase ?

Concernant la prosodie, le débat déjà ancien de la frontière entre le linguistique et le

paralinguistique semble renouvelé par l’intégration plus systématique des aspects relatifs à la

qualité de voix. Notons aussi que la représentation multi-niveau unifiée de l’ensemble des

espaces prosodiques, bien que séduisante sur un plan intellectuel, reste une piste à explorer,

tout comme la généralisation de la distinction entre dimension localisée et dimension

localisante que nous suggérons d’étendre à tous les espaces prosodiques ancrés substance.

Notre partie expérimentale, a elle aussi soulevé des difficultés importantes relatives à la

représentativité des données orales et nous encourage, étant donnée la fragilité de nos

résultats, à approfondir la thématique choisie. Les différences de seuil observées entre

production en anglais et perception en français, notamment, soulignent une fois encore le

caractère indispensable du croisement de nos méthodes expérimentales avec les langues

analysées, voire même leur extension à d’autres langues.

Autant de problèmes, de questions et de pistes qui nous poussent, malgré l’achèvement

de cette phase de notre vie d’étudiant-chercheur à envisager le futur comme un vaste horizon

d’investigation…

Index des figures

441

Index des figures Figure 1: Gradient d’indexicalité pour les « pronoms de dialogue » (Charolles 2002 : p. 213)

..........................................................................................................................................61

Figure 2 : Evolution de l’article défini anglais depuis l’indo-européen. .................................66

Figure 3 : Evolution des adjectifs démonstratifs anglais depuis l’indo-européen. ..................66

Figure 4 : Evolution des pronoms personnels de troisième personne en anglais depuis l’indo-

européen. ..........................................................................................................................66

Figure 5: Structure des systèmes déictiques personnel, spatial et temporel pour l’anglais

(la structure est identique pour le français). ....................................................................74

Figure 6 : Types de référence selon Halliday & Hasan 1976. .................................................80

Figure 7 : Classification des usages indexicaux selon Levinson 2004 (corrigé)......................82

Figure 8 : Catégories de familiarité supposée (reproduction de Prince 1981)........................99

Figure 9 : Représentation de l’état attentionnel en fonction de la structure linguistique (à

gauche) et de la hiérarchie de domination de la structure intentionnelle

(schéma 1 de Grosz & Sidner 1986, p. 181)...................................................................109

Figure 10 : Modules et formes d’organisation du MG

(d’après la figure 1 de Roulet et al. 2001 : p. 51). .........................................................116

Figure 11 : Types de référence selon Halliday & Hasan 1976. .............................................137

Figure 12 : Classification des usages indexicaux selon Levinson 2004 (corrigée)................138

Figure 13: Echelle de codage du topique selon Givón 1983. .................................................165

Figure 14: Echelle de marquage d’accessibilité selon Ariel 2000. ........................................165

Figure 15: Hiérarchie du donné selon Gundel et al. 1993

(repris de Gundel et al. 2000 : pp. 81-82)......................................................................166


(Hirst & Di Cristo 1998 : p. 4). ......................................................................................198


avec prise en compte des paramètres physiques (Hirst & Di Cristo 1998 : p. 5).

La prosodie est ici le concept englobant. .......................................................................199

Figure 18 : Représentation conjuguée des deux aspects de l’intonation selon

(Hirst & Di Cristo 1998 : p. 7). ......................................................................................200

Figure 19 : Schéma des niveaux de représentations de la prosodie

selon Hirst et al. 2000 : p. 55). .......................................................................................208

Index des figures

442

Figure 20 : Représentation des espaces prosodiques fréquentiel et d’intensité au sein de la

dimension temporelle commune aux domaines segmental et prosodique...................... 212

Figure 21: Espaces fréquentiels pour le locuteur M et la locutrice F. .................................. 216

Figure 22 : Niveaux de représentation de la prosodie avec intégration du niveau métrique.229

Figure 23 : Courbe de F0 modélisée à l’aide de l’algorithme MOMEL................................ 233

Figure 24 : Configurations tonales et codage INTSINT du point-cible médian. ................... 235

Figure 25 : Modélisation MOMEL et codage INTSINT d’un extrait de parole

(emprunté à Di Cristo et al. à paraître). ........................................................................ 236

Figure 26 : Symboles orthographiques et iconiques du système INTSINT

(emprunté à Hirst 2000 : p. 62). .................................................................................... 236

Figure 27 : Codage INTSINT iconique (emprunté à Hirst 1999 : p. 62). .............................. 236

Figure 28 : Schéma de l’éditeur ProZed. ............................................................................... 238

Figure 29: Schémas tonals de l’unité tonale (TU) et de l’unité intonative (IU)

selon Hirst 1998 (p. 74). ................................................................................................ 241

Figure 30 : Structure hiérarchique de l’exemple (53) selon Hirst 1998 (p. 74). ................... 241


tonals sur un plan unique (Hirst 1998 : p. 75). ............................................................. 242

Figure 32 : Schéma tonal de l’unité tonale (TU) en anglais britannique

(adapté de Hirst 1998 : p. 76)........................................................................................ 242


tonals sur un plan unique (Hirst 1998 : p. 76). ............................................................. 242

Figure 34 : Représentation phonologique de surface d’une énonciation non emphatique de

l’exemple (5) à l’aide d’INTSINT (adpaté de Hirst 1998 : p. 76). ................................ 243

Figure 35 : Représentation phonologique de surface d’une énonciation emphatique de

l’exemple (53) à l’aide d’INTSINT (adpaté de Hirst 1998 : p. 76). .............................. 243

Figure 36 : Représentation hiérarchique d’une réalisation emphatique de l’exemple (53) avec

projection des segments tonals sur un plan unique (Hirst 1998 : p. 76). ...................... 244

Figure 37 : Echelle de codage du topique selon Givón 1983................................................. 262

Figure 38 : Echelle de marquage d’accessibilité selon Ariel 2000........................................ 262

Figure 39 : Hiérarchie du donné selon Gundel et al. 1993

(repris de Gundel et al. 2000 : pp. 81-82). .................................................................... 262


d'après Hirst et al. 2000. La phonologie n’accède ici qu’indirectement à la sémantique

par l’intermédiaire de la syntaxe. .................................................................................. 276

Index des figures

443


selon Hirst et al. 2000. La phonologie accède ici à la fois à la sémantique et à la

syntaxe. ...........................................................................................................................276

Figure 42 : Positions relatives des représentations sémantique, syntaxique et prosodique. La

prosodie accède ici à la fois à la sémantique et à la syntaxe,

mais chaque sous-composante est spécialisée................................................................278

Figure 43 : Représentation graphique de la déclinaison à l'intérieur d'une unité intonative.301

Figure 44 : Marques prosodiques (TSM) utilisés dans SEC...................................................327

Figure 45 : états émetteurs des HMMs. ..................................................................................345

Figure 46 : Graphique quantile-quantile des distributions des erreurs pour les alignements

fondés sur les phonétisations sans et avec élisions. .......................................................347

Figure 47 : Histogrammes des distributions des erreurs pour les alignements fondés sur les

phonétisations sans et avec élisions. ..............................................................................348

Figure 48 : Exemple d’un TextGrid d’annotation d’Aix-MARSEC dans Praat. ....................352

Figure 49 : Distribution des unités intonatives non marquées par anaphore pronominale

par groupe d’enregistrements. .......................................................................................368

Figure 50 : Distribution des unités intonatives marquées par anaphore pronominale

inaccentuée par groupe d’enregistrements. ...................................................................369

Figure 51 : Histogramme et courbe de densité des valeurs brutes de F0

des onsets de l’échantillon élargi. ..................................................................................373

Figure 52 : Histogramme et courbe de densité des valeurs de F0 des onsets pour l’échantillon

élargi après transformation logarithmique. ...................................................................374

Figure 53 : F0 transformée des onsets pour l’échantillon élargi et pour l’échantillon strict

en fonction du sexe du locuteur. .....................................................................................375

Figure 54 : Exemple de segmentation prosodique extraite de l’enregistrement A0101. ........379

Figure 55 : Valeurs fréquentielles des onsets en fonction de l’unité intonative précédente et de

l’unité intonative en cours (échantillon élargi). .............................................................382

Figure 56 : Représentation schématique de l’allègement des contraintes discursives

d’abaissement de l’onset par l’anaphore pronominale inaccentuée (API). Les contraintes

d’élévation obtiennent un poids relatif plus important. .................................................391

Figure 57 : Jugements de différence en fonction du niveau de modification

(tous sujets confondus). ..................................................................................................415

Figure 58 : Jugements de différence en fonction du niveau de modification (an, ca, cc et cd).

........................................................................................................................................416

Index des figures

444

Figure 59 : Jugements de différence en fonction du niveau de modification (cy, im, jr et ls).

........................................................................................................................................ 416

Figure 60 : Jugements de différence en fonction du niveau de modification (mg, rl, th et tv).

........................................................................................................................................ 417

Figure 61 : Jugements de différence en fonction du niveau de modification (un sujet exclu).

........................................................................................................................................ 418

Figure 62 : Jugements de différence en fonction du niveau de modification et du type de

marqueur de continuité discursive (un sujet exclu). ...................................................... 419

Figure 63 : Temps de réponse bruts par sujet........................................................................ 423

Figure 64 : Temps de réponse normalisés par sujet. ............................................................. 424

Figure 65 : Histogramme et courbe de densité des temps de réponse normalisés................. 424

Figure 66 : Boxplots des temps de réponse normalisés par type de séquence de lettres. ...... 425

Figure 67 : Temps de réponse normalisés par niveau de modification d’onset..................... 426


condition « mot non associé »........................................................................................ 427


condition « mot associé »............................................................................................... 428

Figure 70 : Moyenne mobile des temps de réponse normalisés par niveau de modification

d’onset pour la condition « mot associé ». .................................................................... 430

Index des tableaux

445

Index des tableaux Tableau 1: Récapitulatif des conditions concernant l’anaphore pronominale et l’anaphore

nominale (Milner 1982 : p. 38). .......................................................................................55

Tableau 2 : Proportions (en pourcentage) des expressions utilisées pour le maintien de la

référence d’après Hickmann 1987. ..................................................................................70

Tableau 3 : Caractéristiques concrètes des espaces prosodiques..........................................212

Tableau 4 : Spécifications des valeurs des traits niveau et étendue pour les tons INTSINT..279

Tableau 5 : Résultats des analyses de Hirschberg & Nakatani 1996 présentant une double

prise en compte des pauses silencieuses. .......................................................................295

Tableau 6 : Mise en évidence du parallélisme tonal entre « rise » et « fall-rise » à l’aide d’un

codage INTSINT intégré à l’approche proposée ici.......................................................303

Tableau 7 : Résumé des valeurs impliquées dans le marquage prosodique de la discontinuité

et de la continuité discursive. .........................................................................................305

Tableau 8 : Styles de parole du SEC. .....................................................................................326

Tableau 9 : Symboles ASCII utilisés dans MARSEC. .............................................................328

Tableau 10 : Mesures d’évaluation de l’algorithme de prédiction des élisions. ....................343

Tableau 11 : Evaluation de l’alignement automatique à différents seuils. ............................346

Tableau 12 : Aplatissement et dissymétrie pour les distributions des erreurs, mis en rapport

avec une distribution normale. .......................................................................................348

Tableau 13 : Première analyse des données brutes................................................................367

Tableau 14 : Tableau partiel par ordre décroissant d’effectif d’anaphore............................370

Tableau 15 : Tableau partiel par ordre décroissant de pourcentage d’anaphore. ................371

Tableau 16 : Groupes d’enregistrements retenus après échantillonnage. .............................372

Tableau 17 : Aplatissement et dissymétrie des distributions de F0 transformée des onsets. .377

Tableau 18 : Aplatissements, dissymétries, statistiques D et P-valeurs des tests de

Kolmogorov-Smirnov effectués sur les distributions de F0 transformée des onsets......378


ou de l’unité précédente. ................................................................................................380


et de l’unité précédente...................................................................................................381

Tableau 21 : Statistique F et P-valeur pour les ANOVAS sur échantillons élargi et srict. ....382

Tableau 22 : P-valeurs des tests de Kolmogorov-Smirnov pour l’échantillon élargi. ...........383

Index des tableaux

446

Tableau 23 : P-valeurs des tests de Kolmogorov-Smirnov pour l’échantillon strict. ............ 383

Tableau 24 : Statistique F et P-valeur pour les ANOVAS sur échantillons élargi et strict. .. 384

Tableau 25 : Statistique F et P-valeur pour les ANOVAS sur échantillons élargi et strict. .. 384

Tableau 26 : Moyennes et différences des valeurs normalisées

pour les échantillons élargi et strict. ............................................................................. 385

Tableau 27 : Différences de valeurs fréquentielles d’onset en Htz et en demi-tons en fonction

de la présence d’une anaphore pronominale ou pas, par locuteur

pour lequel l’effet est significatif. .................................................................................. 386

Tableau 28 : Valeurs de la statistique F et de la p-valeur pour les ANOVAs à un facteur

prenant l’onset localement absolu ou relatif comme variable dépendante. .................. 387

Tableau 29 : Statistiques F et P-valeurs de l’ANOVA croisant six mesures de la durée des UI

dans le cadre de la détermination des contraintes de durée pesant

sur la valeur fréquentielle de l’onset. ............................................................................ 390

Tableau 30 : Scores en pourcentage d’identité et écart avec le niveau précédent en fonction

du niveau de modification. ............................................................................................. 415

Tableau 31 : Niveau de modification pour le seuil de 50 % pour les 12 sujets. ................... 418


de lettre » et « niveau de modification ». ....................................................................... 426


de lettre » et « niveau de modification » pour les plages 0-4 et >5. ............................. 430


de lettre » et « niveau de modification » pour les plages 5-10 et >10. ......................... 431

Index des exemples

447

Index des exemples Ex (1) Pauli thinks hei shouldn’t have voted for Gerry Wallace Briar. ..................................5

Ex (2) a. Pauli told Johnj that Billk couldn’t vote for himself*i/*j/k. .........................................6

Ex (3) a. Pauli told Johnj that Billk couldn’t vote for himi/j/*k. ................................................6

Ex (4) a. Pauli told Johnj that hei/j/*k couldn’t vote for Billk....................................................6

Ex (5) a. L’étoile du matin est identique à l’étoile du soir. ..................................................24

Ex (6) I apologise. ................................................................................................................30

Ex (7) I hereby sentence you to ten years of hard labour. ....................................................30

Ex (8) I promise to come tomorrow. ....................................................................................31

Ex (9) a. Will John leave the room ? ....................................................................................35

Ex (10) a. On a coupé la chevelure de Samson et on l’a brûlée. ............................................52

Ex (11) Les voyageurs arrivèrent dans un village. L’église … ..............................................53

Ex (12) She came in and saw a child sleeping on the couch. The parents were having lunch

in the kitchen. ............................................................................................................53

Ex (13) des bœufs paissaient ; les quadrupèdes … ................................................................53

Ex (14) on vient d’envoyer des satellites dans l’espace ; les engins … .................................53

Ex (15) *ils ont engagé des secrétaires ; les jeunes filles …..................................................53

Ex (16) Mathieui est très étonné. Jeanj a bu tout soni/j rosé.....................................................77

Ex (17) [Dans une piscine découverte du Sud-Ouest de la France. Un client à l’accueil

s’adressant à F. Cornish qui partait :] ........................................................................77

Ex (18) [Chez un antiquaire : le vendeur rassure le client intéressé par un guéridon

endommagé] ..............................................................................................................78

Ex (19) The Times had every reporter cover a local athlete. ..................................................81

Ex (20) I’ve been living in San Francisco for 5 years and I love it here................................83

Ex (21) The man who gave his paycheque to his wife was wiser than the man who gave it to

his mistress. ...............................................................................................................83

Ex (22) A : I’ve never seen him. ...........................................................................................83

Ex (23) a. Mon voisin croit qu’il / *le brave homme est malade. ........................................126

Ex (24) I’ve been living in San Francisco for 5 years and I love it here..............................142

Ex (25) A : I’ve never seen him. ..........................................................................................143

Ex (26) The man who gave his paycheque to his wife was wiser than the man who gave it to

his mistress. .............................................................................................................143

Index des exemples

448

Ex (27) My brother-in-law, if that’s the right word for him, is a poet................................. 147

Ex (28) a. The cat ................................................................................................................ 150

Ex (29) Le président de la République française élu en 2002.............................................. 150

Ex (30) Kill an active, plump chicken. Prepare it for the oven, cut it into four pieces and

roast it with thyme for 1 hour.................................................................................. 153

Ex (31) Joe ate an apple last night, but it was much too acid for his liking......................... 154

Ex (32) [La compagne de l’auteur, sortant de sa chambre, agitant un livre qu’il croyait

perdu] ...................................................................................................................... 155

Ex (33) [Exemple emprunté à Cornish 1999 (p. 136) ; Chez un antiquaire : le vendeur

rassure le client intéressé par un guéridon endommagé] ........................................ 155

Ex (34) [Exemple emprunté à Cornish 1999 (p. 131) ; dans une piscine découverte du Sud-

Ouest de la France. Un client à l’accueil s’adressant à F. Cornish qui partait :] .... 155

Ex (35) Un arbre dressait ses branches tordues non loin de là. Il décida de passer la nuit près

de ce compagnon..................................................................................................... 159

Ex (36) Une voiture était rangée devant la porte. C’est cette voiture que j’ai prise et non la

tienne....................................................................................................................... 159

Ex (37) a. Paul called Jim a Republican. Then he insulted him........................................... 160

Ex (38) [Bill baille] .............................................................................................................. 162

Ex (39) (a) La vie à l’époque était une lutte, et elle devait le/*la rester. ............................. 162

Ex (40) (a) I dropped ten marbles and found all of them except for one. It’s probably under

the sofa. ................................................................................................................... 166

Ex (41) (a) Susan gave Betsy a pet hamster......................................................................... 171




Ex (45) (a) Terry really gets angry sometimes.................................................................... 173

Ex (46) Théo était épuisé car il avait couru jusqu’à l’université. ........................................ 180

Ex (47) Théo était épuisé, puisqu’il était à bout de souffle. ................................................ 180

Ex (48) [Commentaire radio, BBC Radio 4, 12 juin 1984].................................................. 180

Ex (49) wón tún gbé túwó wá .............................................................................................. 214

Ex (50) omo won ni e lo fi se oko........................................................................................ 214

Ex (51) èwù ònà Àrà ò tàn ................................................................................................... 214

Ex (52) they pre | DICted his e | LECtion. ........................................................................... 240

Ex (53) It’s almost impossible. ............................................................................................ 241

Index des exemples

449

Ex (54) a. Paul called Jim a Republican. Then he insulted him. ..........................................266

Ex (55) Babar went to a bakery. {he | ??HE} pointed at a blueberry pie. ............................267

Ex (56) Jack and Mary are good friends. {he | ??HE} is from Louisiana. ...........................268

Ex (57) When the Smiths arrived, HE waited in the car and SHE rang the bell. .................268

Ex (58) (a) They all put FREUD on a pedestal ....................................................................270

Ex (59) The teacher (1) did not board the train, for the (2) simple reason that it/he (3) was

not going to the South Coast of England.................................................................406

Ex (60) Texte 1a-01..............................................................................................................413

Ex (61) Texte 1a-11..............................................................................................................414

Ex (62) Texte 1c-09..............................................................................................................421

Ex (63) Texte 1c-10..............................................................................................................421

Ex (64) Texte 1c-09 : menottes (mot associé) / sacoches (mot non associé) ......................422

Ex (65) Texte 1c-10 : lettre (mot associé) / cheval (mot non associé) ................................422

Index des auteurs

451

Index des auteurs

A

Abercrombie, D. · 240, 282, 330, 350 Adam, J.-M. · 119, 122 Adams, C. · 227 Allen, J.F. · 289, 298, 301 Anderson, A. · 401 Anderson, M.J. · 331 Anderson, S.R. · 73 André, C., · 197, 411 Anstey, M.P. · 147 Ariel, M. · 164, 165, 177, 262, 263 Armstrong, L.E. · 240 Arnauld, A. · 41 Aston, C. H. · 227 Auer, P. · 283, 285, 287 Auran, C. · 1, 235, 237, 239, 321, 337, 362, 392, 394 Austin, J.L. · 20, 21, 26, 27, 29, 30, 31, 33, 34, 35, 112,

145 Ayer, A.J. · 28 Aylett, M. · 272

B

Bakhtine, M. · 111, 112, 145 Bally, C. · 111 Bard, E. · 272, 401 Bar-Hillel, Y. · 63, 191, 194 Barwise J. · 168 Bates, E. · 392, 394 Batliner, A. · 218 Baumann, S. · 272 Beaugendre, F. · 206 Beckman, M. · 198, 209, 213, 241, 253, 286 Benveniste, E. · 71, 72, 73, 101, 123 Berinstein, A. E. · 228 Berrendonner, A. · 112, 124, 125, 402 Bertrand, R. · 25, 246, 254, 258 Blache, P. · 122, 394 Blakemore, D. · 76, 127, 130, 151 Blanche-Benveniste, C. · 123, 283 Bloor, T. · 95 Boersma, P. · 238, 323, 329 Böhner, P. · 21 Bolinger, D. L. · 226, 227, 275, 302 Bosch, P. · 139, 268 Bouzon, C. · 240, 282, 314, 316, 321, 330, 337, 345, 351 Brassac, A.. · 112, 144 Brazil, D. · 288, 289 Brennan, S., · 169, 170, 174, 176, 266 Brinker, K. · 93 Brown, G. · 20, 57, 119, 120, 153, 283, 284, 286, 288,

289, 290, 291, 292, 295, 299 Brown, P. · 58 Brown, R. · 67 Buchwald, A. · 122 Bühler, K. · 19, 91 Byron, D. · 263

C

Campbell, N. · 213, 221, 222, 224, 237, 337 Campione, E. · 233 Caplan, D. · 194, 253 Carlson, R. · 217, 219 Carnap, R. · 27 Carter Thomas, S. · 102, 118 Cavé, C. · 411 Chafe, W. · 96, 98, 166, 285 Chan, D. · 176 Charolles, M. · 19, 60, 61, 62, 63, 75, 93, 94, 101, 102,

123, 152, 154, 157, 160, 194, 265 Cherry, E.C. · 253 Choi-Jonin, I. · 283 Chomsky, N. · 4, 77, 101, 194, 275, 279 Christophe, A. · 252, 253, 324, 345 Church, A. · 24 Clark, H. · 98 Collier, R. · 202 Combettes, B. · 123 Corblin, F. · 152, 157, 158, 159 Cornish, F. · 6, 39, 57, 64, 67, 77, 78, 118, 119, 120, 121,

124, 139, 140, 141, 145, 146, 150, 152, 154, 155, 156, 157, 160, 161, 162, 163, 166, 172, 173, 176, 177, 178, 180, 181, 261, 407, 437

Cosmides L. · 216 Couper-Kuhlen, E. · 210, 217, 240, 253, 254, 255, 273,

275, 284, 288, 289, 292 Cristea, D. · 176 Cruttenden, A. · 240, 298, 338, 340 Crystal, D. · 190, 192, 196, 197, 200, 214, 215, 220, 240,

302 Culioli, A. · 9, 23, 145, 202, 203, 206, 231 Cutler, A. · 194, 253

D

Daelemans, W. · 331 Dahl, Ö. · 97 Dalsgaard, P. · 346 Damper, R.I. · 330, 331 Danon-Boileau, L, · 204, 205, 206, 207, 284, 288 Darwin, C.J. · 253 Delais-Roussarie, E. · 283 Delattre, P. · 298 Di Cristo, A. · 1, 3, 10, 123, 189, 190, 194, 195, 198, 199,

200, 201, 206, 207, 208, 209, 210, 211, 213, 216, 217, 224, 225, 227, 230, 231, 232, 234, 235, 236, 237, 238, 252, 253, 257, 258, 260, 277, 279, 282, 292, 300, 302, 305, 344, 362, 394, 437

Di Cristo, P. · 353 Di Luzio, A. · 287 Dik, S.C. · 39 Divay, M. · 331 Du Bois, J.W. · 285 Dubois, B. · 95

Index des auteurs

452

Ducrot, O. · 40, 47, 81, 111 Duez, D. · 294, 296 Dutoit, T. · 239 Dyscole, A. · 40, 42, 83

E

Eastmond, J.F.G. · 331 Ehlich, K. · 139 Errington, R. · 58 Eskenazi, M. · 10 Espesser, R. · 233 Eugenio Di, · 176

F

Fant, G. · 214, 219, 222, 224 Ferreira, F. · 253 Fillmore, C. J. · 58, 72 Firbas, J. · 94, 97 Firth, J. R. · 197 Fodor, J. · 3, 277 Fon, J. · 292 Fossard, M. · 404 Fox, A. · 283, 302 Francis, G. · 95, 121, 141, 437 Frege, G. · 21, 23, 24, 25, 26 Fretheim, T. · 94 Fries, P. · 95, 96 Fromkin, V. · 279 Fry, D. B. · 226, 227 Fujisaki, H. · 231

G

Gaiffe B. · 157, 158 Garside, R. · 326 Geach, P.T. · 83, 139, 143 Geluykens, R. · 286, 295 Ghio, A., · 411 Gibbon, D. · 226 Gimson, A. C. · 226, 338, 340, 341 Girault-Duvivier, C.-P. · 41 Gobl, C. · 221, 222, 224, 290, 292 Goldsmith, J. · 240 Gordon, P. · 176 Green, G. · 58, 59 Greenberg, S. · 227, 228 Grice, H.P. · 21, 26, 32, 35, 36, 110, 127, 194, 272 Grice, M. · 21, 26, 32, 35, 36, 110, 127, 194, 272 Grize, J.-B. · 119 Grobet, A. · 164, 284, 289, 414 Grosjean, F. · 253, 285 Grosz, B. · 88, 103, 104, 105, 106, 107, 109, 117, 118,

124, 130, 143, 145, 167, 168, 169, 170, 171, 173, 176, 178, 179, 181, 269, 283, 288, 289, 290

Gruber, J.S. · 279 Gumperz, J.J. · 119, 287 Gundel, J. K. · 94, 100, 164, 165, 166, 177, 262, 263 Gussenhoven, C. · 240, 254, 255, 289

H

Halle, M. · 214, 215, 219, 225, 279 Halliday, M.A.K. · 20, 57, 79, 83, 95, 96, 97, 100, 102,

136, 137, 138, 139, 240, 255, 264, 282, 392 Harris, Z. · 93 Hasan, R. · 57, 79, 83, 97, 102, 136, 137, 138, 139, 392 Hatekeyama, K. · 102 Haviland, S. · 98 Hawkins, J. A. · 141, 152, 157, 158 Heim, I. · 176 Hengeveld, K. · 147 Herment-Dujardin, S. · 213 Hickmann, M. · 68, 69, 70, 71 Hird, K. · 302, 389, 390 Hirschberg, J. · 264, 265, 288, 289, 290, 291, 292, 295,

296, 298, 299 Hirst, D. J. · 1, 9, 189, 196, 198, 199, 201, 202, 203, 204,

207, 209, 210, 211, 218, 222, 225, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239, 240, 242, 243, 244, 245, 246, 253, 254, 255, 256, 258, 259, 260, 263, 275, 276, 279, 282, 286, 288, 289, 298, 300, 306, 314, 316, 333, 344, 345, 350, 353, 362, 363, 392, 437

Hirt, C. · 253, 285 Hobbs, J. · 110, 122, 179 Hoop De, H. · 268 Hovy, E. · 178 Huang, Y. · 166 Huffman, M.K. · 223 Hukin, R.W. · 253

I

Ide, N. · 176

J

Jakobson, R. · 19, 214, 215, 219 Jankowski, L. · 227 Jassem, W. · 226, 240, 282, 350, 351 Jensen, C. · 225 Johnson-Laird, P.N. · 37, 38 Jones, D. · 225, 226, 338, 342 Joshi, A. · 167, 168

K

Kameyama, M. · 176, 266, 267, 268, 269, 271 Kaplan, D. · 61, 62 Karmiloff-Smith, A. · 67, 68, 69, 70, 71 Kehler, A. · 173, 175, 176 Kingdon, R. · 240, 282 Klatt, D.H. · 337 Kleiber, G. · 76, 78, 154, 156, 158, 159, 194 Knott, A. · 178, 179 Knowles, G. · 291, 326, 327, 335 Konopczynski G. · 194, 252 Kripke, S. · 21 Kuno, S. · 97

Index des auteurs

453

L

Lacheret-Dujour, A. · 206 Ladd, D. R. · 190, 197, 206, 210, 214, 215, 216, 217, 218,

244, 264, 265, 300 Lakoff, G. · 160, 194, 266 Lehiste, I. · 197, 213, 214, 284, 288, 289 Levelt, W. · 275, 276, 277, 302, 437 Levinson, S. · 30, 57, 58, 59, 60, 71, 72, 73, 81, 82, 83,

138, 142, 143, 144, 190, 191, 194, 273 Lyons, J. · 20, 21, 39, 56, 57, 58, 64, 65, 71, 72, 73, 83,

119, 120, 139, 143

M

Maddieson, I. · 220, 223, 224, 279 Maingueneau, D. · 93 Mann, W.C. · 105, 110, 122, 177, 178, 179 Maratsos, M.P. · 67 Marconi, D. · 24, 25, 27, 28, 29, 36 Marr, D. · 38 Martin, J. R. · 95, 178 Martin, P. · 95, 178, 282 Martinet, A. · 193, 195, 197 Mathesius, V. · 94, 96, 263 Mertens, P. · 231, 284, 291 Milner, J.-C. · 20, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56,

75, 76, 78, 84, 88, 123, 149, 152, 153 Moeschler, J. · 6, 51, 56, 59, 75, 76, 77, 91, 93, 103, 123,

124, 127, 150, 190, 401 Morel, M.-A. · 204, 205, 206, 207, 284, 288 Morris, C. · 36, 191, 192 Morton R. · 244 Munro, R. R. · 227

N

Nakajima, S. · 289, 298, 301 Nakatani L. H. · 227 Nakatani, C. · 269, 270, 271, 272 Navarro, H. · 283 Nespor, M. · 275 Nicol, J.L. · 404, 406, 407 Nicole, P. · 41 Nølke, H. · 116 Nunberg, G. · 60, 61, 62, 63, 74, 80, 81 Nwogu, K. · 95

P

Palmer, H. E. · 240, 264, 302 Partee, B.H. · 81 Patterson, D. · 216, 217 Peirce, C.S. · 23, 60 Perry, J. · 61, 168 Petöfi J. · 102 Pierrehumbert, J.B. · 209, 241, 264, 286, 291, 298 Pijper, J.R. · 253 Pike, E. · 123, 192, 193, 197, 206, 214, 226 Pike, K. · 123 Portes, C. · 216, 217, 279, 298 Price, P.J. · 253

Prince, E. · 97, 98, 99, 100, 117, 118, 119, 140, 164, 177 Pulgram, E. · 350 Pulleyblank, D. · 279

R

Rabiner L.R. · 345 Reboul, A. · 6, 51, 56, 59, 75, 76, 77, 91, 93, 103, 123,

124, 127, 150, 153, 190, 401 Reinhart, T. · 93, 164 Remijsen, B. · 244 Rietveld, T. · 253 Rips, L.J. · 38 Roach, P. · 327 Roberts, C. · 176 Rooth, M. · 267 Rossi, M. · 195, 196, 197, 198, 210, 231, 237, 294 Roulet, E. · 103, 110, 111, 112, 115, 116, 118, 123, 124,

125, 126, 144, 145, 181, 273, 288 Rumelhart, D.E. · 331 Russell, B. · 28, 36

S

Sabah, G. · 117 Salmon-Alt, S. · 152, 157, 158, 161 Sampson, G. · 279 Sanderman, A.A. · 253 Sanders, T. · 60, 178, 179, 180 Sapir, E. · 192 Schaffer, J.A. · 253 Schiffrin, D. · 93 Schlick, M. · 27 Schnedecker, C. · 154 Schubiger, M. · 240 Schuetze-Coburn, S. · 301 Scott, N. C. · 226 Searle, J. · 21, 23, 26, 33, 34, 35, 112, 121, 122, 124, 144,

145, 147, 194 Selkirk, E. · 276, 282, 286 Seriot, P. · 40 Shillcock, R. · 406 Sidner, C. · 88, 103, 104, 105, 106, 107, 109, 117, 118,

124, 130, 143, 145, 167, 178, 179, 181, 269, 283 Silipo, R. · 227, 228 Silverman, K. · 234, 289, 363 Simon, A.-C. · 116, 204, 205, 206, 283, 284, 288, 289,

291, 414 Sluitjer, A. · 212, 213 Smith H. · 67, 70, 290, 292 Sperber, D. · 30, 33, 76, 127, 264 Steele, J. · 196 Strawson, P. · 157 Streefkerk, B. M. · 227, 228 Swerts, M. · 265, 286, 289, 295, 301, 389, 390, 399 Swinney, D.A. · 404, 406, 407

T

Tasmowski-De Ryck, L. · 160, 265 Terken, J.M.B. · 227, 228, 231, 265, 301, 389 Terras, M. · 404 Teston, B. · 411

Index des auteurs

454

Thompson, S. · 110, 122, 177, 178, 179 Thorsen, N. · 301, 389 Toupin F. · 66, 151 Trognon, A. · 112, 144 Troubetzkoy, N. · 208, 234, 254 Trouilleux, F. · 76 Tyvaert, J.-E. · 194

V

Van Den Bosch, A. · 331 Vanderveken, D. · 35, 112, 144 Vergnaud, J.-R. · 225 Vernant, D. · 145, 146 Verschueren, J. · 20, 190, 194 Vion, R. · 20 Vitale, A.J. · 331 Viterbi, A. · 344, 345, 354 Vogel, I. · 275

W

Walker, M. · 167, 168, 169, 170, 176, 177 Wang, V.S.–Y. · 279 Ward, I. C. · 240

Weenink, D. · 238, 323, 329 Weinstein S. · 167, 168 Wells, J.C. · 332, 338 Wells, W.H.G. · 264 Werlich, E. · 93, 95 Wichmann, A. · 1, 253, 254, 273, 283, 284, 288, 289,

291, 292, 298, 301, 302, 303, 327, 389, 390 Widdowson, H.G. · 119 Wightman, C. · 363 Williams, B. · 326, 328, 329, 380 Williams, R. · 326, 328, 329, 380 Wittgenstein, L. · 21, 26, 27, 28, 29, 33, 35, 36, 37, 39 Wolters, M. · 263 Woo, N. · 279

Y

Yip, M. · 279 Yule, G. · 20, 57, 119, 120, 153, 154, 283, 284, 286, 288,

289, 290, 291, 292, 295, 299

Z

Ziv, Y. · 154 Zribi-Hertz, A. · 65, 153

455

Bibliographie

A ABERCROMBIE, D. (1967), Elements of General Phonetics, Edinburgh, Edinburgh

University Press.

ADAM, J.-M. (1990), Eléments de Linguistique Textuelle, Liège, Mardaga.

ADAMS, C. & MUNRO, R. R. (1978), « In search of the acoustic correlates of stress:

fundament al frequency, amplitude and duration in the connected utterance of some

native and non-native speakers of English », Phonetica 35, pp. 125-156.

ALLESSANDRO d’, C. & MERTENS, P. (1995), « Automatic pitch-contour stylisation

using a model of tonal perception», Computer Speech and Language 9, pp. 257-288.

ALMOG, J., PERRY, J. & WETTSTEIN, H. (1989), Themes from Kaplan, New York,

Oxford University Press.

ANDERSON, S.R. & KEENAN, L.K. (1985), « Deixis », in Shopen T. (ed.), Language

typology and syntactic description: Grammatical categories and the lexicon, Volume 3,

Cambridge, England, Cambridge University Press, pp. 259–308.

ANDRÉ, C., GHIO, A., CAVÉ, C. & TESTON, B. (2003), « PERCEVAL: a Computer-

Driven System for Experimentation on Auditory and Visual Perception », in

Proceedings of 15th ICPhS, Barcelona, pp. 1421-1424.

ANSTEY, M.P. (2002), « Layers and Operators Revisited », Working Papers in Functional

Grammar 77, pp. 1-37.

APOTHELOZ, D. (1995), Rôle et fonctionnement de l’anaphore dans la dynamique

textuelle, Genève, Droz.

ARIEL, M. (1994), « Interpreting anaphoric expressions: A cognitive versus a pragmatic

approach », Journal of Linguistics 30 (1), pp. 197-260.

ARIEL, M. (1996), « Referring Expressions and the +/- Coreference Distinction », in J.

Gundel and T. Fretheim (eds.), Reference and referent accessibility, Amsterdam, John

Benjamins, pp. 13-35.

ARIEL, M. (2000), « The development of person agreement markers: From pronoun to

higher accessibility markers », in M. Barlow & S. Kemmer (eds.), Usage-based models

of language, Stanford, CSLI, pp. 197-260.

ARMSTRONG, L.E. & WARD, I. C. (1926), A Handbook of English Intonation, Leipzig,

Teubner.

Bibliographie

456

ARNAULD, A. & NICOLE, P. (1970), La logique ou l’art de penser, Paris, Flammarion

(réédition du texte original de 1683)

AUER, P. (1996), « On the prosody and syntax of turn-continuations », in E. Couper-Kuhlen

& M. Selting (eds.), Prosody in conversation: interactional studies, Cambridge,

Cambridge University Press, pp. 87-100.

AUER, P. & DI LUZIO, A. (1992), The Contextualization of Language, Amsterdam et

Philadelphie, Benjamins.

AURAN, C. & BOUZON, C., (2003), « Phonotactique prédictive et alignement automatique

: application au corpus MARSEC et perspectives », TIPA 22, pp. 33-64.

AURAN, C., BOUZON, C. & HIRST, D. J. (2004a), « The Aix-MARSEC project: an

evolutionary database of spoken British English and automatic tools », Speech Prosody

2004, Nara, pp. 561-564.

AURAN, C., BOUZON, C., HIRST, D. J., LEVY, C. & NOCERA, P. (2004b),

« Algorithme de prédiction d’élisions de phonèmes et influence sur l’alignement

automatique dans le cadre du projet Aix-MARSEC », Journée d'Etude de la Parole

2004, Fès, pp. 133-136.

AURAN, C., BOUZON, C. & HIRST, D. J. (2004c), « ProZed: an Editor for the Automatic

Processing of Prosodic Variation », PAC Workshop, Toulouse. (www.lpl.univ-

aix.fr/~auran/ressources/Auran_Bouzon/Hirst_PAC_ProZEd.pps)

AURAN, C. & DI CRISTO, A. (2003), « Towards Automatic Annotation of Temporal

Features in Discourse: the Case of Syllabic Duration in Spontaneous French », in

Proceedings of 15th ICPhS, Barcelona, pp. 2957-2960.

AUSTIN, J.L. (1946), « Other Minds », Proceedings of the Aristotelian Society 20, pp. 148-

187.

AUSTIN, J. (1962), How to Do Things with Words, Oxford, Clarendon Press.

AUSTIN, J. (1970a), Quand dire, c’est faire, Paris, Seuil (traduction de Austin 1962).

AUSTIN, J.L. (1970b), Philosophical Papers, Oxford, O.U.P.

AUSTIN, J.L. (1971), «Performative-Constative » in Searle J.(ed.), Philosophy of Language,

Oxford, O.U.P, pp. 13-22.

AYER, A.J. (1936), Language, Truth and Logic, London, Victor Gollancz.

B BAKHTINE, M. (1977), Le marxisme et la philosophie du langage, Paris, Minuit.

BALLY, C. (1944), Linguistique générale et linguistique française, Berne, Francke.

Bibliographie

457

BARD, E. & AYLETT, M. (1999), « The dissociation of deaccenting, givenness, and

syntactic role in spontaneous discourse », in Proceedings of the XIVth International

Congress of Phonetic Sciences (ICPhS’99), San Francisco, pp. 1753-1756.

BARD, E., ANDERSON, A., SOTILLO, C., NEWLANDS, A., DOHERTY-SNEDDON,

G. & AYLETT, M. (2000), « Controlling the Intelligibility of Referring Expressions in

Dialogue », Journal of Memory and Language 42 (1), pp 1-22.

BAR-HILLEL, Y. (1954), « Indexical Expressions », Mind 63, pp. 359-379.

BAR-HILLEL, Y. (1971), Pragmatics of Natural Language, Dordrecht, Reidel.

BARWISE J. & PERRY J. (1983), Situations and Attitudes, Cambridge, Mass., MIT Press.

BATES, E., & MACWHINNEY, B. (1982), « Functionalist approaches to grammar », in E.

Wanner & L. Gleitman (eds.), Language acquisition the state of art, Cambridge,


BATLINER, A., KIEßLING, A., KOMPE, R., NIEMANN, H. & NÖTH, E. (1997),

« Tempo and its Change in Spontaneous Speech », in Proceedings of the European

Conference on Speech Communication and Technology, vol. 2, Rhodes, pp. 763-766.

BAUMANN, S. & GRICE, M. (2004), « Accenting Accessible Information », Proceedings

of Speech Prosody 2004, Nara, pp. 21-24.

BEAUGRANDE De, R. (1980), Text, Discourse and Process, London, Longman.

BEAUGRANDE De, R. & DRESSLER, W. (1981), Introduction to Text Linguistics,

London, Longman.

BECKMAN, M. (1986), Stress and non-stress accent, Netherlands Phonetic Archives 7,

Dordrecht, Foris.

BENVENISTE, E. (1966), Problèmes de linguistique générale, T. 1, Paris , Gallimard.

BERINSTEIN, A. E. (1979), « A cross-linguistic study on the perception and production of

stress », UCLA Working Papers in Phonetics 47, pp. 1-59.

BERRENDONNER, A. (1983), « Connecteurs pragmatiques et anaphores », Cahiers de

linguistique française 5, pp. 215-246.

BERRENDONNER, A. (1990), « Pour une macro-syntaxe », Travaux de Linguistique 21,

pp. 25-36.

BERTRAND, R. (1999), De l'hétérogénéité de la parole. Analyse énonciative de

phénomènes prosodiques et kinésiques dans l'interaction interindividuelle, Thèse de

Doctorat, Université de Provence.

BHÜLER, K. (1934), Sprachtheorie, Jena, Gustav Fischer.

Bibliographie

458

BLACHE, P. (2001), Les Grammaires de Propriétés : des contraintes pour le traitement

automatique des langues naturelles, Paris, Hermès Sciences.

BLACHE, P. & DI CRISTO, A. (2002), « Variabilité et dépendance des composants

linguistiques », TALN 2002, Nancy, pp.

BLAKEMORE, D. (1987), Semantic constraints on relevance, Oxford, Blackwell.

BLAKEMORE, D. (2002), Relevance and Linguistic Meaning. The Semantics and

Pragmatics of Discourse Markers, Cambridge, Cambridge University Press.

BLANCHE-BENVENISTE, C., BILGER, M., ROUGET, C. & EYNDE Van Den, K.

(1990), Le français parlé. Etudes grammaticales, Paris, Editions du CNRS.

BOERSMA, P. & WEENINK, D. (1996), Praat, a System for doing Phonetics by Computer,

version 3.4, Institute of Phonetic Sciences of the University of Amsterdam, Report 132.

BOERSMA, P. & WEENINK, D. (2000), Praat: a system for doing phonetics by computer,

htttp://www.fon.hum.uva.nl/praat/.

BÖHNER, P. (1952), Medieval Logic: An Outline of Its Development from 1250 to c. 1400,

Manchester, Manchester University Press.

BOLINGER, D. L. (1958), « A theory of pitch accent in English », Word 14 (2-3), pp.

109-149.

BOLINGER, D. L. (1972), « Accent is predictable (if you are a mind reader) », Language

48, pp. 633-644.

BOLINGER, D. L. (1989), Intonation and its Uses, London, Edward Arnold.

BOSCH, P. (1983), Agreement and Anaphora: A Study of the Role of Pronouns in Syntax and

Discourse, London, Academic Press.

BOUZON, C. (2004), Rythme et structuration prosodique en anglais britannique

contemporain, Thèse de Doctorat, Université de Provence.

BOUZON C., AURAN C. & HIRST, D. J. (2003), « Phonétisation, alignement et

association dans les grands corpus oraux en anglais », INTO 01, May 22-24 2003,

Rouen.

BRAZIL, D. (1975), Discourse intonation, Discourse analysis monographs n 1, Birmingham,

The University of Birmingham, English Language Research.

BRENNAN, S., (1995), « Centering attention in discourse », Language and Cognitive

Processes 10 (2), pp. 137-167.

BRENNAN, S., WALKER, M. & POLLARD, C. (1987), « A centering approach to

pronouns », in Proceedings of the 25th Annual Meeting of the ACL, Stanford, pp. 155-

162.

Bibliographie

459

BRINKER, K. (1973), « Zum Textbegriff in der heutigen Linguistik », IDS 30, pp. 9-41

BROWN, G. (1977), Listening to Spoken English, London, Longman.

BROWN, G., CURRIE K.L. & KENWORTHY, G. (1980), Questions of intonation,

London, Croom Helm.

BROWN, G. & YULE, G. (1983), Discourse Analysis, Cambridge, Cambridge University

Press.

BROWN, P. & LEVINSON, S. (1987), Politeness: Some universals in language usage,

Cambridge, Cambridge University Press.

BROWN, R. (1973), A First Language, London, George Allen and Unwin.

BUCHWALD, A., SCHWARTZ, O., SEIDL, A. & SMOLENSKY, P. (2002),

« Recoverability Optimality Theory: Discourse Anaphora in a Bidirectional

framework », in Bos, Foster & Matheson (eds.), Proceedings of the sixth workshop on

the semantics and pragmatics of dialogue (EDILOG 2002), pp. 37-44.

BÜHLER, K. (1934), Sprachtheorie, Jena, Fischer.

BÜHLER, K. (1982), « The deictic field of language and deictic words », extracts in English

from Bühler (1934), in Jarvella, R. & Klein, W. (eds.), Speech, Place and Action:

Studies in Deixis and Related Topics, Chichester, John Wiley, pp. 12-28.

C CAMPBELL, N. (1992), Multi-level Timing in Speech, PhD Thesis, University of Sussex.

CAMPBELL, N. (1995), « Loudness, spectral tilt, and perceived prominence in dialogues »,

in Proceedings of the XIIIth International Congress of Phonetic Sciences, Stockholm,

pp. 676-679.

CAMPBELL, N. & BECKMAN, M. (1995), « Stress, Loudness and Spectral Tilt », in

Proceedings of the Acoustical Society of Japan, Spring meeting, 3-4-3.

CAMPIONE, E. (2001), Etiquetage semi-automatique de la prosodie dans les corpus oraux :

algorithmes et méthodologie, Thèse de Doctorat, Université de Provence.

CAMPIONE, E., FLACHAIRE, E., HIRST, D.J. & VERONIS, J. (1997), « Stylisation

and symbolic coding of F0, a quantitative model », in Intonation: Theory, Models and

Applications. Proceedings of an ESCA Workshop, Athènes, pp. 71-74.

CANDEA, M. (2000), Contribution à l’étude des pauses silencieuses et des phénomènes dits

« d’hésitation » en français oral spontané, Thèse de Doctorat, Université de Paris III.

CAPLAN, D. (1987), Neurolinguistics and Linguistic Aphasiology, Cambridge, Cambridge

University Press.

Bibliographie

460

CARLSON, R., ELENIUS, K. & SWERTS M. (2004), « Perceptual Judgments of Pitch

Range », in Proceedings of Speech Prosody 2004, Nara, pp. 689-692.

CARNAP, R. (1928), Der logische Aufbau der Welt, Hambourg, Meiner.

CARTER THOMAS, S. (2000), La cohérence textuelle, Paris, L’Harmattan.

CHAFE, W. (1976), « Givenness, contrastiveness, definiteness, subjects, topics and point of

views », in C. Li (ed.), Subject and Topic, New York, Academic Press, pp. 25-55.

CHAFE, W. (1987), « Cognitive constraints on information flow », in R. Tomlin (ed.),

Coherence and Grounding in Discourse, Amsterdam, Benjamins, pp. 21-51.

CHAFE, W. (1994), Discourse, consciousness and time: the flow and displacement of

conscious experience in speaking and writing, Chicago, IL, Chicago University Press.

CHAROLLES, M. (1978), « Introduction au problème de la cohérence des textes », Langue

Française 38, pp. 7-41.

CHAROLLES, M. (1988), « Les études sur la cohérence, la cohésion et la connexité

textuelles depuis la fin des années 1960 », Modèles Linguistiques 10 (2), pp. 45-66.S

CHAROLLES, M. (2002), La référence et les expressions référentielles en français, Paris,

Ophrys.

CHERRY, E.C. (1953), « Some experiments on the recognition of speech, with one and with

two ears », Journal of the Acoustical Society of America 25, pp. 975-979.

CHOMSKY, N. (1962), « Explanatory Models in Linguistics », in E. Nagel, P. Suppes & A.

Tarski (eds), Logic, Methodology and Philosophy of Science, Stanford, Stanford

University Press, pp. 528-550.

CHOMSKY, N. (1978), « Language and Unconscious Knowledge», in J.H. Smith (ed.),

Psychoanalysis and Language, Psychiatry and the Humanities, vol. 3, New Haven, Yale


CHOMSKY, N. (1981), Lectures on Government and Binding: The Pisa Lectures, Holland,

Foris Publications.

CHOMSKY, N. & HALLE, M. (1968), The Sound Pattern of English, New York, Harper &

Row.

CHRISTOPHE, A., GOUT, A., PEPERKAMP, S. & MORGAN, J. (2003), « Discovering

words in the continuous speech stream: the role of prosody », Journal of Phonetics 31,

pp. 585-598.

CHURCH, A. (1956), Introduction to Mathematical Logic I, Princeton, Princeton University

Press.

Bibliographie

461

CLARK, H. & HAVILAND, S. (1977), « Comprehension and the given-new contract », in

R. Freedie (ed.), Discourse Production and Comprehension, Hillsdale, N.J., Lawrence

Erlbaum Associates, pp. 1-40.

COMBETTES, B. (1986a), « Coréférence et connexité thématique dans le discours », in M.

Charolles (éd.), Research in Text Coherence, Hamburg, Helmut Buske Verlag, pp. 101-

125.

COMBETTES, B. (1986b), « Introduction et reprise des éléments d'un texte », Pratiques

49, pp. 69-84.

COMBETTES, B. (1988), Pour une grammaire textuelle, Paris-Gembloux, De

Boeck/Duculot.

CORBLIN, F. (1987), Indéfini, défini et démonstratif. Constructions linguistiques de la

référence, Genève, Droz.

CORBLIN, F. (1995), Les formes de reprise dans le discours :anaphores et chaînes de

référence, Rennes, Presses Universitaires de Rennes.

CORBLIN, F. (2002), « Les chaînes de la conversation et les autres », Institut Jean Nicod,

http://jeannicod.ccsd.cnrs.fr/documents/disk0/00/00/01/40/ijn_00000140_00/ijn_000001

40_00.PDF

CORNISH, F. (1986), Anaphoric Relations in English and French: A Discourse Perspective,

London, Croom Helm.

CORNISH, F. (1990), « Anaphore pragmatique, référence et modèles du discours », in G.

Kleiber & J. Tyvaert (eds.), L’anaphore et ses domaines, Paris, Klincksieck, pp. 81-96.

CORNISH, F. (1996), « Coherence: the lifeblood of anaphora », Belgian Journal of

Linguistics 10, pp. 37-54.

CORNISH, F. (1999), Anaphora, Discourse and Understanding, Oxford, Oxford University

Press

CORNISH, F. (2003a), « The roles of (written) text and anaphore-type distribution in the

construction of discourse », Text 23 (1), pp. 1-26.

CORNISH, F. (2003b), « Types de relations de discours entre énoncés : interaction avec

l’anaphore transphrastique », Cahiers du CRISCO 12, pp. 69-84.

COSMIDES L. (1983), « Invariances in the acoustic expression of emotion during speech »,

Journal of Experimental Psychology: Human Perception and Performance 9 (6), pp.

864-881.

COUPER-KUHLEN, E. (1986), An Introduction to English Prosody, London, Arnold.

Bibliographie

462

COUPER-KUHLEN, E. (1998), « On High Onsets and their Absence in Conversational

Interaction », InLiSt - Interaction and Linguistic Structures 8, URL: <http://inlist.uni-

konstanz.de/issues/8/index.htm>.

COUPER-KUHLEN, E. (2001), « Intonation and discourse: Current views from within », in

D. Schiffrin, D. Tannen & H. Hamilton (eds.), Handbook of Discourse Analysis,

Oxford, Blackwell, pp. 13-34.

CRAIK, K. (1943), The Nature of Explanation, Cambridge, Cambridge University Press.

CRISTEA, D., IDE, N. & ROMARY L. (1998), « Veins Theory. An Approach to Global

Cohesion and Coherence », in Proceedings of Coling/ACL, Montreal.

CRISTEA, D., IDE, N., MARCU, D. & MIHAI-VALENTIN, T. (2000), « Discourse

Structure and Co-Reference: An Empirical Study », in Proceedings of the 18th

International Conference on Computational Linguistics COLING'2000, Luxembourg.

CRUTTENDEN, A. (1981), « Falls and Rises: meanings and universals », Journal of


CRUTTENDEN, A. (1986/1997), Intonation, Cambridge, Cambridge University Press.

CRUTTENDEN, A. (1997), Gimson’s Pronunciation of English, Fifth edition, Londonn,

Arnold.

CRUTTENDEN, A. (2001), « Mancunian Intonation and intonational Representation »,

Phonetica 58 (1-2), pp. 53-80.

CRYSTAL, D. (1969), Prosodic Systems and Intonation in English, Cambridge, Cambridge

University Press.

CRYSTAL, D. (1975), The English Tone of Voice: Essays in Intonation, Prosody and

Paralanguage, London, Arnold.

CULIOLI, A. (1990), « La linguistique : de l’empirique au formel », in Pour une linguistique

de l’énonciation : Opérations et représentations, Tome 1, Paris, Ophrys : pp. 9-46.

CUTLER, A., DAHAN, D. & DONSELAAR, W. (1997), « Prosody in the Comprehension

of Spoken Language : A Literature Review », Language and Speech 40(2), pp. 141-201.

D DAELEMANS, W., VAN DEN BOSCH, A. & WEIJTERS, T. (1997), « IGTree: Using

trees for compression and classification in lazy learning algorithms », Artificial

Intelligence Review 11, pp. 407-423.

Bibliographie

463

DAHL, Ö. (1976), « What is new information ? », in N. Enkvist & V. Kohonen, (eds.),

Report on Text Linguistics: Approaches to Word Order, Åbo, Finlande, Åbo Akademi

Foundation.

DALSGAARD, P., ANDERSEN, O & BARRY, W. (1991), « Multi-lingual alignment using

acoustic-phonetic features derived by neural-network technique », ICASSP 91, pp. 197-

200.

DAMPER, R.I. (2001), Data-Driven Techniques in Speech Synthesis, Kluwer Academic

Publishers.

DAMPER, R.I. & EASTMOND, J.F.G. (1997), « Pronunciation by analogy: impact of

implementational choices on performance », Language and Speech 40 (1), pp. 1-23.

DAMPER, R.I., MARCHAND, Y., ANDERSON, M.J. & GUSTAFSON, K. (1999),

« Evaluating the pronunciation component of text-to-speech systems for English: a

performance comparison of different approaches », Computer Speech and Language 13

(2), pp. 155-176.

DANES, F. (1964), « A Three-Level Approach to Syntax », Travaux linguistiques de

Prague 1, pp. 225-240.

DANES, F. (1974), « Functional Sentence Perspective and the Organization of the Text », in

F. Danes (ed.), Papers on Functional Sentence Perspective, Prague, Academia, pp. 106-

128.

DANES, F. (ed.) (1974), Papers on Functional Sentence Perspective, Prague, Academia.

DARWIN, C.J. & HUKIN, R.W. (2000), « Effectiveness of spatial cues, prosody and

stalker characteristics in selective attention », Journal of the Acoustical Society of

America 107 (2), pp. 970-977.

DELAIS-ROUSSARIE, E. & CHOI-JONIN I. (2004), « Existent-ils des indices intonatifs

de segmentation en unités macro-syntaxiques ? », in Actes de JEP/TALN 2004, Fez, pp.

DELATTRE, P. (1966), « Les dix intonations de base du français », The French Review 40

(1), pp. 1-14.

DE RIJK, L.M (1962), Logica Modernorum, Assen, Van Gorcum, vol. I.

DE RIJK, L.M (1967), Logica Modernorum, Assen, Van Gorcum, vol. II.

DI CRISTO, A. (1978), De la microprosodie à l’intonosyntaxe, Thèse de Doctorat d’Etat,

Université de Provence.

DI CRISTO, A. (1999), « Vers une modélisation de l’accentuation en français (première /

seconde partie) », Journal of French Language Studies 9 (2) / 10 (1), pp. 143-163 / 27-

45.

Bibliographie

464

DI CRISTO, A. (2000), « La problématique de la prosodie dans l’étude de la parole dite

spontanée », Revue Parole 15-16, pp. 189-250.

DI CRISTO, A., AURAN, C., BERTRAND, R., CHANET, C., PORTES, C. &

REGNIER, A. (2004), « Outils prosodiques et analyse du discours », CILL 28, pp. 27-

84.

DI CRISTO, A., DI CRISTO, P. & VERONIS, J. (1997), « A metrical model of rhythm

and intonation for French text-to-speech synthesis », in Intonation: Theory, Models and

Applications. Proceedings of an ESCA Workshop, Athènes, pp. 83-86.

DI CRISTO, A. & HIRST, D. J. (1986), « Modelling French Micromelody: Analysis and

Synthesis », Phonetica 43, pp. 11-30.

DI CRISTO, P. & HIRST, D.J. (1997), « Un procédé d’alignement automatique de

transcriptions phonétiques sans apprentissage préalable », 4° Congrès Français

d'Acoustique, vol. 1, Marseille.

DI CRISTO, A. & JANKOWSKI, L. (1999), « Prosodic Organisation and Phrasing after

Focus in French », in Proceedings of the XIVth International Congress of Phonetic

Sciences (ICPhS’99), San Francisco, pp. 1565-1568.

DIJK Van, T. (1972), Some Aspects of Text Grammars, La Haye, Mouton.

DIK, S.C. (1997), The Theory of Functional Grammar, i: The Structure of the Clause, Berlin,

Mouton de Gruyter.

DIVAY, M. & VITALE, A.J. (1997), « Algorithms for grapheme-phoneme translation for

English and French: Applications for databases searches and speech synthesis »,

Computational Linguistics 23, pp. 495-523.

DU BOIS, J.W., SCHUETZE-COBURN, S., PAOLINO, D. & CUMMING, S. (1992),

« Discourse Transcription », Santa Barbara Papers in Linguistics, Vol. 4, Department of

Linguistics, University of California, Santa Barbara.

DUBOIS, B. (1987), « A reformulation of thematic progression typology », Text 7 (2), pp.

89-116.

DUCROT, O. (1984), Le Dire et le dit, Paris, Minuit.

DUCROT, O. et al. (1980), Les mots du discours, Paris, Minuit.

DUEZ, D. (2001), « Caractéristiques acoustiques et phonétiques des pauses remplies dans la

conversation en français », Travaux Interdisciplinaires du Laboratoire Parole et

Langage 20, pp. 31-48.

DUTOIT, T., PAGEL, V., PIERRET, N., BATAILLE, F., VRECKEN Van Der, O.

(1996), « The MBROLA project. Towards a set of high-quality speech synthesisers free

Bibliographie

465

of use for non-commercial purposes », in Proceedings of ICSLP '96, vol. 3,

Philadelphia, pp. 1393-1396.

DYSCOLE, A. (1981), The Syntax of Apollonius Dyscolus, Amsterdam, Benjamins.

E EHLICH, K. (1982), « Anaphora and deixis: same, similar or different? », in R. Jarvella &

W. Klein (eds.), Speech, Place and Action: Studies in Deixis and related Topics,

Chichester, John Wiley, pp. 315-338.

ERRINGTON, R. (1988), Structure and style in Javanese, Philadelphia, Univ. of

Pennsylvania Press.

ESKENAZI, M. (1993), « Trends in Speaking Style Research », in Proceedings

Eurospeech’93, Berlin, pp. 501-509.

EUGENIO Di, . (1998), « Centering in Italian », in M. Walker, A. Joshi & E. Prince (eds.),

Centering in Discourse, Oxford University Press.

F FANT, G., LOLJENCRANTS, J. & LIN, Q. (1985), « A four parameter model of glottal

flow », STL-QPSR, Vol. 4, pp. 1-13.

FERREIRA, F., ANES, M.D. & HORINE, M.D. (1996), « Exploring the use of prosody

during language comprehension using the auditory moving window technique »,

Journal of Psycholinguistic Research 25, pp. 273-290.

FILLMORE, C. J. (1975), Santa Cruz lectures on deixis, Bloomington, Indiana University

Linguistics Club.

FIRBAS, J. (1964), « On defining the theme in functional sentence analysis », Travaux

linguistiques de Prague 1, pp. 267-280.

FIRBAS, J. (1976), « A study in the functional sentence perspective of the English and Slavonic

interrogative sentence », Brno Studies in English 12, pp. 9-57.

FIRTH, J. R. (1948), « Sounds and Prosodies », Transactions of the Philological Society, pp.

127-152.

FODOR, J. (1983), The modularity of mind, Cambridge, Mass., M.I.T. Press.

FON, J. (2002), A Cross-Linguistic Study on Syntactic and Discourse Boundary Cues in

Spontaneous Speech, Ph.D. Dissertation, Ohio State University.

FOSSARD, M. (1999), « Traitement anaphorique et structure du discours : étude

psycholinguistique des effets du focus de discours sur la spécificité de deux marqueurs

Bibliographie

466

référentiels : le pronom anaphorique ‘il’ et le nom propre répété », In Cognito 15, pp.

33-40.

FOX, A. (1973), « Tone sequences in English », Archivum Linguisticum 4, pp. 17-26.

FOX, A. (1984), « Subordinating and Coordinating Intonation Structures in the Articulation of

Discourse », in D. Gibbon & H. Richter (eds.), Intonation, Accent and Rhythm, Studies in

Discourse Phonology, Berlin, de Gruyter, pp. 120-133

FRANCIS, G. (1994), Labelling discourse: an aspect of nominal group lexical cohesion », in M.

Coulthard (ed.), Advances in Written Text Analysis, London, Routledge, pp. 83-101.

FREGE, G. (1892a), « Über Sinn und Bedeutung », in Zeitschrift für Philosophie und

philosophische Kritik, pp. 22-50.

FREGE, G. (1892b), « Über Begriff und Gegenstand », in Vierteljahreszeitschrift für

wissenschaftliche Philosophie, 16, 192-205.

FREGE, G. (1918), « Der Gedanke. Eine logische Untersuchung », in Beiträgezur

Philosophie des deutschen Idealismus, 143-157.

FREGE, G. (1971a), « Sens et dénotation », in Ecrits logiques et philosophiques, Paris,

Seuil, pp. 102-126 (traduction de Frege 1892a).

FREGE, G. (1971b), « Concept et objet », in Ecrits logiques et philosophiques, Paris, Seuil,

pp. 127-154 (traduction de Frege 1892b).

FREGE, G. (1971c), « La pensée », in Ecrits logiques et philosophiques, Paris, Seuil,

pp. 160-195 (traduction de Frege 1918).

FRIES, P. (1981), « On the status of theme in English: Arguments from discourse », Forum

Linguisticum 6(1), pp. 1-38.

FRIES, P. (1994), « On Theme, Rheme and discourse goals », in M. Coulthard (ed.), Advances

in Written Text Analysis, London, Routledge, pp. 229-249.

FRIES, P. (1995), « Patterns of information in initial position in English », in C. Fries & M.

Gregory (eds.) Discourse and Meaning in Society: Functional Perspectives, Norwood NJ,

Ablex Publishers, pp. 47-66.

FROMKIN, V. (1972), « Tone features and tone rules », Studies in African Linguistics 3,

pp.47-76.

FRY, D. B. (1958a), « Experiments in the perception of stress », Language and Speech 1,

pp.126-152.

FRY, D. B. (1958b), « The perception of stress », in Proceedings of the 8th International

Congress of Linguistics, Oslo, pp. 601-603.

Bibliographie

467

FUJISAKI, H. (1988), « A note on the phyiological and physical basis for the phrase and

accent components in the voice fundamental frequency contour », in O. Fujumura (ed.),

Vocal Physiology. Voice Production, Mechanisms and Findings, Raven Press, pp. 347-

355.

FUJISAKI, H. (1997), « Prosody, models and spontaneous speech », in Y. Sagisaka et al.

(eds.), pp. 27-42.

G GABELENZ von der, G. (1868), « Ideen zur einer vergleichenden Syntax: Wort-und

Satzstellung », Zeitschrift für Völkerpsychologie und Sprachwissenschaft 6, pp. 376-

384.

GAIFFE B., REBOUL A. & ROMARY L. (1997), « Les SN définis : anaphore, anaphore

associative et cohérence », in W. De Mulder, L. Tasmowski-Ryck & C. Vetters (eds.),

Relations anaphorique et (in)cohérence, Amsterdam-Atlanta, Rodopi, pp. 69-97.

GARROD, S. & TERRAS, M. (2000), « The contribution of Lexical and Situational

Knowledge to Resolving Discourse Roles: Bonding and Resolution », Journal of

Memory and Language 42, pp. 526-544.

GARSIDE, R. (1987), « The CLAWS word-tagging system », in R. Garside, G. Leech & G.

Sampson (eds.), The Computational Analysis of English : a Corpus Based Approach,

London, Longman, pp. 30-41.

GEACH, P.T. (1962), Reference and Generality, Ithaca, Cornell University Press.

GHIGIGLIONE, R. & TROGNON, A. (1993), Où va la pragmatique ?, Grenoble, Presses

Universitaires de Grenoble.

GHIO, A., ANDRÉ, C., TESTON, B. & CAVÉ, C. (2003), « PERCEVAL : une station

automatisée de tests de Perception et d’Évaluation auditive et visuelle », Travaux

Interdisciplinaires du Laboratoire Parole et Langage 22, pp. 115-133.

GIMSON, A. C. (1956), « The linguistic relevance of stress in English », Zeitschrift für

Phonetik und allgemeine Sprachwissenschaft 9, pp. 143-149.

GIRAULT-DUVIVIER, C.-P. (1827), Grammaire des grammaires, Paris, Janet et Cotelle

(sixième édition).

GIVÓN, T. (1983), Topic Continuity in Discourse: A Quantitative Cross-language Study,

Amsterdam & Philadelphia, Benjamins.

GOLDSMITH, J. (1976), Autosegmental Phonology, Ph. D. Dissertation, M.I.T.

GOLDSMITH, J. (1990), Autosegmental and metrical phonology, Oxford, Basil Blackwell.

Bibliographie

468

GORDON, P. & CHAN, D. (1995), « Pronouns, passives and discourse coherence », Journal

of Memory and Language 34, pp. 216-231.

GORDON, P., GROSZ, B. & GILLIOM L. (1993), « Pronouns, names and the centering of

attention in discourse », Cognitive Science 17, pp. 311-347.

GREEN, G. (1996), Pragmatics and Natural Language Understanding, Mahwah, Lawrence

Erlbaum Associates.

GRICE, H.P. (1957), « Meaning », Philosophical review 66, pp. 377-388.

GRICE, H.P. (1968), « Utterer’s Meaning, Sentence-Meaning, and Word-Meaning »,

Foundations of Language 4 , pp. 225-242.

GRICE, H.P. (1969), « Utterer’s Meaning and Intentions », Philosophical review 78, pp.

147-177.

GRICE, H.P. (1975), « Logic and Conversation », in Cole, P. & Morgan, J.L. (eds.), Syntax

and Semantics. Speech Acts, New York, Academic Press.

GRICE, H.P. (1989), Studies in the Ways of Words, Cambridge, Mass., Harvard University

Press.

GRIZE, J.-B. (1981), « Pour aborder l’étude des structures du discours quotidien », Langue

française 50, pp. 7-19.

GROBET, A. (2002), L’identification des topiques dans les dialogues, Bruxelles, De-Boeck-

Duculot.

GROSJEAN, F. (1983), « How long is the sentence? Prediction and prosody in the on-line

processing of language », Linguistics 21, pp. 501-529.

GROSJEAN, F. & HIRT, C. (1996), « Using prosody to predict the end of sentences in

English and French: Normal and brain damaged subjects », Language and Cognitive

Processes 11(1/2), pp. 107–134.

GROSZ, B. & SIDNER, C. (1986), « Attention, Intentions and the Structure of Discourse »,

Computational Linguistics 12, pp. 175-204.

GROSZ, B. (1977), The representation and use of focus in dialogue understanding, Technical

Report 151, SRI International, 333 Ravenswood Ave, Menlo Park, Ca. 94025.

GROSZ, B. & HIRSCHBERG J. (1992), « Some Intonational Characteristics of Discourse

Structure », in Proceedings of the International Conference on Spoken Language

Processing, Vol. 1, pp. 429-432.

GROSZ, B., JOSHI, A & WEINSTEIN S. (1986), Towards a computational theory of

discourse interpretation, Manuscrit non publié.

Bibliographie

469

GROSZ, B., JOSHI, A & WEINSTEIN S. (1995), « Centering: a framework for modelling

the local coherence of discourse », ISRC Report 95-01, pp. 1-30. (Grosz et al. 1995a)

GROSZ, B., JOSHI, A. & WEINSTEIN, S. (1983), « Providing a unified account of definite

noun phrases in discourse », in Proceedings of the 21st Annual Meeting of the AACL, pp.

44-50.

GROSZ, B., WEINSTEIN S. & JOSHI, A (1995), « Centering: a framework for modelling

the local coherence of discourse », Computational Linguistics 21 (2), pp. 203-225. (Grosz

et al. 1995b)

GRUBER, J.S., (1964), « The distinctive features of tone », article inédit cité par Fromkin

1972.

GUILLAUME DE SHERWOOD (1937), Introductiones in Logicam, in Grabmann, M.

(ed.), Die Introductiones in logicam des Wilhelm von Shyreswood, Munich,

Sitzungberichte der Akademie der Wissenschaften, Philosophisch-historische Klasse 10,

pp. 30-106

GUILLAUME DE SHERWOOD (1966), Introduction to Logic, Minneapolis, University of

Minnesota Press (traduction de William of Sherwood 1937).

GUMPERZ, J.J. (1982), Discourse Strategies, Cambridge, Mass., C.U.P.

GUNDEL, J. K. (1988), « Universals of topic-comment structure », in M. Hammond, E.

Moravczik & J. Wirth (eds.), Studies in syntactic typology, Amsterdam, John

Benjamins, pp. 209-239.

GUNDEL, J. & FRETHEIM, T. (2001), « Topic and Focus », in L. Horn & G. Ward (ed.),

The Handbook of Pragmatic Theory, Oxford, Blackwell.

GUNDEL, J., HEDBERG, N. & ZACHARSKI, R. (1993), « Cognitive status and the form of

referring expression in discourse », Language 69, pp. 274-307.

GUNDEL, J., HEDBERG, N. & ZACHARSKI, R. (2000), « Statut Cognitif et Forme des

Anaphoriques Indirects », Verbum XXII, pp. 79-102.

GUNDEL, J., HEDBERG, N. & ZACHARSKI, R. (à paraître), « Pronouns without NP

antecedents: How do we know when a pronoun is referential? », in A. Branco, T.

McEnery & R. Mitkov (eds.), Anaphora processing: Linguistic, cognitive and

computational modelling, Amsterdam, John Benjamins.

GUSSENHOVEN, C. (1984), On the Grammar and Semantics of Sentence Accents,

Dordrecht, Foris.

GUSSENHOVEN, C. (1999), « Discreteness and gradience in intonational contrasts »,

Language and Speech 42, pp. 283-305.

Bibliographie

470

GUSSENHOVEN, C. (2002), « Intonation and interpretation: Phonetics and Phonology », in

Proceedings Speech Prosody 2002, Aix-en-Provence, pp. 211-214.

H HALLE, M. & VERGNAUD, J.-R. (1987), An essay on stress, Cambridge, Ma., M.I.T.

Press.

HALLIDAY, M.A.K. (1967a), « Notes on transitivity and theme in English, Part 2 »,

Journal of Linguistics 3, pp. 177-274.

HALLIDAY, M.A.K. (1967b), Intonation and Grammar in British English, La Haye,

Mouton.

HALLIDAY, M.A.K. (1970a), « Language Structure and Language Function”, in Lyons, J.

(ed.), New Horizons in Linguistics, Harmondsworth, Middx., Penguin Books, pp. 140-

165.

HALLIDAY, M.A.K. (1970b), A Course in Spoken English:Intonation, Oxford, Oxford

University Press.

HALLIDAY, M.A.K. (1973), Explorations in the Functions of Language, London, Edward

Arnold.

HALLIDAY, M.A.K & HASAN, R. (1976), Cohesion in English, London, Longman.

HARRIS, Z. (1951), Methods in Structural Linguistics, Chicago, University of Chicago

Press.

HART t’, J., COHEN, A. & COLLIER, R. (1990), A Perceptual Study of Intonation: an

Experimental-Phonetic Approach to Speech Melody, Cambridge, Cambridge University

Press.

HATEKEYAMA, K., PETÖFI J. & SOZER E. (1984), Texte, connexité, cohesion,

coherence, Documents de travail, Centro Internazionale di semiotica e di Linguistica,

Université d’Urbino.

HAWKINS, J. A. (1977a), « The pragmatics of definiteness. Part I », Linguistische Berichte

47, pp. 1-27.

HAWKINS, J. A. (1977b), « The pragmatics of definiteness. Part II », Linguistische Berichte

48, pp. 1-27.

HEIM, I. (1982), The Semantics of Definite and Indefinite Noun Phrases, Thèse de Doctorat,

University of Massachusets, Amherst.

HENGEVELD, K. (1989), « Layers and operators in Functional Grammar », Journal of

Linguistics 25 (1), pp. 127-157.

Bibliographie

471

HENGEVELD, K. (2004), « The architecture of a Functional Discourse Grammar », in J.L.

Mackenzie & M.A. Gómez-González (eds.), A new architecture for Functional

Grammar, Berlin, Mouton de Gruyter, pp. 1-22.

HERMENT-DUJARDIN, S. (2001), L’emphase dans le discours spontané anglais :

corrélats acoustiques et prosodiques, Thèse de Doctorat, Université de Provence.

HEUSINGER von, K. (1999), Intonation and Information Structure, Habilitationsschrift,

Faculty of Philosophy, University of Konstanz.

HICKMANN, M. (1984), « Fonction et contexte dans le développement du langage », in

Deleau, M. (ed.), Langage et communication à l’âge pré-scolaire, Rennes, Presses

Universitaires de Rennes 2, pp. 27-57.

HICKMANN, M. (1987), « Ontogenèse de la cohésion dans le discours », in Piéraut-Le-

Bonniec, G. (ed.), Connaître et le dire, Bruxelles, Mardaga, pp. 239-262.

HICKMANN, M. (1991), « The development of discourse cohesion: some functional and

cross-linguistic issues », in Piéraut-Le-Bonniec, G. & Dolitski, M. (eds.), Language

Bases… Discourse Bases, Amsterdam, John Benjamins, pp. 157-185.

HIRD, K. (2002), « The Relationship between Prosody and Breathing in Spontaneous

Discourse », Brain and Language 80, pp. 536-555.

HIRSCHBERG, J. & NAKATANI, C. (1996), « A prosodic analysis of discourse segments

in direction-giving monologues », in Proceedings of the 34th Annual Meeting of the

Association for Computational Linguistics, Santa Cruz, pp. 286-293.

HIRST, D. J. (1980), « Un modèle de production de l'intonation », Travaux de l'Institut de

Phonétique d'Aix 7, pp. 297-315

HIRST, D. J. (1983), « Structures and categories in prosodic representations », in A. Cutler

& D. R. Ladd, Prosody: Models & Measurements, Berlin, Springer, pp. 93-109

HIRST, D. J. (1987), La représentation linguistique des systèmes prosodiques : une

approche cognitive, Thèse de Doctorat d’Etat, Université de Provence.

HIRST, D. J. (1989), « Relevance: Communication and Cognition », Review, Mind &

Language 4 (1-2), pp. 138-146.

HIRST, D. J. (1998), « Intonation in British English », in D. J. Hirst & A. Di Cristo (eds.),

Intonation Systems: A Survey of Twenty Languages, Cambridge, Cambridge University

Press, pp. 56-77.

HIRST, D. J. (1999), « The symbolic coding of duration and timing: an extension to the

INTSINT system », in Proceedings Eurospeech '99, Budapest (www.lpl.univ-

aix.fr/~hirst/articles/1999 Hirst.pdf ).

Bibliographie

472

HIRST, D. J. (2000), « ProZed: a multilingual prosody editor for speech synthesis », in

Proceedings, IEE Workshop State of the Art in Speech Synthesis, London

(www.lpl.univ-aix.fr/~hirst/articles/2000 Hirstb.pdf).

HIRST, D. J. (2001), « Automatic analysis of prosody for multilingual speech corpora », in

E.Keller, G.Bailly, J.Terken & M.Huckvale (eds), Improvements in Speech Synthesis,

Wiley (www.lpl.univ-aix.fr/~hirst/articles/2001 Hirst.pdf).

HIRST, D. J., DI CRISTO, A., BESNERAIS Le, M., NAJIM, Z. & NICOLAS, P. (1993),

« Multi-lingual modelling of intonation patterns », in Proceedings ESCA Workshop on

Prosody, Lund, pp. 204-207.

HIRST, D. J. & DI CRISTO, A. (1996), « Y a-t-il des unités tonales en français ? », in Actes

des XXIèmes Journées d’Etude sue la Parole, pp. 223-226.

HIRST, D. J. & DI CRISTO, A. (1998), Intonation Systems: A Survey of Twenty

Languages, Cambridge, Cambridge University Press.

HIRST, D. J. & DI CRISTO, A. (1998), « A Survey of Intonation Systems », in D. J. Hirst

& A. Di Cristo (eds.), Intonation Systems: A Survey of Twenty Languages, Cambridge,


HIRST, D. J., DI CRISTO A. & ESPESSER, R. (2000), « Levels of representation and

levels of analysis for the description of intonation systems », in M. Horne (ed.),

Prosody: Theory and Experiement, Dordrecht, Kluwer, pp. 51-87.

HIRST, D. J. & ESPESSER, R. (1993), « Automatic modelling of fundamental frequency

using a quadratic spline function », Travaux de l'Institut de Phonétique d'Aix 15, pp. 71-

85.

HOBBS, J (1990), Literature and cognition, Menlo Park, CA, CSLI.

HOCKETT, C. F. (1942), « A system of descriptive phonology », Language 18, pp. 3-21.

HOOP de, H. (2003), « On the interpretation of stressed pronouns », in Proceedings of

Conference “sub7 – Sinn und Bedeutung”, Arbeitspapier 114, FB Sprachwissenschaft,

Universität Konstanz, URL : http://ling.uni-konstanz.de/pages/conferences/sub7/.

HOVY, E. (1990), « Parsimonious and profligate approaches to the question of discourse

structure relations », in Proceedings of the 5th International Workshop on Natural

Language Generation, pp. 128-134.

HUANG, Y. (2000), « Discourse anaphora: Four theoretical models », Journal of Pragmatics

32, pp. 151-176.

HUFFMAN, M.K. (1987), « Measures of phonation type in Hmong »,Journal of the

Acoustical Society of America 81, pp. 495-504.

Bibliographie

473

I IDE, N. & CRISTEA, D. (2000), « A Hierarchical Account of Referential Accessibility », in

Proceedings of the 38th Annual Meeting of the Association for Computational

Linguistics, ACL'2000, Hong Kong.

J JAKOBSON, R. (1960), « Closing Statements : Linguistics and Poetics », in Sebeok, T.

(ed.), Style in Language, Cambridge, Mass., MIT Press, pp. 350–377.

JAKOBSON, R., FANT, G. & HALLE, M. (1952), Fundamentals of Language, La Hague,

Mouton.

JAKOBSON, R., & HALLE, M. (1971), Preliminaries to Speech Analysis, Cambridge,

Mass., MIT Press.

JASSEM, W. (1952), « Stress in modern English », Bulletin de la Société Linguistique

Polonaise 11, pp. 23-49.

JASSEM, W. & GIBBON, D. (1980), « Re-defining English accent and stress », Journal of

the International Phonetic Association 10 (1), pp. 2-16.

JENSEN, C. (2004), Stress and Accent. Prominence relations in Southern Standard British

English, Ph.D. Dissertation, University of Copenhagen.

JIANFEN, C. & MADDIESON, I. (1989), « An exploration of phonation types in Wu

dialects of Chinese », UCLA Working Papers in Phonetics 72, pp. 139-160.

JOHNSON-LAIRD, P.N. (1983), Mental Models: Towards a Cognitive Science of

Language, Inference and Consciousness, Cambridge, Mass., Harvard University Press.

JOHNSON-LAIRD, P.N. (1989), « Mental Models », in Posner, M.I. (ed.), Foundations of

Cognitive Science, Cambridge, Mass., MIT Press, pp. 469-499.

JONES, D. (1909), The pronunciation of English, Cambridge, Cambridge University Press.

JONES, D. (1918), An outline of English phonetics, Cambridge, Heffer.

JONES, D. (1991), English Pronouncing Dictionary, London, Longman.

JOSHI, A. & KUN, S. (1979), « Centered logic: The role of entity centered sentence

representation in natural language inferencing », in Proceedings of the 6th International

Joint Conference on Artificial Intelligence, Tokyo, pp. 435-439.

JOSHI, A. & WEINSTEIN, S. (1981), « Control of inference: Role of some aspects of

discourse structure – centering », in Proceedings of the 7th International Joint Conference

on Artificial Intelligence, Vancouver, pp. 385-387.

Bibliographie

474

K KAPLAN, D. (1989), « Demonstratives », in Almog, J., Perry J. & Wettstein, H. (eds.),

Themes from Kaplan, New York, Oxford University Press, pp.481-563.

KAMEYAMA, M. (1994), « Stressed and unstressed pronouns: Complementary

Preferences », in P. Bosch & R. van der Sandt (eds.), Focus and Natural Language

Processing, Institute for Logic and Linguistics, IBM, Heidelberg, pp. 475-484.

KAMEYAMA, M. (1997), « Stressed and unstressed pronouns: Complementary

Preferences », in P. Bosch & R. van der Sandt (eds.), Focus. Linguistic, Cognitive, and

Computational Perspectives, Cambridge, Cambridge University Press, pp. 306-321.

KARCEVSKIJ, S. (1931), « Sur la phonologie de la phrase », Travaux du Cercle

Linguistique de Prague IV, pp. 188-227.

KARMILOFF-SMITH, A. (1979), A Functional Approach to Child Language. A Study of

Determiners and reference, Cambridge, Cambridge University Press.

KARMILOFF-SMITH, A. (1980), « Psychological processes underlying pronominalization

and non-pronominalization in children’s connected discourse », in Kreiman, J. &

Ojeda, A.E. (eds.), Papers from the Parasession on Pronouns and Anaphora, Chicago,

Chicago Linguistic Society, pp. 231-250.

KARMILOFF-SMITH, A. (1985), « Language and cognitive processes from a

developmental perspective», Language and Cognitive Processes 1 (1), pp. 61-85.

KEHLER, A. (1997), « Current Theories of Centering for Pronoun Interpretation: A Critical

Evaluation », Computational Linguistics (Squibs and Discussions) 23 (3).

KINGDON, R. (1958), Groundwork of English Intonation, London, Longman.

KLATT, D.H. (1979), « Synthesis by rule of segmental durations in English sentences », in

B. Lindblom & S. Öhmann (eds.), Frontiers of Speech Communication Research,

London, New York, San Francisco, Academic Press, pp. 287-299.

KLEIBER, G. (1990), « Marqueurs référentiels et processus interprétatif : pour une approche

plus sémantique », Cahiers de linguistique française 11, pp. 241-258.

KLEIBER, G. (1994a), « Lexique et cognition : y a-t-il des termes de base ? », in Rivista di

Linguistica 6(2), pp. 237-266.

KLEIBER, G. (1994b), Anaphores et pronoms, Louvain-la-Neuve, Duculot.

KLEIBER, G. (1997), « Anaphore pronominale et référents évolutifs, ou Comment faire

recette avec un pronom », in De Mulder W., Tasmowski-De Ryck L & Vetters C. (eds.),

Relations anaphoriques et (in)cohérence, Amsterdam-Atlanta, Rodopi, pp. 1-29.

Bibliographie

475

KLEIBER, G., SCHNEDECKER, C. & UJMA, L. (1994), « L’anaphore associative, d’une

conception à l’autre », in Schnedecker C., Charolles M., Kleiber G. & David J. (eds.),

L’anaphore associative (Aspects linguistiques, psycholinguistiques et automatiques),

Université de Metz : Centre d’Analyse Syntaxique, Paris, Klincksieck, pp. 5-64.

KNOTT, A. & SANDERS, T. (1998), « The classification of coherence relations and their

linguistic markers: an exploration of two languages », Journal of Pragmatics 30, pp.

135-175.

KNOWLES, G. (1987),

KNOWLES, G. (1993), « From text to waveform: converting the Lancaster/IBM Spoken

English Corpus into a speech database », in C.Souter & E. Atwell (eds.), Corpus-based

Computational Linguistics: Proceedings of the 12th ICAME conference, Amsterdam,

Rodopi, pp 47-58.

KNOWLES, G. (1994), « Annotating large speech corpora: building on the experience of

Marsec », Hermes - Journal of Linguistics 13, pp 87-99.

KONOPCZYNSKI G. (1991), Du prélangage au langage : acquisition de la structuration

prosodique, Thèse d’Etat Strasbourg II, Hambourg, Buske Verlag.

KONOPCZYNSKI G. (1998), « Interactive Developmental Intonology (IDI): Theory and

Application to French », Parole 7-8, pp. 177-202.

KONOPCZYNSKI G. (1999), « L’acquisition du système prosodique de la langue

maternelle et ses implications pour l’apprentissage d’une L2 », in Proceedings of

Eurocall’99, Besançon.

KOOPMANS-VAN BEINUM, F.J.& DONZEL van, M.E. (1996), « Relationship between

discourse structure and dynamic speech rate », in Proceedings ICSLP96, Fourth

International Conference on Spoken Language Processing, Vol 3, Philadelphia, pp.

1724-1727.

KRIPKE, S. (1982), La logique des noms propres, Paris, Minuit.

KUNO, S. (1972), « Functional sentence perspective », Linguistic Inquiry 3, pp. 269-320.

KUNO, S. (1978), « Generative discourse analysis in America », in W. Dressler (ed .),

Current Trends in Texilinguistics, Berlin & New York, de Gruyter, pp. 275-294.

L LACHERET-DUJOUR, A. & BEAUGENDRE, F. (1999), La prosodie du français, Paris,

CNRS Langage.

Bibliographie

476

LACHERET-DUJOUR, A. & VICTORRI, B. (2002), « La période intonative comme unité

d’analyse du français parlé : modélisation prosodique et enjeux linguistiques », Verbum

XXIV(1-2), pp. 55-72.

LADD, D. R. (1980), The structure of intonational meaning: evidence from English,

Bloomington, Indiana University Press.

LADD, D. R. (1996), Intonational Phonology, Cambridge, Cambridge University Press.

LADD, D. R. & MORTON R (1997), « The perception of intonational emphasis: continuous

or categorical », Journal of Phonetics 25, pp. 313-342.

LAKOFF, G. (1971), « Pronouns and Reference », in J. McCawley (ed.), Syntax and

Semantics, Vol. 7, New York, Academic Press, pp. 275-335.

LAKOFF, G. (1989), « The way we were », Journal of Pragmatics 13 (6), pp. 939-988.

LAMBERT D’AUXERRE (1971), Logica (Summa Lamberti), F. Alessio (ed.), Florence, La

nuova Italia Editrice.

LAMBERT D’AUXERRE (1988), « Logica (Summa Lamberti) », in N. Kretzmann & E.

Stump (eds.), Cambridge Translations of Medieval Philosophical Texts, Cambridge,

Cambridge University Press, pp. 102-162 (traduction de Lambert d’Auxerre 1971).

LEHISTE, I. (1970), Suprasegmentals, Cambridge, Mass., M.I.T. Press

LEHISTE, I. (1975), « The phonetic structure of paragraph », in A; Cohen & S.G.

Nooteboom (eds.), Structure and Process in Speech Perception, New York, Springer

Verlag, pp. 195-206.

LEVELT, W. (1989), Speaking: from intension to articulation, Cambridge, Mass., M.I.T.

Press.

LEVINSON, S. (1983), Pragmatics, Cambridge, Cambridge University Press.

LEVINSON, S. (2004), « Deixis and pragmatics », in Horn L. & Ward G. (eds.), The

Handbook of pragmatics, Oxford, Blackwell, pp. 97-121.

LOUIS, M. (2003), Etude longitudinale de la dysprosodie d’un cas d’Aphasie Progressive

Primaire, Thèse de Doctorat, Université de Provence.

LYONS, J. (1968), An Introduction to Theoretical Linguistics, Cambridge, Cambridge

University Press.

LYONS, J. (1975), « Deixis as the Source of Reference », in Keenan, E. (ed.), Formal

Semantics of Natural Language, Cambridge, Cambridge University Press, pp. 61-83.

LYONS, J. (1977), Semantics I, Cambridge, Cambridge University Press

LYONS, J. (1978a), Semantics II, Cambridge, Cambridge University Press

LYONS, J. (1978b), Eléments de sémantique, Paris, Larousse (traduction de Lyons 1977).

Bibliographie

477

LYONS, J. (1980), Sémantique linguistique, Paris, Larousse (traduction de Lyons 1978a).

M MACWHINNEY, B., & BATES, E. (1989), The crosslinguistic study of sentence

processing, New York, Cambridge University Press.

MACWHINNEY, B., & BATES, E. (1994), « The Competition Model and UG »,

http://psyling.psy.cmu.edu/papers/gibson.pdf.

MADDIESON, I. (1971), « The inventory of features », Research Notes 3, pp. 3-18.

MAINGUENEAU, D. (1976), Initiation aux méthodes de l’analyse du discours, Paris,

Hachette.

MANN, W.C., MOORE, M.A. LEVIN, J.A. & CARLISLE, J.H. (1975), Observation

Methods for Human Dialogue, Technical Report RR/75/33, Information Sciences

Institute, Marina del Rey, CA.

MANN, W. & THOMPSON, S. (1988), « Rhetorical structure theory: A theory of text

organization », Text 8 (3), pp. 243-281.

MARATSOS, M.P. (1976), The Use of Definite and Indefinite Reference in Young Children,


MARCONI, D. (1995), « Filosofia del linguaggio », in Rossi, P. (ed.), La filosofia, Turin,

UTET, pp. 365-460.

MARCONI, D. (1997), La philosophie du langage au XXème siècle, Paris, L’éclat

(traduction de Marconi 1995).

MARR, D. (1982), Vision: A computational Inverstigation in the Human Representation of

Visual Information, San Francisco, Freeman.

MARTIN, J. R. (1992), English Text: system and structure, Philadelphia, Benjamins.

MARTINET, A. (1960), Eléments de linguistique générale, Paris, Armand Colin.

MARTINET, A. (1962), A functional view of language, The Waynflete Lectures, Oxford,

Clarendon Press.

MARTINET, A. (1964), Elements of general linguistics, London, Faber & Faber (traduction de

Martinet 1960).

MATHESIUS, V. (1929/1975), A Functional Analysis of Present-Day English on a General

Linguistic Basis, (traduit par L. Dusková), La Haye, Mouton.

McILROY, M. (1973), Synthetic English Speech by Rule, Bell Telephone Laboratories

Memo.

Bibliographie

478

MENARD, L. (2002), Production et perception des voyelles au cours de la croissance du

conduit vocal : variabilité, invariance et normalisation, thèse de Doctorat, Université

Stendhal, Grenoble.

MERTENS, P. (1987), L’intonation du français. De la description à la reconnaissance

automatique, Doctorale dissertatie, K.U. Leuven.

MERTENS, P. (1997), « De la chaîne linéaire à la séquence de tons », TAL 38 (1), pp. 27-51.

MILNER, J.-C. (1976), « Réflexions sur la référence », Langue française 30, pp. 61-71.

MILNER, J.-C. (1978), De la syntaxe à l’interprétation. Quantité, insultes, exclamation,

Paris, Seuil.

MILNER, J.-C. (1982), Ordres et raisons de langue, Paris, Seuil.

MILNER, J.-C. (1989), Introduction à une science du langage, Paris, Seuil.

MITCHELL, J.E. (1986), The Formal Semantics of Point of View, Thèse de doctorat,

University of Massachusetts.

MOESCHLER, J. & REBOUL, A. (1994), Dictionnaire encyclopédique de pragmatique,

Paris, Seuil.

MOREL, M.-A. (2000), « Intonation/ Coénonciation/ Colocution/ Formulation », in A.-C.

Berthoud & L ; Mondada (ed.), Modèle du discours en confrontation, Berne, Peter

Lang : pp. 53-78.

MOREL, M.-A. & DANON-BOILEAU, L. (1998), Grammaire de l'intonation, l'exemple du

français oral, Paris, Ophrys.

MORRIS, C. (1938), « Foundations of a Theory of Signs », in Neurath, O., Carnap, R. &

Morris, C. (eds), International Encyclopedia of Unified Science, Chicago, University of

Chicago Press, pp. 77-138.

MULDER DE, W. & TASMOWSKI-DE RYCK, L. (1997), « Référents évolutifs,

syntagmes nominaux et pronoms », VERBUM XIX (1-2), pp. 121-137.

N NAKAJIMA, S. & ALLEN, J.F. (1993), « A Study on Prosody and Discourse Structure in

Cooperative Dialogues », Phonetica 50, pp. 197-210.

NAKATANI L. H. & SCHAFFER , J.A. (1978), « Hearing ‘words’ without words:

Prosodic cues for word perception », Journal of the Acoustical Society of America 63,

pp. 234-245.

NAKATANI L. H. & ASTON, C. H. (1978), Acoustic and linguistic factors in stress

perception, Unpublished manuscript, Murray Hill, New Jersey, Bell Laboratories.

Bibliographie

479

NAKATANI, C. (1997a), The Computational Processing of Intonational Prominence: A

Functional Prosody Perspective, PhD thesis, Harvard University.

NAKATANI, C. (1997b), « Integrating Prosodic and Discourse Modelling », in Y. Sagisaka,

N. Campbell & N. Higuchi (eds.), Computing Prosody - Computational Models for

Processing Spontaneous Speech, New York, Springer-Verlag, pp. 67-80.

NAVARRO, H. (1997), La entonación colloquial. Functión demarcativa y unidades de

habla, Quaderns de Filologia, ANEJO XXI, Université de Valence.

NESPOR, M. & VOGEL, I. (1986), Prosodic Phonology, Dordrecht, Foris.

NI CHASAIDE, A. & GOBL, C. (2004), « Voice Quality and f0 in Prosody: Towards a

Holistic Account », in Proceedings of Speech Prosody 2004, Nara, pp. 189-196.

NICOL, J.L. (1988), Coreference processing during sentence comprehension, Ph.D.

Dissertation, M.I.T.

NICOL, J.L. & SWINNEY, D.A (2003), « The Psycholinguistics of Anaphora », in A.

Barrs, (ed.), Anaphora. A reference guide, Oxford, Blackwell, pp. 72-104.

NØLKE, H. (1994), Linguistique modulaire : de la forme au sens, Louvain, Peeters.

NUNBERG, G. (1993), « Indexicality and Deixis », Linguistics and Philosophy 16 (1), pp. 1-

43.

NWOGU, K. & BLOOR, T. (1991), « Thematic progression in professional and popular

medical texts », in E. Ventola (ed.), Functional and Systemic Linguistics: Approaches and

Uses, Berlin, Mouton de Gruyter, pp. 369-384.

O OHALA, J. (1984), « An ethological perspective on common cross-language utilization of F0

in voice », Phonetica 41, pp. 1-16.

P PALMER, H. E. (1922), English intonation with systematic exercises, Cambridge, Heffer.

PARTEE, B.H. (1989), « Binding Implicit Variables in Quantified Contexts », in Papers

from the 25th Regional Meeting, Chicago Linguistics Society: Parasession on Language

in Context, Chicago, Chicago Linguistics Society, pp. 342-365.

PATTERSON, D. (2000), A linguistic approach to pitch range modelling, PhD dissertation,

University of Edinburgh.

PATTERSON, D. & LADD, D. R. (1999), « Range Modelling: Linguistic Dimensions of

Variation », in Proceedings of the 13th International Congress of Phonetic Sciences,

San Francisco, pp. 1169-1172.

Bibliographie

480

PEIRCE, C. (1955), « Logic as Semiotic: The Theory of Signs », in Buchler J. (ed.),

Philosophical Writings of Peirce, New York, Dover.

PERRY, J. (1993), The Problem of the Essential Indexical and Other Essays, New York,

Oxford University Press,

PIERRE D’ESPAGNE (1962), « Tractatus », in De Rijk, L.M. (ed.), Assen, Van Gorcum.

PIERREHUMBERT, J.B. (1989), « A preliminary study of the consequences of intonation

for the voice source », STLQPSR, Speech, Music and Hearing 4, pp. 23-36.

PIERREHUMBERT, J.B. & BECKMAN, M. (1988), « Japanese Tone Structure »,

Linguistic Inquiry Monograph Series 15, MIT Press.

PIJPER, J.R. & SANDERMAN, A.A. (1994), « On the perceptual strength of prosodic

boundaries and its relation to suprasegmental cues », Journal of the Acoustical Society of

America 96, pp. 2037-2047.

PIKE, K. (1943), Phonetics, Ann Arbor, University of Michigan Press.

PIKE, K. (1945), The intonation of American English, Ann Arbor, University of Michigan

Press.

PIKE, K. (1948), Tone languages: a technique for determining the number and type of pitch

contrast in a language, with studies in tonemic substitution and fusion, Ann Arbor,

University of Michigan Press.

PIKE, K. & PIKE, E. (1983), Text and tagmeme, London, Francis Pinter.

PORTES, C. & DI CRISTO, A., (2003), « Pitch range in spontaneous speech: Semi-

automatic approach vs. subjective judgement », in Proceedings of the 15th ICPhS,

Barcelona, pp. 583-586.

PRICE, P.J., OSTENDORF, M., SCHATTUCK-HUFNAGEL, S. & FONG, C. (1991), «

The use of prosody in syntactic disambiguation », Journal of the Acoustical Society of

America 90, pp. 2956-2970.

PRINCE, E. (1981), « Toward a taxonomy of given-new information », in Cole, P. (ed.),

Radical Pragmatics, NY, Academic Press, pp. 223-56.

PULGRAM, E. (1970), Syllable, Word, Nexus, Cursus, The Hague, Mouton.

PULLEYBLANK, D. (1986), Tone in Lexical Phonology, Dordrecht, Reidel.

R RABINER L.R. (1984), « A tutorial on hidden Markov Models and selected applications in

speech recognition », IEEE transactions on Speech Audio Processing, vol. 2.

Bibliographie

481

REBOUL, A. & MOESCHLER, J. (1998), Pragmatique du discours. De l’interprétation de

l’énoncé à l’interprétation du discours, Paris, Armand Colin.

RECANATI, F. (1979), La transparence et l’énonciation. Pour introduire à la pragmatique,

Paris, Minuit.

RECANATI, F. (1981), Les énoncés performatifs, Paris, Minuit.

RECANATI, F. (2002), « Deixis and anaphora », in Z. Szabo (ed.), Semantics vs.

Pragmatics, Oxford University Press

REINHART, T. (1980), « Conditions for text coherence », Poetics Today, Vol. I, No. 4, pp.

l6l-l80.

REINHART, T. (1981), « Pragmatics and linguistics: An analysis of sentence topics »,

Philosophica 27 (1), Special issue on pragmatic theory, pp. 53-94.

REMIJSEN, B. & HEUVEN van, V. (1999), « Gradient and categorical pitch dimensions in

Dutch: diagnostic test », in Proceedings of the XIVth International Congress of Phonetic

Sciences (ICPhS’99), San Francisco, pp. 1865-1868.

RIPS, L.J. (1986), Mental muddles, in Brand, R. & Harnish, R.M. (eds.), Problems in the

Representations of Knowledge and Belief, Tucson, University of Arizona.

RIJSBERGEN van, C.J. (1979), Information Retrieval, 2nd edition, Glasgow, University of

Glasgow.

RITVELD, A.C.M (1980), « Word boundaries in the French language », Language and

Speech 23, pp. 289-296.

ROACH, P. (1994), « Conversion between prosodic transcription systems: “Standard

British” and ToBI », Speech Communication 15, pp. 91-99.

ROBERTS, C. (1998), « The Place of Centering in a General Theory of Anaphora

Resolution », in M. Walker, A. Joshi & E. Prince (eds.), Centering Theory in Discourse,

Oxford, Clarendon Press.

ROOTH, M. (1992), « A Theory of Focus Interpretation », Natural Language Semantics 1

(1), pp. 75–116.

ROSSI, M. (1981), « Intonation, énonciation, syntaxe », in M. Rossi, A. Di Cristo, D. J.

Hirst, Ph. Martin & Y. Nishinuma (eds.), L’intonation, de l’acoustique à la sémantique,

Paris, Klincksieck, pp. 184-234.

ROSSI, M. (1999), L’intonation, le système du français, Paris, Ophrys.

ROSSI, M., DI CRISTO, A., HIRST, D. J., MARTIN, P. & NISHINUMA, Y. (1981),

L’intonation, de l’acoustique à la sémantique, Paris, Klincksieck.

Bibliographie

482

ROULET, E. et al. (1985), L’articulation du discours en français contemporain, Berne, Peter

Lang.

ROULET, E., FILLIETAZ, L. & GROBET, A. (2001), Un modèle et un instrument

d’analyse de l’organisation du discours, Berne, Peter Lang.

RUMELHART, D.E., HINTON, G.E. & WILLIAMS, R. (1986), « Learning

representations by back-propagating errors », Nature 323, pp. 533-536.

RUSSELL, B. (1905), « On denoting », Mind 14, pp. 479-493.

RUSSELL, B. (1989), « De la dénotation », in Ecrits de logique philosophique, Paris, PUF,

pp. 201-218 (traduction de Russell 1905).

S SABAH, G. (1989), L’intelligence artificielle et le langage, vol. 2, Processus de

compréhension, Paris, Hermès.

SACKS, H., SCHEGLOFF, E. & JEFFERSON, G. (1974), « A simplest systematics for

the organization of turn-taking in conversation », Language 50, pp. 696-735.

SACKS, H., SCHEGLOFF, E. & JEFFERSON, G. (1978), « A simplest systematics for

the organization of turn taking for conversation », in J. Schenkein (ed.), Studies in the

organization of conversational interaction, New York, Academic Press, pp. 1-55.

SAGISAKA, Y., CAMPBELL, N. & HIGUCHI, N. (1997), Computing Prosody.

Computational Models for Processing Spontaneous Speech, New York, Springer.

SAMPSON, G. (1969), « A note on Wang’s phonological features of tone », International

Journal of American Linguistics 35, pp. 62-66.

SANDERS, T. (1997), « Coherence relations in context. On the categorization of positive

causal relaTions », Discourse Processes 24, pp. 119-147.

SANDERS, T., SPOOREN, W. & NOORDMAN, L. (1992), « Towards a taxonomy of

coherence relations », Discourse Processes 15, pp. 1-35.

SANDERS, T., SPOOREN, W. & NOORDMAN, L. (1993), « Coherence relations in a

cognitive theory of discourse representation », Cognitive Linguistics 4, pp. 93-133.

SALMON-ALT, S. (2001), Référence et dialogue finalisé : de la linguistique à un modèle

opérationnel, Thèse d'informatique, Université H.Poincaré - Nancy 1, France.

SAPIR, E. (1921), Language, New York, Harcourt, Brace & World.

SCHIFFRIN, D. (1994), Approaches to discourse, Oxford, Blackwell.

SCHLICK, M. (1936), « Meaning and Verification », Philosophical Review 45, pp. 339-369.

Bibliographie

483

SCHNEDECKER, C. & CHAROLLES, M. (1993), « Les référents évolutifs : points de vue

ontologique et phénoménologique », Cahiers de linguistique française 14, pp. 197-227.

SCHUBIGER, M. (1935), The Role of Intonation in Spoken English, St. Gall, Fehr’sche

Buchhandlung.

SCHUBIGER, M. (1958), English Intonation: its Form and Function, Tübingen, Max

Niemeyer Verlag.

SCHUETZE-COBURN, S., SHAPLEY, M. & WEBER, E.G. (1991), « Units of intonation

in discourse: A comparison of acoustic and auditory analyses », Language and Speech

34 (3), pp. 207-234.

SCOTT, N. C. (1939), « An experiment on stress perception », Le maître Phonétique 67, pp.

44-45.

SEARLE, J. (1965), « What is a Speech Act? », in M. Black (ed.), Philosophy in America,

Ithaca, N.Y., Cornell University Press, pp. 221-239.

SEARLE, J. (1969), Speech Acts: An Essay in the Philosophy of Language, Cambridge,

Cambridge University Press.

SEARLE, J. (1972), Les Actes de langage, Paris, Hermann (traduction de Searle 1969).

SEARLE, J. (1975), « Indirect Speech Acts », in Cole, P. & Morgan, J.L. (eds.), Syntax and

Semantics. Speech Acts, New York, Academic Press.

SEARLE, J. (1979), Expression and Meaning, Cambridge, Cambridge University Press.

SEARLE, J. (1982), Sens et expression, Paris, Minuit (traduction de Searle 1979).

SEARLE, J. (1983), Intentionality: An Essay in the Philosophy of Mind, New York,

Cambridge University Press.

SEARLE, J. (1985), L’intentionnalité. Essai de philosophie de l’esprit, Paris, Minuit

(traduction de Searle 1983).

SEARLE, J. & VANDERVEKEN, D. (1985), Foundations of Illocutionary Logic,


SELKIRK, E. (1984), Phonology and Syntax. The Relation between Sound and Structure.

Cambridge, Mass., M.I.T. Press.

SELKIRK, E. (1986), « On derived domains in sentence phonology », Phonology Yearbook

3, pp. 371-405.

SERIOT, P. (1987), « L'anaphore et le fil du discours (sur l'interprétation des

nominalisations en français et en russe)», IVe Colloque international de linguistique

slavo-romane, Copenhague, 27-29 août 1987, in Opérateurs syntaxiques et cohésion

discursive, Copenhague, Nyt Nordisk Forlag Arnold Busck, pp. 147-160.

Bibliographie

484

SHILLCOCK, R. (1982), « The on-line resolution of pronominal anaphora », Language and

Speech 25, pp. 385-401.

SIDNER, C. (1979), Toward a computational theory of definite anaphora comprehension in

English, Technical Report AI-TR-537, MIT.

SILIPO, R. & GREENBERG, S. (1999), « Automatic transcription of prosodic stress for

spont aneous English discourse », in Proceedings of the 14th International Congress of

Phonetic Sciences, San Francisco, pp. 2351-2354.

SILIPO, R. & GREENBERG, S. (2000), « Prosodic stress revisited: reassessing the role of

fundament al frequency », in Proceedings of the NIST Speech Transcription Workshop.

SILVERMAN, K., BECKMAN, M., PITRELLI, J., OSTENDORF, M., WIGHTMAN,

C., PRICE, P., PIERREHUMBERT, J. & HIRSCHBERG, J. (1992), « ToBI: a

system for labeling English prosody », in Proceedings of the 2nd ICSL, vol. 2, Banff, pp.

867-870.

SIMON, A.-C. (2004), La structuration prosodique du discours en français, Berne, Peter

Lang.

SIMON, A.-C. & GROBET A. (2001), « Réinitialisations (resetting) et unites prosodiques

maximales : une evidence ? », in Actes des Journées Prosodie 2001, Grenoble, pp. 79-

83.

SLUITJER, A. & HEUVEN van, V. (1993), « Perceptual clues of linguistic stress: intensity

revisited », Working Papers 41, Proceedings of the ESCA Workshop on Prosody, Lund

University, Sweden, pp. 246-249.

SLUITJER, A. & TERKEN, J.M.B. (1993), « Beyond sentence prosody: Paragraph

intonation in Dutch », Phonetica 50, pp. 180-188.

SLUITJER, A. & HEUVEN van, V. (1996), « Spectral balance as an acoustic correlate of

linguistic stress », Journal of the Acoustical Society of America 100 (4), pp. 2471-2485.

SMITH, C. (2004), « Topic transitions and durational prosody in reading aloud: production

and modeling », Speech Communication 42, pp. 247-270.

SPERBER, D. & WILSON, D. (1986), Relevance: Communication and Cognition, Oxford,

Blackwell.

SPERBER, D. & WILSON, D. (1995), Relevance: Communication and Cognition, Postface

to the second edition, Oxford, Blackwell.

SPERBER, D. & WILSON, D. (2002), « Pragmatics, Modularity and Mind Reading », Mind

and Language 17, pp. 3-23.

Bibliographie

485

STEELE, J. (1779/1965), Prosodia Rationalis: Or, An Essay towards Establishing the

Melody and Measure of Speech, to be Expressed and Perpetuated by Peculiar Symbols,

2nd edition, London, Nichols / Menston, Scholar Press.

STRAWSON, P. (1977), « De l'acte de référence », in Etudes de logique et de linguistique,

Paris, Seuil, pp. 9-38.

STREEFKERK, B. M., POLS, L. C. & BOSCH ten, L. F. (2001), « Acoustical and lexical/

syntactic features to predict prominence », Proceedings 24, pp. 155-166.

SWERTS, M., (1997), « Prosodic features at discourse boundaries of different strength »,

Journal of Acoustical Society of America 101, pp. 514-521.

SWERTS, M. & GELUYKENS, R. (1994), « Prosody as a marker of information flow in

spoken discourse », Language and Speech 37 (1), pp. 24-43.

SWERTS, M., STRANGERT, E. & HELDNER, M. (1996), « F0 declination in

spontaneous and read-aloud speech », TMH-QPSR 2, pp. 23-24.

SWERTS, M., KRAHMER, E. & AVESANI, C. (2002), « Prosodic marking of information

status in Dutch and Italian: a comparative analysis », Journal of Phonetics 30, pp. 629-

654. T TERKEN, J. (1991), « Fundamental frequency and perceived prominence of accented

syllables », Journal of the Acoustical Society of America 89 (4), pp. 1768-1776.

TERKEN, J. & HIRSCHBERG, J. (1994), « Deaccentuation of words representing ‘given’

information: Effects of persistence of grammatical function and surface position »,

Language and Speech 37 (2), pp. 125-145.

THORSEN, N. (1985), « Intonation in text in standard Danish », Journal of the Acoustical

Society of America 77 : pp. 1205-1216.

TOUPIN F. (1998), « Réference et deixis : le cas de this et that adverbes », in N. Le Querler

& E. Gilbert, La référence -1- Statut et processus, Travaux linguistiques du CERLICO

11, pp. 65-84.

TRAGER, G. & SMITH H. (1951), An outline of English structure, Norman, Ok.,

Battenburg Press.

TROGNON, A. & BRASSAC, A. (1992), « L’enchaînement conversationnel », Cahiers de


Bibliographie

486

TROGNON, A. & BRASSAC, A. (1993), « La logique des actes de discours en tant que

grammaire universelle de l’intercompréhension », in Procceings of the 4th International

Pragmatics Conference, Kobe, Japon.

TROGNON, A. & BRASSAC, A. (1988), « Actes de langage et conversation », Intellectica

6 (2), pp. 211-232.

TROUILLEUX, F. (2001), Identification des reprises et interprétation automatiques des

expressions pronominales dans des textes en français, Thèse de doctorat, Université de

Blaise Pascal, Clermont-Ferrand.

TROUBETZKOY, N. (1939), Grundzüge der Phonologie, TCLP 7.

TROUBETZKOY, N. (1949), Principes de phonologie, Paris, Klincksieck (traduction de

Troubetskoy 1939).

TYVAERT, J.-E. (1994), « L'exclusivité de la disjonction en langue et l'élucidation

pragmatique du glissement de l'implication à l'équivalence », Intellectica 19 (2), pp.167-186.

V VERNANT, D. (1998), « Du dire au faire, les niveaux d'analyse des phénomènes

communicationnels », Revue d'interaction homme-machine 1 (1), pp. 11-32.

VERONIS, J., HIRST, D.J., ESPESSER, R. & IDE, N. (1994), « NL and speech in

MULTEXT », in Proceedings AAAI-94 Workshop of the Integration of Speech and

Natural Language Processing, Seattle.

VERSCHUEREN, J. (1995), « The Pragmatic Perspective », in J. Verschueren, J-O.

Östman, J. Blommaert & C. Bulcaen (eds.), Handbook of Pragmatics,

Amsterdam/Philadelphia, John Benjamins, pp. 1-19.

VERSCHUEREN, J. (1999), Understanding pragmatics, London, Arnold.

VION, M. & COLAS, A. (1999), Maintaining and Reintroducing Referents in French:

Cognitive Constraints and Development of Narrative Skills », Journal of Experimental

Child Psychology 72, pp. 32-50.

VION, R. (1992), La communication verbale. Analyses des interactions, Paris, Hachette.

VITERBI, A. (1967), « Error bounds for convolutional Codes and an asymptotically

optimum decoding algorithm », IEEE Transactions on Information Theory, vol. 2, pp.

260-269.

W WALKER, M. (1996), « Limited attention and discourse structure », Computational

Linguistics 22 (2), pp. 255-264.

Bibliographie

487

WALKER, M. (1998), « Centering, anaphora resolution and discourse structure », in M.

Walker, A. Joshi & E. Prince (eds.), Centering in Discourse, Oxford University Press,

pp. 401-435.

WALKER, M., JOSHI, A. & PRINCE, E. (1998a), Centering in Discourse, Oxford

University Press.

WALKER, M., JOSHI, A. & PRINCE, E. (1998b), Centering Theory in Discourse,

Oxford, Clarendon Press.

WALKER, M., JOSHI, A. & PRINCE, E. (1998c), « Centering in Naturally-Occuring

Discourse: An Overview », in M. Walker, A. Joshi & E. Prince (eds.), Centering Theory

in Discourse, Oxford, Clarendon Press, pp. 1-26.

WANG, V.S.–Y., (1967), « Phonological features of tone », International Journal of

American Linguistics 33 (2), pp. 93-105.

WELLS, J.C. (1990), Pronunciation Dictionary, London, Longman.

WELLS, W.H.G. (1986), « An experimental approach to the interpretation of focus in

spoken English », in C. Johns-Lewis (ed.), Intonation in Discourse, London, Croom

Helm.

WERLICH, E. (1976), A Text Grammar of English, Heidelberg, Quelle & Meyer.

WICHMANN, A. (1991), Beginnings, middles and ends: intonation in text and discourse,

PhD. Dissertation, Lancaster University.

WICHMANN, A., HOUSE, J. & RIETVELD, T. (1997), « Peak displacement and topic

structure », in A. Botinis (ed.), Intonation: Theory, Models and Applications,

Proceedings of ESCA workshop on Intonation, Athens.

WICHMANN, A. (2000), Intonation in Text and Discourse: Beginnings, Middles and Ends,

Pearson Education, London, Longman.

WICHMANN, A. (2002), « Attitudinal intonation and the Inferential Process », in

Proceedings of Speech Prosody 2002, Aix-en-Provence, pp.

WICHMANN, A., HOUSE, J. & RIETVELD, T. (2000), « Discourse Constraints on F0

Peak Timing in English », in A. Botinis (ed.), Intonation: Analysis, Modelling and

Technology, Dordrecht, Kluwer Academic Press, pp. 163-184.

WIDDOWSON, H.G. (1979), « Rules and procedures in discourse analysis », in T. Myers

(ed.), The Development of Conversation and Discourse, Edinbourg, Edinburgh


WIGHTMAN, C. (2002), « ToBI or not ToBI? », in Proceedings of Speech Prosody 2002,

Aix-en-Provence.

Bibliographie

488

WILLIAMS, B. (1996), « The formulation of an intonation transcription system for British

English », in G. Knowles, A. Wichamnn & P. Alderson (eds.), Working with Speech,

London, Longman, pp. 38-57.

WILSON, D. (1998), « Discourse, coherence and relevance: A reply to Rachel Giora »,

Journal of Pragmatics 29, pp. 57-74.

WILSON, D. & SPERBER, D. (1990), « Forme linguistique et pertinence », Cahiers de


WILSON, D. & SPERBER, D. (2002), « Relevance Theory », UCL Working Papers in


WITTGENSTEIN, L. (1922), Tractatus logico-philosophicus, London, Routledge & Kegan

Paul.

WITTGENSTEIN, L. (1929-1932), Wittgenstein und der Wiener Kreis, notes rédigées par

Waissmann, F., Oxford, Blackwell.

WITTGENSTEIN, L. (1958), Philosophical Investigations, Oxford, Blackwell.

WITTGENSTEIN, L. (1961), Tagebücher 1914-1916, Oxford, Blackwell.

WITTGENSTEIN, L. (1991), Wittgenstein et le Cercle de Vienne, notes rédigées par

Waissmann, F., Mauvezin, TER (traduction de Wittgenstein 1929-1932).

WITTGENSTEIN, L. (1994), Tractatus logico-philosophicus, Paris, Gallimard (traduction

de Wittgenstein 1922).

WOLTERS, M. & BYRON, D. (2000), « Prosody and the Resolution of Pronominal

Anaphora », in Proceedings of the International Conference on Computational

Linguistics (COLING 2000), Saarbrück, Allemagne, pp. 919-925.

WOO, N. (1969), Prosody and Phonology, Thèse de doctorat, M.I.T., Cambridge, Mass.,

Bloomington, Indiana University Linguistics Club.

Y YIP, M. (1980), The Tonal Phonology of Chinese, Thèse de doctorat, M.I.T., Cambridge,

Mass., Bloomington, Indiana University Linguistics Club.

YULE, G. (1980), « Speaker’s topic and major paratones », Lingua 52, pp. 33-47.

YULE, G. (1982), « Interpreting anaphora without identifying reference », Journal of

Semantics 1, pp. 315-323.

Z ZIV, Y. (1996), « Inferred antecedents and epithets: Clues in anaphor resolution », IndiAna

Workshop, Lancaster, July 19, 1996.

Bibliographie

489

ZRIBI-HERTZ, A. (1992), « De la deixis à l’anaphore : quelques jalons », in M.-A. Morel &

L. Danon-Boileau (eds.), La Deixis (Colloque en Sorbonne, 8-9 juin 1990), Paris,

Presses Universitaires de France, pp. 603-612.