institut polytechnique de grenoble - afcp-parole.org · collecte dʹexpressions émotionnelles en...

361
INSTITUT POLYTECHNIQUE DE GRENOBLE N° attribué par la bibliothèque |__|__|__|__|__|__|__|__|__|__| THESE pour obtenir le grade de DOCTEUR DE L’Institut polytechnique de Grenoble Spécialité: « Ingénierie de la Cognition, de la Création et des Apprentissages» préparée au laboratoire GIPSAlab, Département Parole et Cognition dans le cadre de l’Ecole Doctorale « Ingénierie pour le vivant : santé, cognition, environnement » présentée et soutenue publiquement par Nicolas Audibert le 2 décembre 2008 Prosodie de la parole expressive : dimensionnalité dʹénoncés méthodologiquement contrôlés authentiques et actés DIRECTEURS DE THESE Véronique Aubergé et JeanLuc Schwartz JURY M. Christian Boitet, Président M. JeanFrançois Bonastre, Rapporteur Mme. Jacqueline Vaissière, Rapporteur M. JeanLuc Schwartz, Directeur de thèse Mme. Véronique Aubergé, Coencadrante M. Nick Campbell, Examinateur M. Thierry Moudenc, Examinateur M. Laurent Besacier, Examinateur

Upload: hathu

Post on 02-Jul-2019

218 views

Category:

Documents


0 download

TRANSCRIPT

  • INSTITUTPOLYTECHNIQUEDEGRENOBLE

    Nattribuparlabibliothque |__|__|__|__|__|__|__|__|__|__|

    THESE

    pourobtenirlegradede

    DOCTEURDELInstitutpolytechniquedeGrenoble

    Spcialit:IngnieriedelaCognition,delaCrationetdesApprentissages

    prpareaulaboratoireGIPSAlab,DpartementParoleetCognitiondanslecadredelEcoleDoctoraleIngnieriepourlevivant:sant,cognition,environnement

    prsenteetsoutenuepubliquement

    par

    NicolasAudibert

    le2dcembre2008

    Prosodiedelaparoleexpressive:dimensionnalitdnoncsmthodologiquementcontrlsauthentiquesetacts

    DIRECTEURSDETHESEVroniqueAubergetJeanLucSchwartz

    JURY

    M.ChristianBoitet, Prsident M.JeanFranoisBonastre, Rapporteur Mme.JacquelineVaissire, Rapporteur M.JeanLucSchwartz, Directeurdethse Mme.VroniqueAuberg, Coencadrante M.NickCampbell, Examinateur M.ThierryMoudenc, Examinateur M.LaurentBesacier, Examinateur

  • Remerciements

    2

    Remerciements

    Les travauxde rechercheprsentsdans cette thsedoivent beaucoup auxpersonnesavecquijaicollabor,ainsiqucellesquimontpermisdemenercestravauxdansdesconditionsfavorables.Sansavoirlaprtentionderdigeruntextedignedelaidequecespersonnesmontapport,ettoutentantconscientdecertainementenoubliercertains,jetienslesyassociertraverscesremerciements.

    Toutdabord,jeremercieVroniqueAubergqui,audeldelencadrementscientifiquedema thse,a toujourseufoienmescapacits,etcedsmonarriveauDpartementParole etCognition deGipsalab (qui sappelait encore Institut de laCommunicationParle)pourmonstagedefindtudesdingnieureninformatiquealorsque jenavaisquune ide trsvaguede cequepouvait tre la recherche scientifique.Au coursdesannesquejaipassGrenoble,ellenaeudecessedemencouragerpoursuivredanscettevoieetne jamaiscderaudcouragementni lafacilit,ycomprispendant lesmoments trs difficiles quelle a pu traverser. Son immense culture scientifique,notamment dans les domaines des sciences du langage, de linformatique, de lapsychologieexprimentalemaisaussidelaphilosophie,etsesnombreusesideslafoisnovatricesetambitieuses,onttunesourcedinspirationinpuisablepourmontravailet je suis fierdavoirpu enmettre enmusiquequelquesunesde ses idesdans cettethse.Sisaprfrencemarquepourlesenvoleslyriquesautourduncafaudtrimentdescontigencespratiquesmaparfoisangoiss,toutparticulirementlesveillesdedatelimitederendudarticles, jaibiensouventralisplustardlaportedecesdiscussionsquimontpermisdeprogresserdansmarflexionscientifique.Deplus,cestgrceelleet son rayonnementdans la communaut scientifiqueque jaipunouerdes contactsavecdesacteursmajeursde larecherchedans lesdomainesconcernsparmestravauxdethseetmimpliquerdansdenombreuxprojetscollaboratifs.MerciVropourtoutesces idesque tuasbienvoulupartageravecmoietpour tabienveillancemongardavant,pendantetaprsmathse.

    MerciJeanLucSchwartz,directeurofficieldemathse,qui,silnapastdirectementimpliqudans son encadrement scientifique, sestplidebonnegrce auxobligationsadministratativesliescettefonctionquandbienmmejemyprenaistardivement,margulirementcomplimentsurlaqualitdestravauxquenousmenions,etafaitleffortderelireuneversionprliminairedecemanuscritenapportantquelquescommentairesconstructifs.

  • Remerciements

    3

    Jadresse galement mes remerciements aux chercheurs reconnus qui mont faitlhonneurdtremembresdemonjurydethsemalgrlesnombreusessollicitationsdontils sont lobjet, et dont les commentaires positifs surmes travaux formuls avant etpendantmasoutenancemontbeaucouptouch,commencerparlesdeuxrapporteurs:JacquelineVaissirequiaralisunerelectureminutieuseetacommencminformeraufuretmesuredeserreursquellerelevaitdslelendemaindelenvoidelaversionlectronique, ce qui a facilitma tche de correction, et JeanFranois Bonastre qui,malgr le chocque lui a caus ladcouverteduvolumede cette thse, inhabituel eninformatique,nemenapastenurigueuretlagalementreluetcorrigattentivement,allant ensuite jusqumeproposerdintgrer son quipepourun stagepostdoctoral.MerciChristianBoitetdavoiracceptdeprsidercejuryetfaitensuiteensortequelerapportdesoutenancesoitterminpourlacampagnedequalificationsmalgrlesdlaistrs restreints.Merci enfin aux examinateurs :Nick Campbell qui aprs avoir t lorigineduprojetExpressiveSpeechProcessingmen en collaborationavec le centrederecherche japonais ATR qui a financ lenregistrement du corpus Sound Teacher etpermis lvaluation du paramtreNAQ, a fait leffort de lire un document rdig enfranaisetaeffectuun longvoyagedepuis le Japonpourserendremasoutenance,ThierryMoudencsansquilacollaborationavecFranceTelecomR&DtraversleContratde Recherche Externalis Synthse adaptative de la parole expressive qui a abouti unepartie des rsultats relatifs aux dimensions acoustiques de la prosodie expressiveprsentsdanscettethsenauraitpastpossible,etLaurentBesacierquilasuitedemathsema intgrsongroupederechercheenparoleauLIGpourdesdiscussionsfructueuses.

    Bienquilnesoitpasofficiellementassocicettethse,AlbertRilliardmriteuneplacede choixdans ces remerciements. Surplace Grenoblepuis distancedepuisOrsayaprs samutation au LIMSI, il a assur un rlemajeur dans lencadrement demontravail traversson implicationdans ledveloppementduscnarioSoundTeacher, lerecueil et la numrisation du corpus, sa participation llaboration des protocolesdvaluationperceptiveetdesinterfacesgraphiquesassocies,sestalentsdepdagoguepourme transmettre ses connaissances en statistiques, et enfin les corrections et lescommentaireslafoispertinentsetdrlesquilaapportauxversionsprliminairesdecemanuscrit.Merciluipoursonhumourquimapermisderelativiserlesmomentsdestress, pour les nombreuses discussions autour de la gastronomie et de lesprit declocher, et pour sa gentillesse et tous les bons moments partags au laboratoire etpendant les confrences. Toutes ces qualits compensent plus que largement sesmoqueries rptes surma tenue vestimentaire (certes bienmoins lgante que seslgendairesvestesdecontrleur),quejeluipardonnebienvolontiers.

  • Remerciements

    4

    Merci auxpersonnesque jenaipasdj cit, avecqui jai collabordans le cadredediffrents projets, dans une ambiance la fois studieuse et amicale :AlainArnal etChristopheSavariauxduGipsalabsurlamiseenoeuvreduscnarioSoundTeacher,lacollecteetlanumrisationetlasynchronisationdessignaux,SolangeRossatoduGipsalabetParhamMokhtaridATR(Nara,Japon)surlvaluationdelalgorithmedextractionduparamtreNAQdveloppparcedernier,OlivierRosecetDamienVincentdeFranceTlcom R&D sur lapplication des expressions motionnelles de leur mthodedanalyse/synthseARXLF,PetriLaukkadudpartementdepsychologiedelUniversitdUppsala (Sude) sur lvaluation des dterminants perceptifs de la typicalitdexpressions motionnelles, Janos Szabo,Mark Fk et Gza Nmeth du laboratoireSpeechLabdeBudapest (Hongrie)sur lapplicationduscnarioSoundTeacherpour lacollectedexpressionsmotionnellesenhongrois,etTamasBohmdumme laboratoiresurlatranformationdesignauxdeparolepourlasynthsedelaglottalisation.

    MerciNathalieHenrichetSolangeRossatoquiontcontribucettethseenmefaisantbnficierdeleurexpertisesurltudedelaqualitdevoixetlacoustiquedelaparole.MerciaussiJulietteKahnquiareludespassagesdemonmanuscritetacontribularendre plus lisible en traquant impitoyablement les phrases de plus de 10 lignes, Isabelle Rousset quima aid rectifier les incohrences bibliographiques, et enfin Virginie Zampa et Auriane Faure qui mont permis de tenir les dlais promis auxrapporteurspourlenvoidemonmanuscritenmaidantcorrigerlesderniersproblmesdemiseenpagependantquejemescrimaitsurlardactiondelaconclusion.

    Ungrandmerci aux locuteurspigsparSoundTeacher,quiont eu lamabilitde seprter ensuite au protocole dautovaluation. Merci aussi aux nombreux sujets,collgues,tudiants,amisouamisdamisquiontparticipauxvaluationsperceptivesmalgr leur ct fastidieux, pour certains sansmme avoir les soudoyer avec destablettesdechocolat,avecunementionparticulireauxfillesdulaboratoirequionttleplussouventsollicitesetquisereconnatront.

  • Remerciements

    5

    Dans lecadredecesprojetsetdesnombreusesconfrencesauxquelles jaieu lachancede participer, jai t amen solliciter frquemment lquipe administrative dulaboratoireet je tiensaussiremercier lespersonnesconcernes.Merciauxsecrtairesqui se sont succdesdans lapartie Stendhalde lICPpuisduDPCGipsalab, etonttoujourssuaccdermesdemandesavec lesourireenralisantparfoisdesprouessesadministratives :Dominique,MarieTh,Aline,MarieAnge etHouria.Merci aussi Jeanine, la femme demnage du laboratoire, qui nema pas tenu rigueur de monapprochetrspersonnelledurangementdemonbureaunidemespromessesdymettrebonordrequinontpastoujourstsuiviesdeffet.

    Parmilespersonnesquejenaipasdjcitnommmentpourdautresraisonsmaisquidevraient aussi figurer dans cette rubrique,merci aussi aux chercheurs, techniciens,doctorants ou stagiaires rests plus oumoins longtemps au laboratoire, qui par leursourire, leursblagues, leurgentillesse,etpour certaineset certainsenpartageantmongotimmodrdescalembours,ontrenduaussiagrabletoutletempsquejaipasssurplace. Je les citerai par ordre alphabtique pour ne pas avoir les hirarchiser, enmexcusantplatementauprsde ceuxque joublie : lesdeuxAnne,Carole,Coriandre,Claire,Elisabetta,Emilie,Fanny,Hien,JeanPierre,Julien,Kvin,Krystyna,Lionel,Luca,Marc,Maria,Myrtille,Nadia,Nathalie,Omran,Sandra,Silvia,Taka,Tiphaine,VirginieetYvon.

    MerciauxamisdelUniversitStendhalquejenaipasdjcit,avecquijaieuplaisirpartager djeuners et pauses caf dans le patio : les gentils geeks du DpartementdInformatique Pdagogique ou assimils, Agns, Acha, Claude, Lucy, Mathieu,RoselineetThomas,etlescopinesduLIDILEM,Aurlie,LaurenceetMyriam.

    Merci aux groupesdamis grenoblois avec qui jai pume changer les idesdans uneambiancefestive:lesmusiciensetassimilsOxa,Greg,Claire,Mitch,Stouf,AureletlesjeunesEDF(jaimebeaucoupcequevousfaites,vouslaijedjdit?);Pierre,Caro,BibietCyprien ;Yannick,Guillaume,Milou,Kristeletlerestedelabandedespps.Etmerci aussi aux anciens rouennais et anciens belfortainsque jenaipaspuvoir aussisouvent,maisquichaqueoccasiondenousretrouvermontdonnlimpressiondelesavoirquittlaveille.

    Mercienfinmafamilledemavoirsoutenudansmeschoix,etdenepastropmavoirtenurigueurdesweekends familiauxquisemtamorphosaientsanspravisenweekends studieux.Ungrandmerciaussieuxpouravoirorganisunmagnifiquepotdethsequimavaludenombreuxcomplimentsquiauraientdleurrevenir.

  • Tabledesmatires

    6

    Tabledesmatires

    Remerciements............................................................................................................................... 2

    Tabledesmatires ......................................................................................................................... 6

    Conventionsdetypographieetdenotation ............................................................................ 13

    1. Affectsetcognition:enjeuxthoriquesettechnologiques ........................................... 16

    1.1. Lesmotionsdanslacommunication...................................................................... 16

    1.2. Laprosodieexpressive:questionsderecherche ................................................... 18

    1.3. Prsentationdestravauxraliss ............................................................................. 20

    2. Lesthoriesdesmotions................................................................................................... 22

    2.1. Pourquoithoriserlesmotions? ............................................................................ 23

    2.2. Brefhistorique ............................................................................................................. 23

    2.3. Laperspectivedarwinienne ...................................................................................... 25

    2.3.1 Luniversalitdesmotions .................................................................................. 25

    2.3.2 Lesmotionsdebase.............................................................................................. 27

    2.4. Laperspectivejamesienne......................................................................................... 27

    2.4.1 LesthoriesdeJamesetLange ............................................................................. 28

    2.4.2 LathoriecentraledesmotionsdeCannon...................................................... 29

    2.5. Leconstructivismesocial ........................................................................................... 29

    2.6. Laperspectivecognitive ............................................................................................ 30

    2.6.1 LesthoriesdArnoldetdeFrijda........................................................................ 30

    2.6.2 LathoriedeScherer.............................................................................................. 31

    2.6.3 LapprochedeDamasio ......................................................................................... 33

    2.7. Emotionsetexpressions............................................................................................. 35

    3. Technologiesdelaparoleexpressive ............................................................................... 38

    3.1. Synthseexpressive.................................................................................................... 39

    3.1.1 Gnralits ............................................................................................................... 39

    3.1.2 Synthseparformants ........................................................................................... 39

  • Tabledesmatires

    7

    3.1.3 Synthseparconcatnation................................................................................... 40

    3.1.4 Synthseparslection............................................................................................ 41

    3.1.5 Transformationdevoix ......................................................................................... 43

    3.2. Reconnaissanceautomatiquedesaffects................................................................. 44

    3.2.1 Principesgnraux ................................................................................................. 44

    3.2.2 Breftatdelart....................................................................................................... 45

    4. Prosodieetmotion............................................................................................................. 47

    4.1. Laprosodie:unedfinitioncontroverse............................................................... 48

    4.2. Lesparamtresclassiques.......................................................................................... 48

    4.3. Lafonctionexpressivedelaprosodie...................................................................... 49

    4.4. Quelsparamtresretenir? ........................................................................................ 50

    4.5. LemodleprosodiquedAuberg............................................................................ 51

    4.5.1 Unmodlefonctionneldelaprosodie ................................................................ 51

    4.5.2 Lesprincipesdumodle........................................................................................ 52

    4.5.3 CClone:unemodlisationdelacommunicationparsystmecoopratif.... 54

    5. Mthodologiederecueildedonnes................................................................................ 57

    5.1. Unemthodologiehypothticoinductive .............................................................. 58

    5.2. Capturedecorpusdexpressionsmotionnelles.................................................... 59

    5.2.1 Lesmthodesderecueil ........................................................................................ 59

    5.2.2 Lesmotionsinvivo................................................................................................ 62

    5.2.3 Lesexpressionsactesdesmotions.................................................................... 66

    5.2.4 Linductiondmotionsenlaboratoire ................................................................ 71

    5.3. LeparadigmeduMagiciendOzperturb........................................................ 72

    5.3.1 Dfinition ................................................................................................................. 72

    5.3.2 DesmagiciensdOzclassiques........................................................................ 73

    5.3.3 etperturbs......................................................................................................... 74

    5.3.4 Quelletcheprtexte,quellesperturbationspourquellesmotions? ............ 75

    5.4. Uneplateformeddie:EWiz................................................................................ 76

  • Tabledesmatires

    8

    5.4.1 Unchecricheenenseignements:lescnarioTopLogic ................................ 79

    5.4.2 LescnarioSoundTeacher.................................................................................... 82

    5.5. Laproblmatiquedelannotationdesexpressionsspontanes........................... 87

    5.5.1 Quellemthodepourannoterlesaffects?.......................................................... 87

    5.5.2 Lannotationexperte .............................................................................................. 88

    5.5.3 Deslimitesdelannotationexperte...................................................................... 91

    5.5.4 Unemthodealternative:lautoannotationdesaffects .................................. 92

    6. LecorpusSoundTeacher/EWiz..................................................................................... 101

    6.1. Sujetsrecruts............................................................................................................ 102

    6.2. Quellesmesurespourquelsparamtres?............................................................. 103

    6.2.1 Lesignalacoustique ............................................................................................. 103

    6.2.2 Lesignalvisuel...................................................................................................... 103

    6.2.3 Lescapteursbiophysiologiques ........................................................................ 104

    6.2.4 Mesurelectroglottographique .......................................................................... 105

    6.2.5 Synchronisationdessignaux............................................................................... 105

    6.3. Miseenuvredelautoannotation ...................................................................... 106

    6.4. Prtraitementettiquetagedesdonnescollectes............................................. 107

    6.5. Autrestravauxralisssurlecorpusrecueilli...................................................... 108

    7. Laqualitdevoix .............................................................................................................. 111

    7.1. Introduction............................................................................................................... 112

    7.2. Questcequelaqualitdevoix? ........................................................................... 114

    7.3. Descriptionphontique ........................................................................................... 115

    7.3.1 LataxonomiedeLaver(1980)............................................................................. 115

    7.3.2 QuelquesraffinementsdelataxonomiedeLaver ........................................... 119

    7.3.3 Descriptionsdimensionnelledelaqualitdevoix.......................................... 120

    7.4. Evaluationperceptivedelaqualitdevoix.......................................................... 121

    7.5. Mesuresacoustiquesdelaqualitdevoix............................................................ 122

    7.5.1 Mesuresspectrales................................................................................................ 122

  • Tabledesmatires

    9

    7.5.2 Mesuresdelapentespectraleenhautesetbassesfrquences....................... 124

    7.5.3 Mesuredesapriodicits ..................................................................................... 127

    7.6. Paramtrisationdelaqualitdevoix .................................................................... 128

    7.6.1 Descriptiondelondededbitglottique........................................................... 128

    7.6.2 Mesureparlectroglottographie(EGG)............................................................ 130

    7.7. Synthsedelaqualitdevoix................................................................................. 132

    7.8. Estimationparfiltrageinverse................................................................................ 133

    7.8.1 Lathoriesourcefiltre(Fant,1960) ................................................................... 133

    7.8.2 Laproblmatiquedelinversion ........................................................................ 135

    7.8.3 Lefiltrageinverse ................................................................................................. 135

    7.9. LeQuotientdAmplitudeNormalis(NAQ) ....................................................... 137

    7.9.1 Dfinition ............................................................................................................... 137

    7.9.2 NAQ:la4medimensionprosodique(Campbell,2003)? ............................... 138

    7.9.3 CalculdeNAQ...................................................................................................... 139

    7.9.4 TraitementdessignauxEGG .............................................................................. 139

    7.9.5 EvaluationdelalgorithmedecalculduparamtreNAQ.............................. 140

    7.10. Versunsuividescontoursdequalitdevoix? ................................................... 147

    8. Analysesacoustiquesetperceptivesducorpusrecueilli ............................................ 149

    8.1. Slectiondunsouscorpusaudiovisuelpertinent............................................... 150

    8.2. DescontoursdeF0porteursdinformation.......................................................... 150

    8.2.1 Gradiencevs.contours......................................................................................... 150

    8.2.2 Slectiondesstimuli............................................................................................. 151

    8.2.3 Caractristiquesdescontoursdefrquencefondamentale............................ 151

    8.2.4 Contoursdefrquencefondamentale ............................................................... 154

    8.2.5 Discussion.............................................................................................................. 157

    8.3. Mthodologiedanalysestatistique ....................................................................... 158

    8.3.1 Reconnaissanceetconfusions ............................................................................. 158

    8.3.2 Testsdhypothsespourlescomparaisonsdemoyennes .............................. 160

  • Tabledesmatires

    10

    8.3.3 Classificationhirarchique.................................................................................. 164

    8.4. Evaluationperceptivedusouscorpusslectionn.............................................. 165

    8.4.1 Slectiondesstimuli............................................................................................. 166

    8.4.2 Protocoleexprimental ........................................................................................ 166

    8.4.3 Analysequalitative............................................................................................... 168

    8.4.4 Regroupementdecatgoriesparclassificationhirarchique......................... 172

    8.4.5 Analysestatistiqueaprsregroupement........................................................... 176

    8.4.6 Influencedutypednoncsurletauxdereconnaissance ............................ 182

    9. Dimensionnalit,localisationetpertinenceperceptivedesindicesacoustiques..... 185

    9.1. Introductiongnrale............................................................................................... 186

    9.2. Etudedespoidsrelatifsdesdimensionsprosodiques ........................................ 187

    9.2.1 Introduction........................................................................................................... 187

    9.2.2 Slectiondestimuliderfrence........................................................................ 190

    9.2.3 Propritsacoustiquesdesstimuliretenus....................................................... 192

    9.2.4 Projectiondecontoursdefrquencefondamentaleetdintensit................. 196

    9.2.5 ProjectionpartirdunemodlisationARXLF............................................... 211

    9.2.6 Comparaisondesrsultatsobtenusdanslesdeuxexpriences .................... 221

    9.2.7 Discussion.............................................................................................................. 231

    9.3. Queltimingpourledcodagedesexpressionsmotionnelles? ....................... 235

    9.3.1 Introduction........................................................................................................... 235

    9.3.2 Leparadigmedudvoilementprogressif......................................................... 236

    9.3.3 Slectiondesstimuliderfrence ...................................................................... 238

    9.3.4 Dcoupagedesstimulipourledvoilementprogressif ................................. 239

    9.3.5 Evaluationperceptive .......................................................................................... 239

    9.3.6 Analysedesrsultats............................................................................................ 241

    9.3.7 Analysestatistique ............................................................................................... 245

    9.3.8 Discussion.............................................................................................................. 248

    10. Parolemotionnelleactevs.spontane ................................................................... 251

  • Tabledesmatires

    11

    10.1. Evaluationdelatypicalitdexpressionsactesetspontanes ......................... 252

    10.1.1 Catgorisationtaxonomiquevs.drivedubut.......................................... 252

    10.1.2 Lecasdesexpressionsmotionnelles............................................................ 253

    10.1.3 Prslectiondestimuliaudio.......................................................................... 254

    10.1.4 Evaluationperceptivedelatypicalitetdesesdterminants................... 256

    10.1.5 Analysedesrsultats ....................................................................................... 258

    10.1.6 Discussion.......................................................................................................... 262

    10.1.7 Limitesdeltudedelatypicalit .................................................................. 263

    10.1.8 Caractristiquesdesexpressionsactesvs.spontanes ............................. 265

    10.2. Discriminationdexpressionsactesvs.spontanes ........................................... 265

    10.2.1 Expressionsactesvs.spontanes.................................................................. 265

    10.2.2 Slection ............................................................................................................. 267

    10.2.3 Evaluationperceptive ...................................................................................... 268

    10.2.4 Analysestatistique ........................................................................................... 269

    10.2.5 Unforteffetinterjuge ..................................................................................... 272

    10.2.6 Effetdelaconditiondeprsentationetdulocuteur ................................... 274

    10.2.7 Effetdelmotion ............................................................................................. 275

    10.2.8 Autreseffets ...................................................................................................... 277

    10.2.9 Rledelintensitmotionnelleperue ........................................................ 278

    10.2.10 Discussion.......................................................................................................... 280

    11. Quelqueslimitesdeltuderalise........................................................................... 281

    11.1. Protocolederecueildelapartieacteducorpus................................................. 281

    11.2. Limitestechniqueslanalysedelintensitetdelafrquencefondamentale 281

    12. Conclusion ..................................................................................................................... 283

    13. Perspectives ................................................................................................................... 287

    13.1. Uneperspectivesurlexpressionvocaledudgot ............................................ 287

    13.2. Unpluslargepaneldmotionsetdaffectssociaux ........................................... 290

    13.3. Multilinguismeetinterculturalit......................................................................... 291

  • Tabledesmatires

    12

    Bibliographie .............................................................................................................................. 293

    Publicationsducandidat.......................................................................................................... 311

    Revueaveccomitdelecture........................................................................................... 311

    Chapitresdouvrages........................................................................................................ 311

    Confrencesetworkshopsinternationauxavecactespublis.................................... 311

    Confrencesetworkshopsfrancophonesavecactespublis...................................... 312

    AnnexeI: Schmadumontageutilis(Arnal,2003) ..................................................... 313

    AnnexeII: Autoannotationdeslocuteursslectionns................................................. 314

    AnnexeIII: ProjectiondimensionnelledescontoursdeF0etdintensit ..................... 339

    AnnexeIV: ProjectiondimensionnellepartirdunemodlisationARXLF .......... 344

    AnnexeV: Expriencededvoilementprogressif .......................................................... 350

    AnnexeVI: Slectiondestimulipourltudedelatypicalitdesexpressions........ 355

    AnnexeVII: Discriminationdexpressionsaudiovisuellesactesvs.spontanes .... 357

  • Conventionsdetypographieetdenotation

    13

    Conventionsdetypographieetdenotation

    Rfrencesbibliographiques

    Lesappelsderfrencesbibliographiquesdansletextesontnotssouslaforme(Auteur,anne) dans le cas dun article ou ouvrage crit par une seul auteur, sous la forme(Premierauteur&Secondauteur,anne)dans lecasdedeuxauteurs,etsous laforme(Premierauteuretal.,anne)danslecasdunnombredauteurssuprieurdeux.

    Dans certains cas cette notation est insuffisante pour identifier sans ambigut unerfrence.Enconsquence,lesrfrencesdontlanotationestsemblablesontdistingueslafoisdanslabibliographieetletexteparunelettreminusculeajoutelanne,parexemple(Ekman,1999a)et(Ekman,1999b).

    Parcommodit, lenomduoudesauteurssont frquemmentmentionndans le texte,lanne tant indique entre parenthses. Par exemple: Suivant les propositions deCampbell(2000)....

    Traductiondetermesanglais

    Nousnous rfronsdanscedocumentunnombre importantdenotions issuesde lalittraturescientifiqueanglophone,dsignespourcertainesparuntermepourlequelilnexistepasdetraductionfranaiseconsacreparlusage,oupourlequellestraductionsproposesdivergentselon lesauteurs.Dans lamesuredupossible,nousnoussommesefforcdeproposerunetraductiondecestermes,enmentionnantentreparenthsesetenitaliques le terme anglais correspondant afin dviter toute ambigit dans leurinterprtation.

    Lescitationsdansletextedextraitsdouvragesouarticlespublisenlangueanglaiseontt traduitesparnossoins, laversionoriginalede lacitationtant indiqueennotedebasdepage.

  • Conventionsdetypographieetdenotation

    14

    Nombresdcimaux

    Lanormefranaisedenotationdesnombresdcimauxselonlaquellelapartieentireestspare de la partie dcimale au moyen dune virgule peut prter confusion,notamment dans le cadre de la prsentation de rsultats de tests statistiquesdhypothses.

    Prenonsainsilexempledeleffetdelmotionprsentesurleurreconnaissanceparlessujetsdanslapremiredenosvaluationsperceptives,dontlesrsultatssontdtaillsensection 8.4. La valeur prise par la fonction F aprs application du terme correctif deHuynhFeldt(Huynh&Feldt,1976)devraitseloncetteconventiontrenoteF(9,5,236,4)=23,8,dounepossibleconfusionlieauxdeuxusagesdistinctsdelavirgule.

    Dansunsoucidelisibilit,nousadoptonsdonclanotationanglosaxonnedesnombresdcimaux et spareronsdonc lesdcimalesde la partie entire aumoyendun pointpluttquedunevirgule.AinsidanslexemplecidessusdevientF(9.5,236.4)=23.8.

    Afindassurer lacohrencedudocument, tous lesnombresdcimauxsontnotsseloncetteconventionanglosaxonne.

    Rsumsdeschapitres

    Afin de faciliter la lecture de cedocument, nous proposons en dbut de chapitre unrsum des diffrents points abords, pour chacun des chapitres lexception delintroductiontendue (section1)etdessections finalesdont laconclusionproprementdite(sections1,1et1).Cersumestplacenttedechapitresousletitre,etestencadrselonleformatsuivant:

    Ceciestunrsumdechapitre.

  • Affectsetcognition:enjeuxthoriquesettechnologiques

    16

    1. Affectsetcognition:enjeuxthoriquesettechnologiques

    1.1. LesmotionsdanslacommunicationLa communication des motions est considre comme un fait majeur du discours(Fonagy &Magdics, 1963; Rossi et al., 1981; Ohala, 1996;Hirst & di Cristo, 1999).Modliser les performances communicatives des humains durant leurs interactionsverbales (Bottineau,2007),rendreunrobotphysiqueouvirtuelmmedesimulercesperformances(Cassel,2000),comprendrelesmcanismescognitifssousjacents(Schereret al., 2001) sont des enjeux de recherches centraux dans ce domaine.Chacun de cesobjectifs scientifiques nous amne, dans le courant dun remarquable regaindintrtpourcesquestions,mettreaveccettethselesmotionsaucentredesprocessusdelacommunication.Audelducloisonnementclassiqueentrecognition,affectetconation,deshypothsesfortesplusrcentesenpsychologiecognitive(voirScherer(2000)pouruntat de lart) et neuropsychologie (Damasio, 1994) donnent aux motions un statutcentral.Alheureolessciencesaffectivessimposentcommeunthmederecherchespcifique(unouvragederfrence,leHandbookonAffectiveSciences,leuradailleurstconsacren2003,etuncycledeconfrences internationalesdegrandeampleurdont lesuccsnesestpasdmenti,AffectiveComputingandIntelligentInteraction,avulejouren2005),lesliensentreaffectsetcognitionseretrouventlabasedesthoriesdelmotion.

    La perception des affects conditionne en amont le schma attentionnel de lhumain(Paschler,1997)ainsiquelesmcanismescognitifsdelaprisededcisions.Frijda(1987)utiliselanotiondeprparationlactionpourdcrirelesmotivationslieslmotion.PourDamasio(1994,2003),motionetraisonfonctionnentcommelesdeuxcomposantesduneseuleentitpsychologiquemergente.Ilaffirmeainsiquelacapacitdexprimeretressentir des motions serait indispensable la mise en uvre des comportementsrationnels.Ainsi lmotion serait la basede lvaluationdesprocessus cognitifs quifondentcequiaclassiquementtappellaraison:pourdclencherlestraitementscognitifs(etdonc lesactions)appropris lasituation, lesujetdoitse trouverdansuntatmotionneladquat.Cettehypothseappliqueauxactesdeparoles (Searle,1969)est dterminante. Non seulement la production dnoncs langagiers permettrait devhiculerlesmotionsressentiesparlelocuteur,maiscellesciseraientloriginemmedelaproductiondunactedeparolepluttquunautre,voiredaucunactedeparole.

    Dunpointdevueapplicatif,laproductionetlaperceptiondesindicesmotionnelsparunrobotparlanten facefaceavecunhumain,peuventsemblersecondaires faceauxcassettes thorique et technologique rencontrs. Pourtant, lorsque les systmesartificielsquittent le cadre confortabledes situations courantesdudialoguepersonne

  • Affectsetcognition:enjeuxthoriquesettechnologiques

    17

    machine et sinscrivent dans des situations dinteraction sensibles aux prises dedcisions,lesmotionsnajoutentpasseulementdunaturelmaisontunimpactdirectsurlefficacitmmedelacommunication.Parconsquent,ilparatlgitimedesupposerque lacomposanteaffectivede lacommunicationseradautantplusncessaireque lessystmesartificielssinscrirontdansdescologiesprochesdurel.Ainsilesconcepteursde tels systmesdevront sinterroger sur la faondviterdeperturber lemcanismepsychologique de lattention, fortement li aux motions. En effet, Pashler (1997)soulignequelaccslinformationestfacilitetmotivparlesvariationsmotionnelles.Deplus,ilsdevrontprendreencompteuneautrequestiontouteaussicentrale,celledela ractiondunutilisateurhumain lorsque sonmcanismedempathie (dont lesbasesneuralescommencenttredcrites(Harris,2003))faitfaceunartefactcommunicantdontilnepeutviterdetraiterlesindicesmotionnels,mmesiceuxcisontdesimplesbiaisnoncontrlsparunsystmesupposneproduirequedesnoncsdclaratifs.Eneffet, comme le souligneDane (1994), qui sinscrit dans la tradition pragmatique delcoledePrague,nepasexprimerdmotionoudattitudeestensoiuneattitude.Lesnoncs prsents donnent donc, volontairement ou non, des informations sur lapersonnalitdusujetparlanthumainouvirtuel,cequitendraitrarticulerlesenjeuxderechercheautourduconceptdepertinenceducloneparlant,etplusparticulirementde lagestionde lexpressivitde saparole.Cettedimensionexpressiveest cependant,dans la plupart des systmes de dialogue existants, considre comme relevant desproblmes rsoudre lorsque la complexit strictement linguistique sera mieuxmatrise.

    Les avatars et autres chatterbots, en interaction communicative avec lhumain,commencenttredousdecroyances,dedsirsetdintentions(Belief,Desire&Intention(Rao&Georgeff, 1995)).Ainsi sont ns lesAffectiveAgents auMedialabMIT (Picard,1997), lesEmbodiedConversational InterfaceAgents (Cassel,2000)ouencore lesBelievableSocial and EmotionalAgents du projetOz (Bryan Loyall, 1996).Que doitonmodliserpour simuler lesperformancesdu vendeur qui sait vendre, avecdes comptenceslangagirespourtant identiques au vendeurmoins efficace?Tant que lamodalit estcelle de lcrit, les affects des agents prennent forme dans leurs stratgiesinteractionnelleset leurexpressivit langagire.Maisces technologiesvisent terme lacommunication faceface: les clones parlants seront incarns dans un corps et unvisage.Lexpressionverbaleounonverbaleestenpremierlieuconcerne,avectoutelacomplexitde lamultimodalitfaciale,gestuelleetparledecesexpressions (voirparexempleScherer&Ellgring(2007)).

    Comme nous lavons voqu cidessus, etmalgr les cueils la fois techniques etthoriques restant rsoudre dans le domaine desAgentsConversationnelsAnims,

  • Affectsetcognition:enjeuxthoriquesettechnologiques

    18

    fairepasser lagestiondesmotionsexprimspar leclonevirtuel larrireplanseraitsansdoute contreproductif.Ainsi, si lon sintresse la seulemodalitde laparoletransmiseparlecanalacoustique,cetteproblmatiqueestdoresetdjcentrale.Eneffetles rcents progrs des technologies de la parole, et plus particulirement la grandenaturalit atteinte par la synthse par slection, ont redfini les enjeuxmajeurs de lacommunication. Lintelligibilit du contenu nest plus le seul vecteur dinformation :lopinion, les attitudes, les intentions, les motions du sujet humain ou virtuel sontgalement des informations essentielles interprtes par lauditeur, qui justifient leseffortsderecherchecroissantsdanscettedirection.

    1.2. Laprosodieexpressive:questionsderechercheLesmotions,etdefaonplusgnralelesaffects,constituentunobjetcomplexedifficiledfinir.Laquestiondeleurinterrelationaveclaparole,etplusspcifiquementaveclaprosodie(lobjetquinousintresseplusparticulirementdanscettethse)peutsemblerinextricable. En effet, les dimensions acoustiques de la prosodie qui permettent devhiculerdesinformationsdordrelinguistiquedonnentgalementdesinformationssurlelocuteurluimme(genre,ge,etc.),ainsiquesurltataffectifdanslequelilsetrouveaumomentauquelilparle,etsurlesintentionsquilexprimeconsciemmentounon.Silne fait aucun doute que le cerveau humain est capable de traiter lessentiel desnombreusesinformationstransmisesparlaprosodieetlavoix,aucunedesmodlisationsproposeslheureactuellenestenmesuredereprsenterdefaonfineledcodagedesdiffrentsniveauxdinformationvhiculsparlaprosodie.

    Outrelintrtquerevtltudeentantquetelledesmcanismescognitifsmisenuvredans cedcodage, ceci a galementdes implicationsdunpointdevue applicatif.Eneffet,ilseraitenvisageabledeconstruireunsystmedereconnaissanceautomatiquedesaffectsexprimsdanslaparoleenneconsidrantquelescaractristiquesacoustiqueslesplus saillantes des affects viss, et sans une connaissance fine de la morphologieprosodique de ces affects. Pourtant, il ne semble pas possible de se passer de tellesconnaissancessilonpoursuitlobjectifdeconstruireunsystmedesynthsedelaparoleexpressive.Considrer que les indices les plus saillants, potentiellement suffisants enreconnaissance, le sont galement en synthse pour gnrer des formes expressivescologiquement valides reviendrait considrer que toute expressiondaffectdans laparole pourrait tre rduite une forme normalise de variation des paramtresacoustiques. Cette variation serait alors paramtrise par un ensemble de valeursglobales quil suffirait de rchelonner pour obtenir des expressions daffects bienformes,devaleursdiffrentes.Or,untelpostulatsemblehasardeux.Pourlillustrerpar

  • Affectsetcognition:enjeuxthoriquesettechnologiques

    19

    unemtaphore triviale, ceci serait comparable au faitde considrerque soufflerdansunesourispermettraitdobtenirunlphant.

    Ltude des expressions prosodiques des affects, et plus spcifiquement celles desexpressions dmotions, soulve de nombreuses questions, parmi lesquelles noussoulignonscellesquinoussemblentcruciales.

    Linformation affective vhicule par la prosodie estelle porte par des indicesgradients (cestdirepardesvaleurs globalesdeparamtrisationdune formedebase) ou par des contours prosodiques (cestdire par la dynamique de sesvariations)?Cettequestionimpliquelestroisconsquencessuivantes:

    (1) Estilpossibledassurerlacompltudedelamodlisationdansloptiquedelasynthse?

    (2) Comment intgrerdans lesmmesdimensions lesprosodiesmotionnelleetlinguistique?

    (3) Comment mesurer ces contours prosodiques alors que la mesure desphnomnesregroupssousletermedequalitdevoixresteunproblmenonrsolu?

    Laprosodiemotionnelleestellevhiculeprioritairementparcertainesdimensionsprosodiques, diffrentes de celles empruntes par la prosodie linguistique?Cettequestionaprincipalementdesconsquencessurlasynthsedelaparoleexpressive.En effet, lapplication seraitplus rsistante si cesdimensionspouvaient contrlesindpendamment.

    Dansquellesmesures les expressionsdaffects contrlesvolontairement sontellesquivalentescellescontrlesinvolontairement?Siellesnelesontpas,selonquelscritresmorphologiquessontellesdiscrimines?Mmesiellessontngligesdanslagrandemajoritdes tudesdudomaine, cesquestions trouventun certain chodepuis quelques annes.Ce regaindintrt estd une remise enquestionpluslarge de lide, selon laquelle la parole motionnelle produite par des acteurs ousimplementsimulepardes locuteursnonentrans fourniraitunerfrencevalidepourmodliserdesphnomnespropreslexpressionspontanedmotions.

    Dansquellemesurelesexpressionsdanslaparoledediffrentstypesdaffectssontellesrgiespardesuniversaux?Cettedernirequestionpeutparatreplussimpledeprime abord. Cependant, ces diffrents types daffects ne sont pas toujoursclairement distingus, ni catgoriss demanire similaire selon les langues et lescultures. De plus, tant donn que leurs expressions sont instancies dans deslanguesdiffrentesetquedesnormessocioculturellespeuventfortementinfluersur

  • Affectsetcognition:enjeuxthoriquesettechnologiques

    20

    latendanceinhiberoumasquercertainesmotionsenfonctiondelasituationdanslaquellecelleciapparat (Scherer etal.,2001), lvaluationde lexistenceounondetelsuniversauxsoulvedimportantsdfismthodologiques.

    1.3. PrsentationdestravauxralissEn section 2, aprs un rapide aperu de lhistorique de ltude des motions, nouspassonsenrevuelesprincipalesthoriesdesmotionsproposesenpsychologie.NousdvelopponsplusparticulirementlespostulatstablisenneuropsychologielasuitedeDamasio, ainsi que les thories cognitivesde lappraisal et enparticulier la thoriedeprocessuscomposantsdeScherer.

    En section 3, nous prsentons un bref tat de lart des principales technologies de laparole expressive que sont la synthse expressive et la classification automatiquedesaffectsexprimspartirdunfluxdeparole.

    Nousabordonsensection4laproblmatiquedeladfinitiondelaprosodieetadoptonsuneapprochefonctionnaliste.Nousprsentonsdefaondtaillelafonctionexpressivedelaprosodie,lespropositionsissuesdelaphonostylistiqueetleurlienavecltudedesexpressionsvocalesissuedelapsychologie,puislhypothseduneprosodieencontourssuperpositionnelsdirigeparsesfonctionsqueproposeAuberg.

    Ensection5,nousdressonsuntatdelartdesdiffrentesmthodesderecueildecorpusdeparole motionnelle, en soulignantpour chacune leurs avantages et inconvnients.Nous prsentons la plateforme logicielle EWiz, que nous avons dveloppe afindinduire et recueillir des expressions authentiques daffects selon un scnario deMagiciendOz.Nousdtaillons lesdeux scnarios successifsmis enplace laidedecetteplateforme,etplusparticulirementlesecond,SoundTeacher.Cescnarioimiteunlogiciel daide lapprentissage des langues trangres, dans le but de collecter desexpressionsmotionnellesproduitessurdesnoncspour laplupartmonosyllabiques,hors de toute interaction sociale. Puis nous prsentons lextension de ce scnario,proposepourlessujetsacteurs,afindeleurfairerejouersurlesmmesnoncslestatsmotionnels ressentis et exprims au cour de lexprience.Nous discutons enfin lesdiffrentesapprochesdelannotationdesaffectsexprimsdanslescorpusspontans,etproposons,ennousappuyantsurlalittraturerelativelammoireautobiographique,un protocole dautoannotation des affects ressentis et exprims par les sujets delexprience.

    En section 6, nous prsentons la mise en uvre du scnario Sound Teacher pourlenregistrementduncorpusmultimodalde17locuteurs(10femmes,7hommes)dont7acteurs,corpussurlequelnousavonsfondlesanalysesprsentesdanslasuitedecette

  • Affectsetcognition:enjeuxthoriquesettechnologiques

    21

    thse.Nous dtaillons les signaux enregistrs ainsi que leur synchronisation et leurprtraitement.

    Nousabordonsensection7lanotiondequalitdevoixetcommenonsparprsentersadescription phontique dans la littrature avant de passer en revue les diffrentesapproches proposes pour sa mesure et son tude. Nous prsentons galement lesrsultats dune exprience visant valuer, sur les productions spontanes de deuxlocuteursmasculins, lavaliditpourdesmesures finesde type suivide contourdunalgorithmedextractionduparamtreNAQoprantpar filtrage inverse etauparavantvalidsuruncorpusexpressifspontandetrsgrandetaille,enconfrontantcesmesuresdesmesureslectroglottographiques.

    En section 8, aprs avoirprsent lesprincipaux outilsdanalyse statistique auxquelsnous avons recours dans nos analyses de rsultats perceptifs, nous proposons uneanalyse perceptive et acoustique dnoncsmonosyllabiques slectionns partir desproductions de lun des locuteurs masculins, dans laquelle nous nous efforonsdvaluer sparment les diffrentes dimensions prosodiques. Nous tudions toutdabord les formes de contours dexpressions actes et spontanes produites par celocuteur,puisprsentons les rsultatsdune valuationperceptivednoncs acts enconditionsaudioetaudiovisuelle.

    Ensection9,ousprsentonslesrsultatsdedeuxtudesdvaluationperceptivefondessur une projection spare de dimensions prosodiques ( laide de TDPSOLA et delalgorithme ARXLF) dnoncs acts slectionns parmi les productions du mmelocuteur. Enfin, nous dtaillons les rsultats dune tude de dvoilement progressifdnoncsacts.

    Nousnousintressonsensection10auxrsultatsdunetudeperceptiveportantsurlesdterminantsde latypicalitdexpressionsmotionnellesacteetspontanesproduitespar 6des 7 acteurs enregistrs.Ensuite,nousprsentons les rsultatsdune tudedediscriminationdexpressionsactesetspontanesproduitesparlesmmeslocuteurs.

    En section11,nous revenons surquelques limitesde ltudequenousavons ralise,avant de conclure en section 12 en rcapitulant les principaux rsultats que nousobtenonsetdouvrirensection13surquelquesperspectives.

  • Lesthoriesdesmotions

    22

    2. Lesthoriesdesmotions

    Danscettesection,aprsavoirintroduitlintrtquenousaccordonslathorisationdesmotions,nousdressonsunbrefhistoriquedeltudedesmotionsparlaphilosophie,etnotammentlespointsdevuecartsienetspinoziste.Nouspassonsensuiteenrevuelesprincipales approches de lmotion proposes par la psychologie: lapprochedarwiniennequipostulelexistencedunnombrelimitdmotionsditesdebasequiseraient universellement partages en tant que produits de lvolution, lapprochejamesienne qui accorde lactivation physiologique un rle central dans ledclenchement des processus motionnels, le constructivisme social qui considre lesmotions comme des constructions sociales fonction du contexte dans lesquelles elleapparaissent,et laperspectivede lappraisalselon laquelle lmotionestdtermineparlvaluationcognitivedelasituation.

    Nous dveloppons plus avant la thorie des processus composants de Scherer, danslaquelle la survenue dune motion est considre comme relevant dune squencedadaptationslenvironnementdelorganismeaufuretmesuredesprocessusplusoumoins complexesdvaluation cognitivedes stimuli.Nous revenonsgalement sur lesthoriesavancesparDamasiopartirdeltudedecascliniquesenneuropsychologie,quimettent enavant lancessitdmotionsbien formespouruneprisededcisionadapte, etdonnentun clairage sur les corrlatsneurauxdes motions ressentiesvs.simules.

  • Lesthoriesdesmotions

    23

    2.1. Pourquoithoriserlesmotions?

    Seposerleproblmedelexpressiondesmotionstraverslesvnementsdelaparole,cestforcmentsituerdabordlmotiondanssoncontextethoriquegnral.Ilneparatpaspossibledetraiterleproblmedelaparolemotionnellesansseplacerdansuncadrethorique,car les technologiesposentdirectement lesproblmesrsolusdiffremment,selon les courants thoriques, de la catgorisation, du niveau dencodage, deluniversalit et de la pertinence indicielle des motions. Construire un systmeautomatiquedereconnaissanceoudegnrationdesexpressionsdesmotionsdpendfortement de la dfinition que lon donne de lmotion. Quels liens existent entrehumeurs(parexemplelestress),motions,attitudes,sentiments,passions?Unemotionestelleuntatducerveau,untatphysiologique,psychologique,unprocessuscognitif,pourquoietparquelprocessusestelleexprime?Lesmotionssontellescatgorielles,finies,reliesauxtiquettescommunesdeslexiquesdeslangues,oubienrpartiesdansunespacecontinumultidimensionnel?Commentlesexpressionssontellessituesdansleprocessusmotionnel,etquelstypesdecontrlecognitifproduisentcesexpressions?Peutonutilisercommerfrencelesmarqueursetlessignauxphysiologiques,existetildesairesneuralesdesmotions?

    2.2. Brefhistorique

    Cesdbats,avantdedevenirscientifiques,quecesoitdanslesdomainesdelabiologie,delapsychologie,delaneuropsychologie,delalinguistiqueouencoredelasociologie,ont tout dabord t ceux de la philosophie, le terme de passion tant frquemmentemploypourdsignerlesaffects.

    Onpeut trouverds lantiquit la tracedun intrtpour ltudedes motions.AinsiPlatonconsidretil lesmotionscommedespassionsnfastesdont ilfauttenterdesedtournercarellesempchentlaraisondefonctionner.Aristote,quantlui,rfutecetteopposition et prte aux motions une fonction informative ainsi quune tendance laction.Ilestparailleurslepremiertablirunecatgorisationdesmotions.

    Parailleurs,Damasio (1994) revient sur lesconceptionscartsienneet spinoziennedesmotions, en sattachant principalement larticulation entre corps et esprit chez cesdeux philosophes. Selon lui, la lumire des rcentes dcouvertes de laneurophysiologie, cest la conceptiondeSpinozaquil faudrait retenir, etnon celledeDescartes.

    Au17esicle,RenDescartesdveloppelanotiondedualitcorps/espritenconsidrantces entits comme indpendante, la facult de raisonner pouvant selon lui sexercersparmentducorps.Dans lecadredecettethorie, ilrattache lesmotionslactivit

  • Lesthoriesdesmotions

    24

    de lesprit(Descartes, 1649): cest dailleurs pour lui ce qui fait des motions unecaractristique spcifique lhumain.ToutefoisDescartesne considretilpasque lesmanifestationsphysiologiquessonttotalementtrangresauxmotions:selonluilmeest en effet influence par cesmanifestations physiologiques, le lien se faisant par laglandepinale(petiteglandesitueendessousducerveaudontlafonctionestenralitde scrter diverses hormones). De plus il reconnat aux motions une fonctioninformative,carellesnousrenseignentsurleslmentsauxquelsnotreespritattachedelimportance.EnfinDescartestablitunelistedesixtatsmotionnelsfondamentaux,savoirladmiration,lamour,lahaine,ledsir,lajoieetlatristesse.

    Spinozadveloppeaucontraireune thoriemoniste(cestdiredans laquellecorpsetpense sont vus comme une seule etmme entit).Dans la troisime partie de sonEthique (Spinoza,1677), intituleDesaffects, il tentedecomprendre lespassionset leurprteunefonctiondergulationde lacapacitdagir.Ainsi,selonSpinoza, ilexisteraitdeux typesdepassions,bonnesoumauvaisesselonquellesaugmententoudiminuentnotrecapacitdagir:lespassionsjoyeusesetlespassionstristes,joieettristessepouvantse dcliner respectivement en chatouillement ou en hilarit et en douleur ou enmlancolie.Spinozaneconsidredoncquedeuxmotionsdebasepouvantsedclinersousplusieursformessuivantleurchampdapplication.Ilaffirmeainsi,commedernireproposition concernant la joie (qui au contraire de la tristesse concerne lmeagissante),quEntretouteslespassionsquiserapportentlme,entantquelleagit,ilnenestaucunequineserapportelajoieouaudsir.

    Cestlafindu19esiclequeltudedesmotionsestentredanslechampscientifique,aveclintrtquiluiatportparlespsychologues.Cornelius(2000)proposedeclasserenquatre classes lesdiffrentes thoriesdes motionsproposes jusqualors.Outre laperspective cognitive introduite par Arnold (1960), et particulirement prgnante lheureactuelle,troisautrescourantsmajeursinfluencentencorelesdbats:

    Laperspectivevolutionnisteoudarwinienne,tayeprincipalementparltudedesexpressionsfaciales.

    Laperspectivephysiologiqueoujamesienne,quimetenavantlerledelactivationphysiologiquedansledclenchementdesprocessusmotionnels.

    La perspective du constructivisme social qui considre les motions comme leproduitdeconstructionssociales.

    Quoique ces diffrents courants thoriques ne sexcluent pas systmatiquement, cettecatgorisation permet de fournir une grille de lecture pour les thories de lmotion.Nous prsenterons ici plus en dtails lapproche cognitive des motions, enmettant

  • Lesthoriesdesmotions

    25

    laccentsur lesapprochesdeSchereretdeDamasioquidonnentdespointsdancrageauxpropositionsthoriquessurlesquellescettetudesebaseplusparticulirement.

    2.3. Laperspectivedarwinienne

    2.3.1 Luniversalitdesmotions

    Lidedominantedanslecourantdarwinienouvolutionnistedesthoriesdesmotionsestquelesmotionsconstituentdesphnomnesvolusquisontapparusenadaptationlenvironnementcarilsremplissentdesfonctionsdesurviedelespce.Laconsquenceprincipaledecepostulatseraitdoncquelesmmesmotionsdevraientseretrouverchezlensembledeshumains,voirechez lesmammifresprochesde lhumainen raisondeleur pass commun.De nombreuses tudes ont tudi luniversalit des expressionsfacialesdesmotions,danslebutdtayercettehypothse.

    LepremierauteuraavoirdveloppcettethorieestCharlesDarwinluimme,traverssonclbreouvrageTheexpressionofemotioninmanandanimal(Darwin,1872).Darwinaainsi tent de dmontrer luniversalit des motions, partir de ltude de leursexpressions faciales chez des peuples de culture varie effectue par plusieursobservateursbassenAfrique,enAmrique,enAustralie,Borno,enChine,enInde,enMalaisieetenNouvelleZlande.Toutefois,commelesoulignePaulEkman(1999a),lamthodologieemployeparDarwinestcritiquableauregarddesmthodesemployeslheureactuelleenpsychologiesurtroispointsfondamentaux:

    Le nombre de sujets interrogs dans chaque pays tudi tait insuffisant pourpouvoirconstituerunepreuvestatistique.

    Darwin sest fond sur les rponsesdonnespar lesobservateursanglais sur leursimpressionsparrapportlexpressiondesmotionsdanslapopulationlocalepluttquedefaireappeldessujetsnatifscommecelaestlargle.

    Lesrponsesattenduesauxquestionsposestaientsouventimplicitementdonnespar la formulationmmedesquestions, commepar exemple La surprise estellecommuniqueparlesyeuxetlabouchegrandsouverts,etparlessourcilslevs?.

    BienquelesrsultatsexprimentauxdeDarwinnesoientpasdirectementexploitables,ses travauxonteuune influence considrable sur lestudesultrieuresdesmotions.Nombreuses sont en effet les thories qui, sans toujours se rfrer explicitement auxtravaux deDarwin, considrent les motions comme des produits de lvolution parslectionnaturelle,ettudientlesmotionstraversleursfonctions.

  • Lesthoriesdesmotions

    26

    DesexpriencessimilairescelledeDarwinontparlasuitetreproduites,notammentsous limpulsion de Paul Ekman (Ekman & Friesen, 1978; Ekman, 1989, 1999a), deCarrollIzard(2000)ouencoredeSylvanTomkins(1980),danslebutdemontrerquelesexpressionsfacialessontuniversellementpartagesetsurtoutliesauxmmesmotions.Danslaplupartdescascestudessontparvenuesmontrerquunemajoritdesujets,bienquedeculturesdiffrentes, reconnatbien lammemotionpouruneexpressiondonne.Afindliminerun ventuel biaisd lapprentissagepar lesmdiasde cesexpressions,certainesexpriencesontteffectuesdansdescommunautsnayantpasaccs auxmdias, notamment en NouvelleGuine, avec des rsultats similaires. Lafigure 2 prsente des exemples de photographies utilises dans le cadre dtudesinterculturellessurlesexpressionsfacialesmenesparEkman.

    Quoiquun certainnombrede critiques aient t formules lencontrede ces tudes,Ekman (1999a) rfute lensemble de ces critiques. En particulier il affirme que pourpouvoir dmontrer que les motions ne sont pas universelles, il faudrait quuneexpressionquelamajoritdessujetsdunecertainecultureassocieunemotionXsoitassociemajoritairementunemotionYpardessujetsissusduneautreculture,cequinajamaistlecas.CependantEkmanreconnatque,silesmotionssontuniverselles,leursrglesdedclenchementoudinhibitionsontsusceptiblesdevarierenfonctiondefacteursculturels(Ekman,1989,1999a).

    Figure1:Exemplesdephotographiesdexpressionsmotionnellesutilisesdanslecadredtudesinterculturelles.Reproduitde(Ekman,1999a)

    Par ailleurs Ekman et Friesen (1978) ont propos, partir de ltude des diffrentsmouvementsmusculaires susceptiblesdemodifier lesexpressions faciales,un systme

  • Lesthoriesdesmotions

    27

    de codagede ces expressions en fonctionde 46paramtresmusculaires appel FACS(FacialActionCodingSystem).

    2.3.2 Lesmotionsdebase

    Luniversalit des motions postule par le courant volutionniste va de pair avec lanotiondmotionsdebaseoumotionsfondamentales,discrtesetennombrerestreint.Ekman (1999b), partir de ltude des expressions facialesmais aussi dobservationsphysiologiques,proposeunedfinitiongnraledelmotiondebase.Ildonneainsiunensembledecritrespour identifiercequestunemotiondebasedans lensembledesaffects.Ainsipourquunemanifestationaffectivesoitconsidrecommeunemotiondebaseelledoitnotamment:

    Sedclencherrapidementettrebrve.

    Seretrouverchezlesprimatesnonhumains.

    Etreuniversellementidentifiable(parexemplepartirdesexpressionsfaciales).

    Etreassocieunephysiologiepropre(rponsenerveuse,rythmecardiaque,etc.).

    Sedclencherautomatiquement, cestdiretre contrle involontairementetnonparunprocessusconscient.

    Ilidentifieainsisixmotionsdebase(Ekman,1989):joie,tristesse,peur,dgot,colreetsurprise.Cessixmotionsdebase,lesplusfrquemmentcitesdanslalittrature,sontappeles Big Six par Cornelius (2000). Cette catgorisation ne fait toutefois paslunanimit parmi les tenants de la perspective volutionniste.Ainsi dautres auteursdnombrent entre 8 et 10 motions de base, et Ekman luimme ajoute parfois lecontentementauxBigSix(Cornelius,2000).

    2.4. Laperspectivejamesienne

    LesthoriesnoncesparJames(1884)etLange(1885)puisparCannon(1927)accordent lactivation physiologique un rle central dans le dclenchement des processusmotionnels. Cette approche physiologique, qui a aliment de nombreux dbats enpsychologie, sinscrit galement dans un cadre volutionniste puisque lmotion estgalementconsidrecommeune rponseadaptative lenvironnement.Ladiffrencemajeureavec lapprochedarwiniennedesmotionsestquici lesmotionsellesmmessontthorisespluttqueleursexpressions.

  • Lesthoriesdesmotions

    28

    2.4.1 LesthoriesdeJamesetLange

    James(1884)associelesdiffrentstatsmotionnelspouvanttreressentislensembledeschangementscorporelslislaprsentationdunstimulus.Suivantcettedfinition,lmotionse limitedonc laperceptiondeceschangementscorporels,quiconstituentdonc galement la condition sine qua non pour ressentir une motion. Ainsi Jamesaffirmetilqueonsesenttristeparcequonpleure,encolreparcequonfrappe,apeurparcequontremble.DaprsJameslestypesdechangementsphysiologiquesimpliqusdanslmotionseraientdoncextrmementvaris,pouvantinclureuncontrlemoteurdehautniveaucommelactiondefrapper.Ilvadailleursjusquaffirmerquonpeutavoirpeurparcequoncourt.

    Les corrlatsde cette thorie sont toutdabordquonnepeut ressentirdmotions enlabsencedeperception,maisaussiquelesrponsesmotionnellesseraientdterminesdirectementparlesystmenerveuxautonomeetnonpardesairesneuralesspcifiques.Dautre part, dans une telle optique, les changements corporels associs diffrentesmotionssontncessairementdistincts.

    La thoriedeLange (1885)quantelle,serapprochedenombreuxpointsdevuedecelle de James. En effet pour Lange cest galement la perception des changementscorporelspriphriquesquiconstituelanaturemmedelmotion.DemmequeJames,ilproposedailleurslasquencesuivantepourmodliserleprocessusmotionnel:

    Apparitiondustimulus

    Rponsephysiologiquespcifique

    Perceptiondeschangementscorporels

    Emotion

    LaseulediffrencemajeurequelonpeutreleverentrelesthoriesdeJamesetLangeestleur dsaccord quant au traitement cognitif des motions. En effet Lange considrequun centreneuralde traitementdesmotionsexistebien,etquil sagiraitdu centrevasomoteur qui contrle lactivit vasculaire. Les thories proposes par ces deuxauteurs tant par ailleurs trs proches, on les trouve frquemment runies dans lalittraturesouslenomdethorieJamesLange.

  • Lesthoriesdesmotions

    29

    2.4.2 LathoriecentraledesmotionsdeCannon

    LathoriecentraledesmotionsproposeparCannon(1927)sinscritgalementdanslaperspectivephysiologiqueou jamesienneenaccordant lactivationphysiologiqueuneplacecentraledans leprocessusmotionnel.Cette thorieseprsente toutefoiscommeune critique de la thorie de James, quelle prend contrepied: selon Cannonlvaluation cognitive estunpralablencessaireaux ractionsphysiologiques,quinesontdoncquelaconsquencedesmotions.

    CannonnoncedeuxargumentsprincipauxpourrfuterlathoriedeJames:

    Tout dabord linduction artificielle de changements physiologiques (changementsviscraux dans la terminologie employe par Cannon) ne permet pas seul deprovoqueruntatmotionneldfini

    Parailleurs lesmmeschangementsviscrauxpeuvent induire indiffremmentdestatsmotionnelsounonmotionnels.

    2.5. Leconstructivismesocial

    Averill (1980) marque le dbut de la prise en compte des interactions sociales etculturellesdanslesmotionscommuniques.Selonlui,lesmotionsseraientleproduitde constructions sociales, et dpendraient essentiellement du contexte social danslequelellesapparaissent.Ellespermettentdtablirunesignificationetunecohrenceenfonctiondesrglessocialesapprises.

    Averillnapas lapanagede lapriseencomptedesaspectssocioculturelsdans ltudedes motions, en effetmmedes auteursdarwiniens convaincus commePaulEkman(1999a) leur accordent un rle de rgulation des expressions. Toutefois le courantconstructivistepostuleunrlebeaucouppluscentraldecesaspectsdans lesprocessusmotionnels:seloneuxlmotionnepeutserduireunerponseadaptativeetelledoitplutt tre vue comme une construction sociale, pour la comprhension de laquellelanalyse doit ncessairement se faire au niveau de la socit. Ainsi, pour lesconstructivistes, les motions doivent leur sens et leur cohrence des lois socialesapprises.

    Lecourantconstructivistesopposedoncfortementlanotiondarwiniennedmotionsdebaseprimitivesetuniverselles,etsuggreaucontrairedesmotionsvariablesselonlescultureset lescodessociauxpartagsdans lesdiversescommunauts.SelonAverill(1980), la colre, souvent considre comme la plus primitive ou animale desmotions,constituedailleursun jugementmoraltrslaborquonnepeutconsidrercommeunerponseautomatiquedelorganisme.

  • Lesthoriesdesmotions

    30

    Ainsi une motion seraitun ensemblede rponses sociales, constituesde normes etdattentes au sein dun groupe qui dfinissent prcisment qui doit prouver quellemotion quel moment, et dont la signification serait seulement symbolise parltiquette motionnelle que le sujet luimme et les autres membres du groupeappliquent son comportement.Les rponses motionnelles, y compris en termesdecomportement,seraientdoncentirementrgiespardesscriptsmotionnelsfonctionsdecesrglessociales.

    2.6. Laperspectivecognitive

    Danslesthoriescognitivesdelvaluation,lmotionestenvisagecommersultantedela perception et de lvaluation dun stimulus externe, et elle se traduit par descomportements expressifs. Lhypothse de base des ces thories est que cognition etmotion sont indissociables, la nature mme de lmotion tant dtermine parlvaluationcognitivedesstimuliperus.Plusspcifiquement,unenotioncentraledansles thories cognitives est celle de lappraisal, cestdire le processus par lequel lesvnementsde lenvironnement sont jugs commebonsounfastespour lindividu partirdelaperceptionquilena.Encela,cesthoriessontdoncincompatiblesavecdesconceptionsdualistestellesquecellesdePlatonoudeDescartes.Notons toutefoisque,pour la plupart, ces thories, fondes sur des principes volutionnistes et prenant encompte lesphnomnesdactivationphysiologique,ne sedmarquentpas totalementdesautresapprochesthoriquesdesmotions.

    2.6.1 LesthoriesdArnoldetdeFrijda

    Arnold (1960) est le premier auteur avoir dvelopp la notion de processusdvaluationducaractreplaisantoudplaisantduneperception,ouappraisal.Selonellece processus est par nature inconscient et nest pas contrl volontairement. Elle ledfinitainsicommedirect,immdiat,nonrflexif,nonintellectueletautomatique.

    Arnold reproche Jamesdenepassuffisammentprciserdanssa thoriecomment laperceptiondustimulusdclencheurdelmotionestralise,lorsquecedernieraffirmeque leschangementscorporels interviennent immdiatementaprs laperceptiondecestimulus. Selon elle, le chanonmanquant est justement le processus dappraisal, sanslequel ilnesauraityavoirdmotion.AinsipourArnold lesmotionssediffrencientelleschezunindividudonnpardiversschmasdappraisal.

    Ces schmas dappraisal ne sont pas considrs comme immuables et universels,puisquilsseraientinfluencspardesfacteurslisaucontextesocialetenvironnementalde lindividu, lesschmastantdfiniscommedpendant la foisdescaractristiques

  • Lesthoriesdesmotions

    31

    propres de lindividu, de ses expriences passes, de son temprament, de sapersonnalit,desontatphysiologiqueetenfindelasituation.

    Arnoldproposeunmodlesquentielpourdcrireleprocessusmotionnel,danslequelleschangementsphysiologiquesassocis lmotion sontprcdsdunetendancelactionpositiveoungative (dirigeversoucontre)en fonctionduprocessusdappraisal.

    Frijda(1986)dveloppeleconceptdetendancelactionintroduitparArnold.Selonlui,lmotion estune valuationde lenvironnement,quidbouche suruneprparationlaction.Laprparationlactionesticidfiniecommelepralableuneactionvisanttablir,mainteniroumettrefinunerelationdelindividuavecdesaspectsparticuliersde lenvironnement. Frijda tablit une taxonomie de 18 tendances laction, parmilesquellesfigurelapathie(quonpeutdfinircommetendancenepasagir)etdautrestendancestellesquelapproche(tendancesapprocherpourpossder).Cestendanceslactionsontregroupesen6catgoriesgnrales:vers,contre,activation,dsactivation,vitementetinhibition,interruption.

    2.6.2 LathoriedeScherer

    Klaus Scherer (1984, 2001) sinscrit galement dans cette perspective cognitive. Ilconsidre quant lui les motions comme des agents intermdiaires entre unenvironnement changeantet lindividu.Dans cetteapproche, lesmotions remplissentdoncessentiellementdesfonctionsadaptativesentantunpointdintersectionentre lemilieu et lorganisme.Les motionsne sont cependantpas assimilables des rflexesinnscar larponseaustimulusncessiteunevaluationcognitive.Onpeutplutt lesconsidrer comme une srie de changements de lorganisme qui sadapte lenvironnement au fur et mesure des processus dvaluation des stimuli. Ceschangementspeuventintervenirsimultanmentselondiversesmodalitscorrespondantdessoussystmesde lorganisme.Cessoussystmessontreprsentschacunparuncomposantdesmotionsayantunefonctionbiendfinie(ilsagiticiessentiellementdefonctionsadaptatives,ausensdarwinienduterme).Parmicessoussystmes,onpeutciter la composante cognitive,dont la fonction estdvaluer les stimuliprovenantdelenvironnement, la composante physiologique, qui assure la rgulation, ou encore lacomposantedelexpressionmotricedestinecommuniquerlesintentions.

    SelonScherer,letraitementdustimuluspasseparcinqtapessuccessives(SEC,StimulusEvaluation Checks).Cette valuation, qui serait de plus accompagne de changementsaffectant le conduit vocal (cest en cela que lemodle de Scherer accorde une placeprpondrantelaprosodie),intervientparordredecomplexitcroissante:

  • Lesthoriesdesmotions

    32

    Evaluationcognitivede lanouveautouducaractre inattendude lvnement: ilsagiticidvaluersilyaeuunchangementdanslesstimuliinternesetexternes.

    Evaluationducaractre intrinsqueplaisantoudplaisantdustimulus(appraisal),partir de quoi il dcoule un sentiment denvie ou daversion, une tendance aurapprochementouaureculdelorganisme.

    Evaluation des buts et intrts favorables: il sagit dvaluer lamanire dont lestimulusavantageouentravelatteintedesbutsetbesoins.

    Evaluationdelacapacitdematrisedelindividufaceunesituationngative:Silasituationestvaluecommeneprsentantpasdedangerpourlorganisme,lmotionengendreseralacolre.Alinversesilasituationsembledangereuse,lmotionseralapeurouladpression.

    Evaluationde compatibilit avec les normes et limagede soi: Scherer pense quecette tapedvaluation nexiste que chez lhumain. Si lvaluation indique que lecomportement de lindividu nest pas conforme aux normes, il en rsulte unemotiontellequelahonte.

    LemodleproposparSchererne sintressepasquauxmcanismes cognitifsmisenuvre par lvaluation motionnelle,mais galement lexpression des motions. Ilprend ainsi en compte les expressionsvocalesdes motions, aussibienproduitesqueperues,etsattachemesurerlessignauxvhiculsafindelesrelierauxmotionsquisont exprimes. Dans les volutions rcentes du modle, ce lien entre motions etsignauxesttablilaidedunmodlecorrlationnisteenlentilledeBrunswick,afindepouvoirprdirelesvolutionsdessignauxenfonctiondelmotionexprime.Danscetteoptiquedenombreuxparamtresacoustiquesrelatifsdiversaspectsdelaparoleonttmesurs,dontlestendancesgnralesenfonctiondesexpressions,relevespartirdungrandnombredtudes,sontsynthtisesdanslaTable1.Ilfautnoterquecertainsdesparamtres prsents dans ce tableau ne sont pas mesurables directement maisconstituent une catgorie gnrale tablie partir dun ensemble de mesurescomparables, et que tous les paramtres prsents nont pas t systmatiquementmesurs.Lesdiffrentes tendancessontnotes>,>=,=,

  • Lesthoriesdesmotions

    33

    Paramtresacoustiques stress joie/

    colre/rage

    tristesse peur/panique

    ennui

    Paramtresdedure

    Nombredesyllabesparseconde

    Duresyllabique

    Duredesvoyellesaccentues

    Nombreetduredespauses

    Durerelativedesportionsvoises

    Durerelativedesportionsnonvoises

    >

    =

    =

    =

    =

    >

    >

    Frquencefondamentale

    Moyenne

    5epercentile

    Variabilit

    Etendue

    Hauteurdessyllabesaccentues

    GradientdeschutesetmontesdeF0

    Etendueetgradientdeladescentefinale

    >

    >

    >

    >

    >

    >

    >

    >

    >

    >

    >

    >=

    >

    >

    >

    =

    >

    >

    >

    >

    >

    =

    >

    >

    >

    >

    >

    =

    >=

    >

  • Lesthoriesdesmotions

    34

    systmatiquedecettepathologieestunedgradationspectaculairedesrapportssociauxde cespatients, tandisquils conservent leurs facultsphysiques etmentales.De cetteapprocheneurophysiologiqueetcognitiveadcoullhypothseselonlaquellemotionet raison sont, bien que distinctes, deux parties dune mme entit psychologiqueirrductible, contrairement lide de dualit autonome avance parDescartes etlargementrpandue(Damasio,1994).

    Apartirdecettehypothse,Damasioagalementmisenvidence lasuperpositiondedeux types dmotions: les motions primaires, qui seraient innes et ddies desfonctions de survie, et les motions secondaires, acquises partir des motionsprimaires.Certainsdesespatientspouvaienteneffettoujoursressentir lepremiertypedmotions,maispasledeuxime.

    Lesmotionssecondaires,quantelles,napparaissentquelorsquonpeuttablirunlienentre la perception de lmotion et la situation qui la produite. Elles se forment enmodulant les motions primaires en fonction de lexprience personnelle et desinteractions avec lenvironnement. Selon Damasio, la prise de conscience de cetterelation permet damliorer les stratgies de dfense, par exemple en vitantprventivement les situations risques, alors que les motions primaires ne sontdclenches que de manire automatique dans des situations durgence immdiate.Dautrepart, lesdeux typesdmotion sediffrencientgalementpar lapossibilitdedclencher les motions secondaires par un acte purement mental, tandis que lesmotionsprimairesnepeuventtredclenchesquepar les stimulienprovenanceducorps.

    2.6.3.2 Laperceptiondesmotions

    LepremierouvragedeDamasiosintressegalementlafaondontlesmotionssontperues.Selonlui,lmotionellemmeestlarsultantedelajuxtapositioncognitivedelimagecorporelle(lacartedesstimuliexternesdanslecerveauouencorelaperceptiondes changements dtat du corps) et de limage de la situation (la perception de lasituation,quipeuttreimaginairedanslecasdmotionssecondaires).

    Ainsi, pour Damasio, la perception des motions passe par la perception deschangementsdesesproprestatssomatiquesparlesujetquiressentlmotion.Cestsurlabasede cepostulatqueDamasio tablit ladiffrence entre les motions rellementressenties(cecipeut incluredesmotionssecondairesdclenchespar limagination)etlesmotionssimules.

    La figure 2 schmatise la perception des motions selon Damasio lorsquil sagitdmotions relles ou simules. Dans les deux images illustrant les deux sortes de

  • Lesthoriesdesmotions

    35

    boucles, lecerveauest reprsentpar la ligne fermeduhaut,et le resteducorpsparcelledubas.SelonlhypothsedeDamasio,lesprocessussedroulantdanslaboucledesimulation restent circonscritsau cerveau, courtcircuitant compltement laperceptionde ltatducorps.Danscecas, laperceptiondeschangementsdtatphysiologiqueestremplacepar lesouvenirdtatssomatiquesassocis lmotionque le locuteurveutsimuler,quiserventdebasepourreproduirelexpressiondecettemotion.

    Boucleauseinducorps

    Boucledesimulation

    Figure 2 : Les mcanismes de perception des motions, en boucle au sein du corps ou par le biais d'une boucle de simulation, d'aprs Damasio (1994)

    2.7. Emotionsetexpressions

    Les motions sont exprimes, et cest bien la raison de leur existence dans lacommunication entre humains. Les approches physiologiques ont montr que leschangements biophysiologiques lis aux variations dtat motionnels sontrcuprsselondiversesmodalits(rosissementdesjoues,voixquitremble,odeurde

  • Lesthoriesdesmotions

    36

    sudation,etc.),mais lesapprochesplusradicalementvolutionnistesonteu lintrtdemontrerquelexpressionestaussileproduitduncontrlecomplexe.Cestainsiquelesexpressions faciales, sous limpulsiondEkmanenparticulier (Ekman&Friesen,1978;Ekman,1989,1999a),ontttrslargementtudies(Tcherkassof(1999)atabliuntatde lart de ces tudes),modlises etmme simules (Massaro, 2000). Par ailleurs lapragmatique sest trs tt empare, en sancrant galement dans une perspective depsychologie cognitive, du problme de lamodlisation de la gestualit associe auxexpressionsmotionnelles(MacNeil,1992).

    Lamodalitvisuelleest lemdiumprivilgidescontrlesdexpressions (de lammefaonque lacoustiqueest lemdiumprivilgide laparolelinguistique).Pourtantmme pour des variations dtats motionnels complexes, pour lesquels lamodalitvisuelle seule apporte dj des informations robustes (par exemple lamusement, dusourireaurire),laparoleacoustiqueestgalementporteusedexpressionsmotionnelles: Auberg et Cathiard (2003) ont montr que lon entend plus que la consquenceacoustiquede lamodificationduconduitvocal (intgrationaudiovisuelle),cestdireque laparole aurait ses expressions spcifiques.Audeldespropositionsde Scherer,AubergetCathiardproposentquelesexpressionsdesmotionsnesontpasseulementune intgrationmultimodale dun geste produit pour tre dabord visible,maisquellessontcontrlesspcifiquementpourlesdiffrentesmodalits.

  • Technologiesdelaparoleexpressive

    38

    3. Technologiesdelaparoleexpressive

    Nousdonnonsdanscettesectionunaperudesprincipalesapplicationstechnologiquesdeltudedesaffectsdansledomainedutraitementautomatiquedelaparole,traverslesdeuxobjectifsde recherchemajeursquesont lasynthsedeparoleexpressiveet laclassificationautomatiquedesaffects.

    En sparant les applications existantes en fonction du type de systme de synthseutilis,nousprsentonstoutdabordlesprincipalesapprochesexistantesdelasynthsedelaparoleexpressiveet,enparticulier,lesdiffrentespropositionsdintgrationdeladimensionexpressivelatechniquedesynthselaplusaboutielheureactuellequestlasynthseparslection.

    Nousprsentonsensuite lesprincipesgnrauxquirgissent lessystmesexistantsdeclassificationautomatiquedaffects,puis les contributionsquinous semblentmajeuresdanscedomaine,etquimettent laccentsur lancessitdeconsidrerdesexpressionsspontanesdaffectsaudeldelasimulationdesmotionsditesdebasesurlaquellesesontappuyslamajoritdessystmesproposs.

  • Technologiesdelaparoleexpressive

    39

    3.1. Synthseexpressive

    3.1.1 Gnralits

    Nousnabordonspasdanscettesectionlintgralitdessystmesdesynthseexpressiveproposs dans la littrature, et nous contentons de mentionner quelques exemplesreprsentatifsdesdiffrentes approchesde cetteproblmatique complexe, sans entrerdans lesdtailsdes rsultatsobtenuspar cestudes.Lagrandemajoritdes systmesproposssestappuyesurleprincipedelasynthsepartirdutexte(voirnotammentDutoit (1997)),dont leprincipegnralestdeprocderunephontisationet,dans laplupartdescas,uneanalysemorphosyntaxiquedun texte inconnu fournienentredu systme sous formecrite,avantde transformer ce texteenparole synthtique.Laphontisation dun texte crit est en ellemme un problme complexe, que nousnaborderons pas ici. Les rsultats de lanalyse morphosyntaxique ralise sontgnralement utiliss pour appliquer des rgles de transformation prosodiques etnotamment des contours de frquence fondamentale, afin de raliser les fonctionslinguistiquesdelaprosodiequesontlasegmentation/hirarchisationetlamodalisationou,plusrarement,lafocalisation.Lobjectifvisparlaplupartdessystmesdesynthsevocale qui ont t dvelopps, et atteint en grande partie par ceux dveloppsrcemment,estdeparvenirgnrerdesnoncsassimilablesde laparolenaturellelueparfaitement intelligible.Commenous lavonsmentionnen introduction,avec lesprogrs rcents des systmes de synthse par corpus et la ralisation de cet objectifmajeurdes systmesde synthsepartirdu texte, lenjeude la synthsede laparolesestdplacdelintelligibilitetdelanaturalitverslapertinencedelnoncgnrenfonction du contexte dnonciation. En consquence, lintgration dune dimensionexpressive ces systmes estdevenuunobjectif central,do les effortsde recherchecroissants dans cette direction depuis les premiers jalons poss notamment par JanetCahnaudbutdesannes1990.

    Schrder(2001)dresseuntatdelartdessystmesdesynthsedelaparoleexpressive,etproposeunetaxonomiedesapprochesproposesdanslalittratureenfonctiondelamthodedesynthseutilise.Nousnousappuyonssurcettetaxonomiepourprsenterdes exemplesquenous jugeons reprsentatifs, en compltantdexemplesplus rcentslorsquecelanoussembleutile.

    3.1.2 Synthseparformants

    La synthsepar formants,parfois appele synthsepar rgles, est lamthodedont lersultatestlemoinsaboutientermesdintelligibilitetplusgnralementdenaturalit

  • Technologiesdelaparoleexpressive

    40

    dans le cadredune approche entirement automatise.Cependant, cettemthode estgalement laplus flexible, etpermetune synthsede qualit lorsquelle est contrlemanuellementdefaonfine.Eneffet,sonprincipeestdegnrerdansleurintgralitlessons de parole produits partir de modles acoustiques, sans rutiliser desenregistrementsprexistants.LexempleleplusrpandudesynthseparformantsestlesystmeDECtalk(Hallahan,1996).Dansledomainedelasynthsedeparoleexpressive,lesystmepionnierAffectsEditordeCahn(1990)etlesystmeHAMLETdeMurray&Arnott (1995) peuvent notamment trementionns.Dans les deux cas, les rgles demodificationdelasortiedusynthtiseurDECtalkontttabliespartirdunerevuedelittrature sur lencodage des expressions motionnelles dans la parole. En dpit dumanque de naturalit gnralement li la synthse par formant, ces systmes ontpermis de gnrer des noncs de parole synthtique de qualit suffisante pour trecorrectementclassifisunniveausuprieurauhasarddansunetchedecatgorisationperceptive.

    3.1.3 Synthseparconcatnation

    La synthse par concatnation, dont lexemple le plus rpandu est le systmemultilinguedistribu librementMBROLA1 (Dutoit et al., 1996), permetdatteindre undegrdintelligibilitetdenaturalit suprieur, sanspourautantpouvoirpasserpourunevoixnaturelle.Leprincipedecetypedesystmedesynthseestdesappuyersurunebasedediphones,enregistrsparunmmelocuteurpourunelanguecibledonne,etpermettantdecouvrirlensembledescombinaisonsdedeuxphonmesconscutifsdecette langue.Lesdiphones sont constitusdeportionsde signal stendantdumilieudunphoneaumilieudu suivant. Ils sontgnralementenregistrsavecuneprosodieneutre.Lasynthsedelachanesonoreestalorsfondesuruneconcatnationdelasuitede diphones correspondant au texte phontis, suivie de lapplication de rgles detransformation prosodiques fondes sur un modle de dure et de variations defrquence fondamentale.Cesmodificationsprosodiques sont leplus souvent ralisesparlalgorithmeTDPSOLA(Moulines&Laroche,1995).

    Latechniquedelasynthsepardiphonesatutilisepourconstruiredessystmesdesynthsedeparoleexpressive,avecdeuxtypesdistinctsdetransformationsprosodiques.La plus rpandue a t celle de lanalyse/synthse, dans laquelle les variationsprosodiquesdun noncnaturelvhiculant laffectvis sont extraites et appliques

    1Le systmeMBROLA ainsi quedes basesdediphonespourun ensemble tendude langues esttlchargeablelibrementlURLhttp://tcts.fpms.ac.be/synthesis/mbrola.html

  • Technologiesdelaparoleexpressive

    41

    lnoncsynthtis.Cettemthodea,parexemple,tadopteparMonteroetal.(1999).Lapproche plus ambitieuse de lamodification de la prosodie par rgles na notreconnaissancepastappliquedanslecadredunsystmecompletdesynthsepartirdu texte,mais la t avec lobjectif de confronter les prdictions dunmodle laperception que peuvent avoir des auditeurs nafs des noncs synthtiquescorrespondants.Cetteapprochea,par exemple, t retenueparMozziconnacci (1999),qui a propos une modlisation de contours de frquence fondamentale suppossvhiculerunensembledaffects.

    Comme le souligne Schrder (2001), la synthse par concatnation ne permet pas demanipulerdirectementlaqualitdevoix,etlaquestiondelapossibilitdegnrerdesexpressionsvocalesdaffectssansprendreencomptelaqualitdevoixsestdoncposede faon rcurrentedans les tudesayant eu recours cettemthodede synthse.LarevuedelittratureraliseparSchrder(2001)aboutitdesrsultatsdivergentsquant cette possibilit, certaines motions produites par certains locuteurs semblant trevhiculesefficacementpardesimplesmodificationsde frquence fondamentaleetdedure.Ilconcluttoutefoisquelapossibilitdtendrecesrsultatslensembledestypesdmotionsexistantsnestpasavre.

    3.1.4 Synthseparslection

    Le principe de la synthse par slection, ou synthse par corpus, est la base de laplupartdessystmesdesynthseactuelsdequalitprofessionnelle.Leplusaboutidessystmesdesynthsedu franaisexistants lheureactuelleestdenotrepointdevueceluidveloppparOrangelabs2.Un telsystmedesynthsereposesuruncorpusdetailleimportanteproduitparunmmelocuteur,tiquetavecprcision,comprenantdesphrasesphontiquementquilibres,etdpassanttrslargementlacouvertureminimalede la languevise tellequelle est ralisepar lesbasesdediphonesdes systmesdesynthseparconcatnation.Demmequedanslecasdelasynthseparconcatnation,la gnration de la chane sonore est ralise en concatnant des units extraites ducorpusdeparolenaturellesurlequelsappuielesystmedesynthse.Cesunitssontenrevanchechoisiescommelespluslonguespossiblesrpondantauxdiffrentscritresdeslection, qui ne se rduisent pas ladquation de la suite de phonme celle dumessage synthtiser, incluant galement des critres prosodiques. Ainsi, les unitsslectionnes pralablement ltape de concatnation consistent en des extraits des

    2Unedmonstrationenlignedecesystmedesynthse,quiquipeparailleursungrandnombredeservicestlphoniquesetdetransportsencommun,estaccessiblelURLhttp://tts.elibel.tm.fr/tts

  • Technologiesdelaparoleexpressive

    42

    phrases constituant le corpus, en adquation avec la suitedephonmes produire etporteursduneprosodie laplusprochepossibledecelledumessagesynthtiser tellequeprditepar lemodleutilis lasuitede lanalysemorphosyntaxique.Un lissagedesunits concatnes est alors ralis, compltpar lapplicationde transformationsprosodiquessincessaire.Cependantcesmodificationsdusignal,loriginedumanquedenaturalitdessystmesdesynthseparconcatnationdediphones,sontrduitesauminimum.Le cas idalde la synthsepar slection consiste ainsi en la synthsedunnoncidentique,selonlensembledescritresretenus,lundesnoncsprsentsdansle corpusdebasequi est alors restitu sansquaucunemodificationdu signalne soitncessaire. Le cas dune erreur de prtraitement (lors de ltape de phontisation oudanalysemorphosyntaxique)mis part, les systmes les plus volus de synthsevocaleparslectionpermettentdetransmettrelemessagefourniparcritenentreavec,dans la grandemajorit des cas, une intelligibilit suprieure celle atteinte par lessystmesde synthsepar concatnation.Deplus, la synthse par slection atteintundegrdenaturalittrslev,telpointquelaplupartdesnoncssynthtissparcessystmespeuventaismentpasserpourde laparole luenaturelle.Cependantdans lescasmarginaux,dautantplusraresquelabasededonnesdeparoletiqueteutiliseesttendue,pourlesquelsdesunitsinappropriesdoiventtrechoisies,lesrsultatsdecessystmesdesynthsepeuventtrelocalementdepitrequalit.

    Parmi les systmes de synthse ayant directement tir parti de la technique de lasynthseparcorpus,lesystmedveloppparIidaetal.(2003)sappuiesurunebasededonnes de parole tiquete de grande taille, dans laquelle chacune des 525 phrasesconstituant lecorpusestproduiteen tripleexemplaire,en simulantuneexpressiondejoie, de colre ou de tristesse. Le systme de synthse proprement dit est le systmeCHATR (Campbell& Black, 1997), dans lequel les critres de slection des units concatnersonttendusauchoixdelmotionproduireparmilestroiscitscidessus.Bienquedesconfusionspuissenttreobserves,lesnoncsgnrsparcesystmeonttjugsmajoritairementcommeexprimantlmotionvise.

    Marumoto & Campbell (2000), cit par Schrder (2001), plutt que de dupliquer lecorpusutilispourchacunedesmotionsvisesidentiquescellesadoptesparIidaetal. (2003), ont utilis un corpus commun en slectionnant les units en fonction decritresprosodiquesetdequalitdevoix.Lvaluationdesnoncssynthtissamontrquelesexpressionsdecolreetdetristessetaientreconnuesmaispascellesdejoie.

    Dautres approches de la synthse expressive par corpus scartent de lobjectif degnrer des motions dites de base et visent dautres aspects de lexpressivitprosodique. Syrdal & Kim (2008) se sont ainsi appuys sur une base tiquete en

  • Technologiesdelaparoleexpressive

    43

    fonction,nonseulementdecritresphontiquesetprosodiques,maisgalementdactesdeparole.Bienquelesauteursnyfassentpasexplicitementrfrence,lataxonomiedesactesdeparolequils retiennentes