Perception auditiveet perception de la parole
Jean-Luc Schwartz, GIPSA-LabGrenoble-Image-Parole-Signal-Automatique
ICP-Département Parole & Cognition
1. La communication parléeCommuniquer – Les niveaux de la communication parlée – les objets sonores de la parole et leur production - la
nature des sons (signal, représentation temps-fréquence), entre cause physique et expérience perceptive
2. Traitements auditifs et centraux, représentations perceptivesLes représentations du signal acoustique dans les neurones du nerf auditif et des premiers centres nerveux -
Traitement de l’information dans le cerveau, représentations et cartes corticales
3. Voyelles et consonnes, théories de l’invariancePerception des voyelles, normalisation, réduction vocalique – perception des plosives, coarticulation - Invariance
et variabilité / Les théories «!phare!» : théories auditives vs. motrice, théorie quantique, théorie H&H, PACT
4. Perception-Action, phylogenèseDes questions philosophiques sur idéalisme et réalisme vers les théories de la cognition motrice et de la
simulation, jusqu’aux neurones miroir – neurones miroir, système miroir – éléments de phylogenèse du langage
5. La parole multisensorielleLa perception multisensorielle, des architectures cognitives aux interfaces multimodales
4. Perception-Action,phylogenèse
Des questions philosophiques sur idéalisme
et réalisme vers les théories de la cognition
motrice et de la simulation, jusqu’aux neurones
miroir – neurones miroir, système miroir –
éléments de phylogenèse du langage
Idéalisme et réalisme
Les mécanismes perceptifs,entre le monde et le cerveau
Idéalisme et réalisme
[i][a]
Kuhl & Meltzoff, 1982, 1984
Hübel & Wiesel, cortex strié, singe macaque
La perception, une
inversion du monde
physique, sous contrainte
Phénoménologies mentales,phénoménologie réelles
La perception des couleurs
La perception visuelle des états de l’eau
Un monde sensible fait d’objets physiqueset de gestes construits
4. Les mécanismes perceptifs,entre le monde et le cerveau
III. Les deux problèmes de l’invariance
Les deux problèmes de l'invarianceLes deux problèmes de l'invariance
1. Retrouver les objets
Invariance de l'objet physique, quel qu'il soit,malgré la variabilité du stimulus
Les deux problèmes de l'invariance
1. Retrouver les objets
Invariance de l'objet physique, quel qu'il soit,malgré la variabilité du stimulus
2. Nommer les objets
Invariance de la catégorie, acceptée comme telle,malgré la variabilité de ses instantiations
Peut-on entendre la forme d’un tambour ?
Peut-on voir la forme 3D d’un objet ?
Pour Tomaso Poggio (Vision, MIT), laperception bas niveau est une inversion
Monde physique Monde sensible
Lois de la physique
Perception bas niveau
Objets 3D Images 2D
Lois de l’optique
Vision bas niveau
Le cas de la vision
Du 2D au 3D, un déficit d’information comblé par deshypothèses (statistiques) sur les régularités des objets
Exemple : la vision stéréoscopique
Rétine gauche Rétine droite
appariement
Régularisation
Unicité et continuité
Unicité : Rd = f(Rg)
Continuité : f doit minimiser un critère d(f(Rg), Rg))
Fonction f
RdRg
Hypothèses acceptables dans un monde sans trou !
"Le système est 'contraint' de choisir l'interprétation la plus crédible en fonction des
règles et des régularités. La règle d'inférence du système visuel serait donc fondée
sur une loi (la projection) et une régularité (la nature rigide des objets)."
(Donald Hoffman, 1984)
" One of the best definitions of low-level vision is that it is inverse optics. Most
of the goals of low-level vision can be seen as the solution to inverse problems.
Consider, for instance, the problem of recovering the three dimensional
structure of a scene from the images of it. While in classical optics the problem
is to determine the images given certain physical objects, we are confronted
here with the inverse problem of finding their three-dimensional shape (and
perhaps their physical properties) from the light intensity distribution in the
image." (Poggio, 1984)
Objets 3D Sons
Lois de l’acoustique
Audition bas niveau
Le cas de l’audition
Peut-on entendre la forme d’un tambour ?Marc Kac, 1966
!/2 = LF0 = v / 2L
On peut entendre la longueur d’une corde
F0 2F0 3F0 4F0
Pour un tambour,
on peut entendre l’aire, le périmètre,
et même le nombre de trous !
Mais pas la forme !
Mais l’oreille sait quand même récupérer pourpartie la physique des objets sonores
6 baguettes de dureté croissante :
Feutre —> bois —> métal
Donc on peut (plus ou moins) récupérer la cause (l’objet physique) à partir de la conséquence (la stimulation sensorielle)
Or un objet physique a en général plusieurs conséquences :Multimodalité des objets perceptifs
4. Les mécanismes perceptifs,entre le monde et le cerveau
IV. Les illusions, entre idéalisme et réalisme
Percevoir ce qui est
vs.
percevoir ce qu’on est
Interprétation néo-idéaliste des illusions visuelles
Assimilation
Contraste
Interprétation néo-idéaliste des illusions visuelles
Assimilation cf Lipps,Delboeuf
Contraste cf Zöllner,Titchener
x x x x x!
x x x x x
Interprétation néo-réalistedes illusions visuelles
Théories motrices et
théories auditives
Théories perceptives vs. motrices
Théories auditives(idéalistes)
Théories motrices(réalistes)
Les principaux argumentsdes théories motrices (Galantucci, Fowler, Turvey 2006)
1. Prise en compte de la variabilité du signal• Coarticulation CV
• Exemple de la réduction vocalique
d
/i/ /i//a/
Slow and focus
Slow
Rapid and focus
Les principaux argumentsdes théories motrices (Galantucci, Fowler, Turvey 2006)
2. Intégration multisensorielle• Une représentation précoce (pré catégorisation phonologique) pour intégrer et
comparer les modalités, représentation non apprise (effet Tadoma)
3. Contact entre motricité et parole• Close shadowing (Porter)
•Adaptation perceptuo-motrice (Cooper)
Les neurones miroir, unargument expérimentalnouveau et inattendu ?
Un lien perception-action : les neurones miroir
Un système cortical mettant encorrespondance observation et
exécution des actions
Neurones miroir orofaciaux
Kohler et al. 2002
Neurones miroir audio-visuels
Fadiga et al., 2002 : Speech listening specifically modulates the excitability of tongue muscles: a TMS studyLes expériences de Paulo Viviani sur l’utilisation de«!procedural motor knowledge!» dans la perception
Une “régularité biologique” en production du mouvement : la loi v = r 1/3 ?
L’exploitation de cette régularité dans les mécanismes perceptifs :
pour percevoir un mouvement constant, un sujet choisira cette loi
L’exploitation de cette régularité dans les mécanismes perceptifs :
pour percevoir un mouvement constant, un sujet choisira cette loi
la rupture de cette loi modifie même la perception d’un objet (cercle perçu comme une ellipse)
Les principaux argumentsdes théories auditives (Diehl, Lotto, Holt, 2004)
1. Equivalence motrice (au sens large)• Equivalence motrice (stricte)
• Cibles acoustiques
Gay, Lindblom; Lubker, 1981
Bunched /r/ vs. retroflex /r/
Delattre & Freeman 1968
Les principaux argumentsdes théories auditives (Diehl, Lotto, Holt, 2004)
2. Perception/catégorisation sans compétence motrice (animaux, bébés)
3. Le problème de l’inversion
Coarticulation et équivalence motrice :deux problèmes duaux … et peu décisifs
Coarticulation (en faveur des théories motrices)
Equivalence motrice(en faveur des théories auditives)Bunched /r/ vs. retroflex /r/
Delattre & Freeman 1968
d
Acoustic dimension 1
Aco
usti
c d
imen
sio
n 2
[bu]
[ba]
[bi]
[du]
[da]
[di]
Articulatory dimension 1A
rtic
ula
tory
dim
en
sio
n 2
Bunched [r]
Retroflex [r]
L’argument crucial est fonctionnel …Et élimine les théories motrices d’une
manière peut-être décisive ?
Considérons (écoutons) ce qu’est un geste d’arrondissement vocalique …
Lip area (articulatory rounding)
Perc
ep
tual fo
rman
t F
’2
(aco
usti
c r
ou
nd
ing
)
1. Geste
2. Son (et catégorisation?)
3. Geste inféré (et catégorisation?)
(suite). Pas de geste sans valeurfonctionnelle (perceptive)
• Systèmes vocaliques
• Geste d’ouverture-fermeture de la
mâchoire dans la Théorie Frame-Content
Les gestes de parole ne sont pas des unités motrices, mais perceptuo-motrices : leur
contenu perceptif fait partie intégrante de leur représentation mentale dans le cerveau
[o]
[i] [y]
[u]
[a]
[e] [ø]
[m] [m]
Jaw cycle Acoustico-Auditory
shaping
Consona
nt(turbulent flow)
Vowel(laminar flow)
Stevens’ Quantal Theory
Vers une théorie perceptuo-motrice de laperception de la parole
Il faut pouvoir intégrer dans un cadre théorique deux ingrédients majeurs
de la perception de la parole :
•L’existence de « contraintes » ou « connaissances implicites » venant
de la motricité orofaciale
•L’existence de processus de traitement/mise en forme acoustico-
auditive des gestes orofaciaux
Motricité Audition
Sons
Perception
La théorie de la Perception
pour le Contrôle de l’Action
(PACT)
PACT (Perception-for-Action-Control Theory)une théorie perceptuo-motrice de la perception de la parole
(Schwartz et al., Journal of NeuroLinguistics, 2010)
Les unités de la communication parlée ne sont ni des sons ni des gestes,
Mais des gestes mis en forme par la perception
Ou des percepts structurés par l’action
vs. Théorie motrice : Les objets de la perception sont les gestes moteurs (intentionnels)OK si les gestes sont « mis en forme », donc intrinsèquement perceptuo-moteurs
vs. Théories auditives : La compréhension de la parole n’est ni équivalente à ni
médiatisée par la perception des gestesPas nécessairement médiatisée en ligne mais médiatisée développementalement par la co-
structuration des représentations perceptives et motrices (cartes sensori-motrices)
Motricité Audition
Sons
Perception
Le rôle du lien sensori-moteur dans la PACT
1. Co-construction (offline / développementale) des prototypescatégoriels entre la perception et l’action
1. Intervention en ligne de la motricité dans la perception
Il ne s’agit plus de prouver ou d’infirmer l’hypothèse motrice,mais d’évaluer le rôle fonctionnel de la motricité dans la perception
PACT et la neuro-anatomie actuelle
Les deux routes
Hickok & Poeppel, 2004, 2007
- STG bilatéral (éventuellement
avec des spécificités gauche-
droite)
- Voie dorsale vs. voie ventrale
- Une voie dorsale
multisensorielle temporo-pariéto-
frontale gauche liant perception et
action
-Une voie ventrale temporale pour
la compréhension de la parole
-Un bouclage ventral-dorsal peu
clair (Décodage ? Syntaxe ?
Sémantique ?
PACT et la neuroanatomie actuelle(suite)
CAVEAT : la neurophysiologie ne renseigne pas directement sur les formats de
représentation - on peut avoir un format « moteur » dans des aires temporales ...
1. La co-structuration des représentations
perceptives (temporales) et motrices (frontales)
dans le développement ou les apprentissages
adultes devrait impliquer la voie dorsale (cartes
sensori-motrices)
2. Une fois structurées (en partie par les
connaissances motrices) les représentations
auditives (temporales) fournissent la base de la
compréhension via la voie ventrale
3. La voie dorsale pourrait jouer un rôle dans la
perception en ligne, en conditions perturbées
(binding ?)
1. Théories auditives vs. motrices de la perception
de la parole : La réponse de la « PACT »,
théorie perceptuo-motrice
1. Co-construction des catégories phonologiques
en perception et en production : le cas des
voyelles
(avec Lucie Ménard, UQAM, 2007-2010)
3. Relation perceptuo-motrice en ligne :
Liage audiovisuel en perception de parole
1. Production des voyelles du français: typologies
d’idiosyncrasies
2. Perception des voyelles du français: une idiosyncrasie en
miroir
F1 voyelle produite
F1
vo
ye
lle p
erç
ue
D’où viennent ces “idiosyncrasies perceptives” ?
Pas de la perception (même espace d’apprentissage pour chacun / à part
“dialectes” familiaux ?)
L’interprétation PACT : co-construction des représentations
perceptive et motrice au cours du développement
rela
tive
po
sitio
n in
F1
(pe
rce
ive
d)
relative position in F1
(produced)
[i][e]
[E]
[a]
[i]
[e][E]
[a]
[i]
[e]
[E][a]
[i][e]
[E]
[a]
[i]
[e][E]
[a]
[i]
[e]
[E][a]
[i][e]
[E]
[a]
[i]
[e][E]
[a]
[i]
[e]
[E]
[a]
Subject Type 1
Subject Type 2
Subject Type 3
(a) Production (b) Perception (c) Perception / smaller vocal tract
Son Caractérisation
Auditive
Param. Perceptifs Catégorisation
Auditive
Percept
Schémas
Moteurs
Un premier schéma fonctionnel pour la PACT
Co-structuration des systèmes de
perception et d’action en relation
avec la phonologie
Rôle fonctionnel du système moteur
dans la perception (liage ?)
1. Théories auditives vs. motrices de la perception de la
parole : La réponse de la « PACT », théorie
perceptuo-motrice
1. Co-construction des catégories phonologiques en
perception et en production : le cas des voyelles
3. Relation perceptuo-motrice en ligne :
Liage audiovisuel en perception de parole
(avec Marc Sato et Anahita Basirat)
PACT et le problème du liage en parole
L’Analyse de Scènes Auditives (Bregman) : primitives et schémas Is speech perceptual coherence special?Remez et al., Psychological Review, 1994: On the perceptual organization of speech
L’analyse de scènes de parole,
un processus perceptuo-moteurLe “destin commun” est perceptuo-moteur (PACT)
La PACT et le problème du liage en parole
71
Le destin commun est articulatoire …et ses apparences acoustiques sont complexes !
son
geste
Multistabilité
• Un paradigme pour étudier l’organisation perceptive(décision, attention, conscience, …)
! De la multistabilité en vision à l’audition et à la parole
(http://www.optical-illusion-pictures.com/)
Répétition rapide de
“life” “fly”
(Transformations Verbales,
Warren et Gregory, 1958)
! La multistabilité en parole (TransformationsVerbales)
comme un processus perceptuo-moteur
Les propriétés du système moteur de la parole
influent sur les Transformations Verbales (liage perceptuo-
moteur : Sato, et al., P&P, 2006)
• Expérience I: la cohésion articulatoire mène à la stabilité perceptive
(“fly” plus stable que “life”?)
– Stimuli:
• “pse” vs. “sep” prononcés par le sujet
– Hypothèses:
• “pse” est articulatoirement “en phase” et devrait être plus stable
– Résultats:
• “pse” est plus stable et plus attractif que “sep”
• Vrai aussi en parole intérieure (“covert”)
[s] [s] [s] [s] [s] [s]
Geste Coronal
[p] [p] [p] [p] [p]
Geste Labial
[pse] [pse] [pse]
Les propriétés du système moteur de la parole
influent sur les TV (perceptuo-motor binding: Sato et al., JSLHR, 2007)
• Expérience II: L’effet Labial Coronal
– Stimuli:
• Stimuli acoustiques “pata” vs. “tapa”
– Hypothèse:
• Les cycles de mâchoire devraient rendre cohérentes “chunk”) les
séquences pata
" Résultats:
! “pata” perçu plus souvent que “tapa”
! “bada” perçu plus souvent que “daba”
p a t a p a t a p a t a p a t a Son
Cycle de mâchoire
Les Transformations Verbales sont
multisensorielles(liage audiovisuel : Sato, Basirat & Schwartz, P & P, 2007)
• Expérience III: TVs visuelles et audiovisuelles VTs
– Stimuli:
• “pse” et “sep” en audio-seul, vidéo-seul, AV congruent, AVincongruent
– Résultats:
• On observe des TVs en mode visuel
• AV Incongruent comparé à AV congruent :
Congruent V: stabilité de l’input auditive
Incongruent V: stabilité de l’input auditive
Les Transformations Verbales sont
multisensorielles(audiovisual binding: Sato, Basirat & Schwartz, P & P, 2007)
• Expérience IV
– Audiovisuel “pse” et “sep”
Audio stable + alternance vidéo entre stimuli congruent et incongruent
p s e p s e p s e p s e p s e p s e Son
Lèvres
77
" Résultats:
! AV incongruent : forte influence visuelle
! Transformations synchrones et congruentes avec lesbascules de la piste vidéo
p s e p s e p s e p s e p s e p s e Son
Lèvres
78
Les Transformations Verbales sont multisensorielles(liage audiovisuel : Sato, Basirat & Schwartz, P & P, 2007)
• Expérience V
– Stimuli: /pata/ et /tapa/ en modes A, AV, AVpa, AVta
Hypothèse: l’ouverture labiale en
“bootstrap”
Résultats:- Percept /pata/ plus stable dans AVpa que dans Avta
- Percept /tapa/ plus stable dans AVta que dans Avpa
L’effet semble speech specific (Basirat et al., inpreparation)
p a t a p a t a p a t a p a t a p a t a Son
Lèvres / Barre
80
Les Transformations Verbales dans la voie dorsale(dorsal cortical binding: Sato et al., NeuroImage 2005)
• Expérience VI
– fMRI, contrastant répétition simple et répétition + recherche de
transformations
81
Les Transformations Verbales dans la voie dorsale(dorsal cortical binding: Basirat et al., NeuroImage 2008)
• Expérience VII
– iEEG, contrastant multistabilité (changement “subjectif” endogène) et
changement acoustique (“objectif” exogène)
Expériences III-V:
La modalité visuelle peut influencer et contrôler lestransformations
Liage audiovisuel
Le geste d’ouverture labiale, un “onset” perceptif
Expériences I-II:
Les processus moteurs pénètrent dans le processus (de liage)des TV
L’analyse de scènes de parole,
un processus perceptuo-moteur et multisensoriel
Expériences VI-VII:
Les transformations verbales dans la voie dorsale temporo-pariéto-frontale (boucle articulatoire? Mémoire de travail verbale ?Liage?)
Un nouveau schéma pour la PACT
Son A
Image V
Liage
Audio-
visuel
Param.
Perceptifs
Catégorisation
Audio-visuelle
Percept
Schémas
Moteurs
Cartes Sensori-motrices
de la parole
Objet
(A*, V*)
Caractérisation
Audio-visuelle
Onset mâchoire (CV, LVCV)Un rôle pour l’accès AV au lexique ?
=> Modélisation dans TRACE-VT, par un « biais
articulatoire » au niveau lexical, intégrant
mécanisme de sonorité et effet labial coronal) /
Thèse Basirat
En conclusion : des objets
co-construits entre
perception et action
(dans la PACT)