chapitre 3 -------- les contenus du signal de parole et leur évaluation perceptive jean-sylvain...

43
Chapitre 3 Chapitre 3 -------- -------- Les contenus du signal de Les contenus du signal de parole et leur évaluation parole et leur évaluation perceptive perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences Cognitives Module PNPA Déc 04 – Fév 05

Upload: caterine-ferry

Post on 04-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Chapitre 3Chapitre 3----------------

Les contenus du signal de Les contenus du signal de parole et leur évaluation parole et leur évaluation

perceptive perceptive

Jean-Sylvain Liénard

LIMSI-CNRSORSAY

M2 Recherche Informatique

Filière Sciences Cognitives

Module PNPA

Déc 04 – Fév 05

Page 2: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Contenus linguistiques:verbalprosodiquelangue

 

Contenus non-linguistiquesLocuteur, variété de langueÉmotion, expressionStyle de paroleCanal acoustique

 

Evaluation de l'intelligibilitétransmission, perception, productionMatériaux et tests

  

Page 3: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Contenus linguistiquesContenus linguistiques

Page 4: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Contenu linguistique Contenu linguistique 11

Contenu verbal (segmental)

Ce qui peut être noté par écrit ?

- phonèmes, syllabes, mots ?- est-ce que tout est prononcé ? Ça dépend…- peut-on comprendre un mot sans percevoir ses constituants ?- peut-on percevoir les constituants sans percevoir le mot ?

Le Sens ?

- sens intrinsèque (cf dictionnaire) ?- ou fonction du contexte et de la situation ?

Page 5: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Contenu linguistique Contenu linguistique 22

Contenu intonatif (suprasegmental)

La prosodie : l'ensemble des variations du signal (hauteur, durée, intensité, timbre) pour un même contenu segmental.

L'intonation : celles de ces variations qui sont pertinentes sur le plan linguistique: la phrase et ses composants, groupes prosodiques, limites des groupes, hiérarchisation, assertion, question… Prédominance de F0.

Problèmes :- comment noter l'intonation ?

ToBI: Tones and Break Indices IntSint: INternational Transcription System for

INTonation

- comment l'évaluer isolément ?

Information linguistique, para-linguistique, extra-linguistique

Page 6: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Contenu linguistique Contenu linguistique 33

La langue : un contenant plutôt qu'un contenu ?

Un problème nouveau : l'identification des langues

- par l'homme : limitation aux langues qu'il connaît, indices de différents niveaux

- par la machine : pas de limite en nombre de langues, indices à définir

Aspect acoustique : différents modèles de phonèmes

Aspect phonotactique : statistiques des phonèmes et des multigrammes phonétiques

Aspect prosodique : à l'étude ; mélange avec les indices manifestant d'autres types d'information

Page 7: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Contenus non-linguistiquesContenus non-linguistiques

Page 8: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Contenu non-linguistique 1 : identité du Contenu non-linguistique 1 : identité du locuteurlocuteur

Indices de multiples niveaux- acoustique : échelle formantique (sexe, genre, individu)- phonétique : manières de prononcer, défauts spécifiques- lexical : choix de certains mots ou expressions- prosodique : caractères spécifiques- timbre, mode de voix habituel

Problématique humaine- petit nombre de voix familières ou remarquables- rôle de la situation : locuteur souvent prévisible- le problème des imitateurs : caricature plus que ressemblance

Problématique machine- identification (ensemble fini) vs vérification (locuteur coopératif)- distinguer : dépendant / indépendant du texte- Vérification: Equal Error Rate ( %fausses alarmes = %fausses reconnaissances) de l'ordre de quelques %

Page 9: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Contenu non-linguistique 2 : variété de Contenu non-linguistique 2 : variété de languelangueIndices

- indices de divers niveaux adoptés et reconnus par tous les membres d'un même groupe linguistique

Problématique humaine- dialectes, sociolectes, idiolectes : marques d'appartenance à un groupe- perçus comme simple variantes par les auditeurs extérieurs au groupe

Problématique machine- peu avancée; comment poser le problème ?- complémentaire de l'identification de la langue

Page 10: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Contenu non-linguistique 3 : émotion et Contenu non-linguistique 3 : émotion et expressionexpressionL'émotion

- interaction état interne (physique, psychique), monde externe- problèmes :

- difficulté de définir un répertoire d'émotions : nombre ? émotions primaires ? composées ?- impossibilité éthique d'expérimenter sur les émotions (sauf 'rejouer' une émotion réellement vécue)- l'acteur 'interprète' des émotions – les ressent ?

- manifestation essentiellement prosodique- l'émotion tend à occulter les autres différences vocales. Universalité ?

L'expression- terme plus neutre : manifestation dirigée vers un auditeur- comment la caractériser ?

Page 11: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Locuteur assis, à 30 cm d'un micro omnidirectionnel (LEM DO21B), dans une pièce meublée. Niveau d'entrée figé

L'opérateur se situe successivement à 1.5 m (condition Normal), 0.4 m (condition Close), 6 m (condition Far)

En chaque position:– l'opérateur prononce une phrase, à un niveau qui lui

semble adapté à la distance– le locuteur répète la phrase, idem– l'opérateur prononce une voyelle isolée– le locuteur répète cette voyelle– on itère sur toutes les voyelles

Contenu non-linguistique 3 :Contenu non-linguistique 3 :    ll’effort vocal ’effort vocal

Page 12: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Résultats sur l'effort vocalRésultats sur l'effort vocal

L'effort vocal, dans des conditions usuelles de conversation, se traduit par 4 effets sur la structure spectrale des voyelles:

– l'amplitude augmente de 3 à 6 dB quand on double la distance à l'allocutaire

– l'amplitude des formants augmente plus vite que le niveau total (spectral tilt): A+10 --> A1+11, A2+12.4, A3+13 dB

– F0 augmente avec l'EV: 5.1 Hz/dB --> effet le plus important

– F1 augmente avec l'EV: 3.5 Hz/dB

amplitude: indice peu fiable

F0 et Ai: indices propres au locuteur

F1: indice propre au système phonétique

Page 13: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Perception de l'effort vocalPerception de l'effort vocal

Dans les conditions usuelles de la conversation, l'auditeur n'est pas conscient de l'EV du locuteur, dès lors que celui-ci est adapté à la situation. On le remarque quand il est inadapté

L'EV n'est pas mesurable en l'absence des autres descripteurs. Il se traduit par un pattern de déformation du signal. Ce pattern est redondant (-->robuste)

l'EV est lui-même un trait utilisé pour élaborer d'autres informations, linguistiques ou non:

– accent prosodique (en conjonction ou non avec une action sur F0 et durée)

– caractéristique du locuteur (voix forte ou faible)

– distance marquée par le locuteur vis-à-vis de l'allocutaire

Page 14: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Contenu non-linguistique 4 : le style de Contenu non-linguistique 4 : le style de paroleparole

Hypothèses- il existe un "style de parole" adapté à chaque situation de communication.- le nombre de ces situations-types est limité. - le répertoire des styles fait l'objet d'une convention implicite entre tous les membres d'un groupe social donné.

Exemples- conversation en tête-à-tête- cours dans une classe primaire- commentaire sportif- dispute familiale- prêche- lecture à voix haute …

Travail à faire- répertorier situations-types- associer à chacune des règles verbales et prosodiques

Page 15: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Contenu non-linguistique 5 : Contenu non-linguistique 5 : les conditions acoustiquesles conditions acoustiques

Distance locuteur – auditeur (microphone)

Microphone : caractéristiques, position

Bruit de fond, scène acoustique

Echos et Réverbération

Page 16: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

De la difficulté de l'évaluationDe la difficulté de l'évaluation(perceptive ou automatique)(perceptive ou automatique)

Trois problèmes majeurs

- tous les aspects sont mélangés dans le signal

- la notation n'est possible que pour certains aspects

- la communication parlée est une activité située

Dilemme: pour mesurer (évaluer) un aspect il faut l'isoler des autres. Est-ce possible sans changer la nature même du signal ?

Peut-on considérer ensemble tous les aspects du signal ?

multicatégorisation vs catégorisation

Page 17: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

exemple d'étude:exemple d'étude:

Indices prosodiquesIndices prosodiques caractérisant un style caractérisant un style

d'élocutiond'élocutionet ses variantes individuelleset ses variantes individuelles

Page 18: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Caractériser un style d'élocution "lecture à voix haute"

- même texte- ensemble homogène de lecteurs- mêmes conditions d'élocution- même consigne

Et ses variations- existe-t-il une "réalisation

moyenne" ?- où se placent les variations

individuelles ?

Objectif et corpusObjectif et corpus

Corpus LeblancCorpus Leblanc- 48 locutrices, étudiantes psycho

Nanterre- 2 élocutions- texte présenté en un seul

paragraphe

Texte

Les Français, qui consacrent une partie appréciable de leur journée à la poignée de main, passent également un temps considérable à se prier réciproquement d'entrer dans leurs maisons. Les uns prient les autres d'entrer, les autres jurent qu'ils n'en feront rien. Les premiers disent : "Moi non plus". Et, de fil en aiguille, les Français ont passé (environ) trois siècles et demi depuis Charlemagne sur le pas de leurs portes. On est même étonné d'en trouver quelques-uns chez eux.

Extrait de: Pierre Daninos Les carnets du major Thompson

séquence référence (07)

Page 19: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Répartition des pausesRépartition des pauses

histogramme du nb de pauses (sf début et fin)

0

510

1520

2530

35

3 4 5 6 7 8 9 10 11

La majorité des locutrices observe 6 ou 7 pauses, correspondant aux principales ponctuations

respect majoritaire de la norme imposée par le texte

Hors de cette norme chaque locutrice ajoute ou supprime des pauses, mais pas n'importe où

sur ponctuations secondaires

sur ruptures de sens sur ruptures syntaxiques

Le choix des pauses effectives est une manière d'interpréter le texte

Pause: chûte du niveau sonore d'au moins Pause: chûte du niveau sonore d'au moins 12 dB par rapport à la moyenne (en 12 dB par rapport à la moyenne (en énergie) de la séquence, et durant énergie) de la séquence, et durant plus que 1,8 fois la durée moyenne plus que 1,8 fois la durée moyenne des Groupes Vocaliques, soit environ des Groupes Vocaliques, soit environ 300 ms.300 ms.

Valeurs non critiques, modulées en Valeurs non critiques, modulées en fonction du débit moyen de la fonction du débit moyen de la locutricelocutrice

Page 20: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Noyau vocalique NVNoyau vocalique NV- segment centré sur un maximum de la fonction d'énergie

BF (<1 kHz) évaluée sur fenêtre 50 ms.- limites à –3 dB- ce n'est pas une "voyelle phonétique"

Groupe vocalique GVGroupe vocalique GV- segment compris entre deux minima d'énergie BF, hors

pauses - approximation: mi-distance de deux centres NV successifs- ce n'est pas une "syllabe phonétique"

Indices prosodiques Indices prosodiques (définis pour chaque GV)- F0F0 au centre du NV sur fenêtre 100 ms, en

demi-tons/100 Hz- dF0 dF0 différence F0 (fin NV) – F0 (début NV)- intensité intensité au centre du NV, en dB- DuréeDurée durée du GV

Noyaux et groupes vocaliques, indices Noyaux et groupes vocaliques, indices prosodiquesprosodiques

Page 21: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Choix d'une séquence de référenceChoix d'une séquence de référence par écoute critique: écarter toute séquence entachée de défauts trop apparents (reprises, hésitations, erreurs de lecture, voix trop lente, trop rapide, accent régional...)

AlignementAlignement de tous les tableaux de GV sur cette séquence de référence par programmation dynamique sur critères spectraux (8 mfcc)

MoyennageMoyennage des 96 tableaux alignés temporellement pour obtenir le tableau prosodique représentant la séquence moyenne (notion abstraite)

Ne pas confondre Ne pas confondre séquence de référence, séquence moyenne, prototype stylistique

Etiquetage Etiquetage (pour interprétation visuelle)

Rétro-étiquetageRétro-étiquetage possible: connaissant un étiquetage segmental de la séquence moyenne, on peut l'appliquer à toutes les séquences du corpus

Calcul d'une prosodie moyenneCalcul d'une prosodie moyenne

Page 22: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Al

Q

9

10

11

12

13

14

15

16

17F0 (st)

-2

-10

1

2 dF0 (st)

70

75

80

85

90int (dB)

0,10

0,15

0,20

0,25

0,30

dur (s)

F0 double déclinaison - marqueur de fin de groupe - dF0 - corrélation int/F0 - évolution durée

Page 23: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Trois grands types de groupes prosodiques pour ce corpus

Grands groupesGrands groupes (entre deux pauses: "groupes de souffle" ?)découpage visible sur tous les indicesdouble déclinaison (F0, intensité)marqueur de fin de groupe, sur les derniers GV

Petits groupes:Petits groupes: "mots prosodiques" ?concerne un petit nombre de GV: 1 à 4se manifeste surtout dans F0 et duréestructure unitaire propre à la langue ou au dialecte ?

Groupes intermédiaires: Groupes intermédiaires: "groupes de sens" ?soumis à considérations linguistiques: syntaxe, sémantique,

et à l'interprétation du texte par la locutriceces groupes intermédiaires peuvent évoluer selon

l'interprétation, allant du mot prosodique au groupe de souffle

Prosodie moyenneProsodie moyenne

Page 24: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Pour chaque indice, deux types de dissemblances entre séquences: deux types de dissemblances entre séquences:

DécalageDécalage ou écart en moyenne: différence des moyennes de l'indice sur chaque séquence

Profil Profil ou écart des valeurs: covariance, ou distance entre valeurs correspondantes (centrées) dans les deux séquences

Pour chacun des indices prosodiques on a défini deux mesuresdeux mesures: en décalage (DF0, DdF0, Dint, Ddur)en profil (PF0, PdF0, Pint, Ddur)

Même chose pour la forme d'ensemble du spectreforme d'ensemble du spectre, par le biais des 4 premiers mfcc: Dcc1 … Dcc4, Pcc1 … Pcc4

Décalages différences "statiques" entre séquences (F0 moyen, débit moyen, spectre à long terme…) indépendantes du contenu et de l'élocution

Profils différences "dynamiques" (évolution de F0, int, durée, forme spectrale), liées au contenu linguistique (ici: le même) et à l'élocution

Variantes individuellesVariantes individuelles

Page 25: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Exemples de variationsExemples de variations

5

10

15

20

25

Evolution de F0 (demi-tons)

pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais)

et 40 (la plus éloignée - en trait fin)

Les premiers disent: "Moi non plus". Et, de fil en aiguille…

(52) (40)

Page 26: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Exemples de variationsExemples de variations

5

10

15

20

25

Evolution de F0 (demi-tons) pour les séquences 52 (la plus proche de la moyenne, toutes mesures confondues - en trait épais)

et 79 (la plus proche de la moyenne pour les mesures de profil prosodique - en trait fin)

Les premiers disent: "Moi non plus". Et, de fil en aiguille…

(52) (79)

Noter que F0 ne suffit pas à expliquer les différences perçues, il faut aussi dF0 et durée

Page 27: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

L'approche proposéeL'approche proposéeVise à permettre une étude comparative de séquences ayant

sensiblement le même contenu segmentalEt à mettre en correspondance des indices acoustiques avec

des contenus (rôle de la perception)

Style d'élocutionStyle d'élocutionImportance du placement des pauses (grands groupes)Intérêt d'étudier la transition grands groupes groupes

intermédiairesStructures multi-indicielles des 3 types de groupes

Langue, dialecteLangue, dialecteVoir du côté des mots prosodiques Rôle des facteurs spectraux à approfondir (interférence avec

l'aspect segmental)

ConclusionsConclusions

Page 28: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Evaluation de l'intelligibilitéEvaluation de l'intelligibilité

Page 29: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Trois points de vue sur Trois points de vue sur l'intelligibilitél'intelligibilité

•Théorie de l'informationThéorie de l'information

Intelligibilité de transmission, de perception, de production

Page 30: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Compréhension, intelligibilité, netteté Compréhension, intelligibilité, netteté

•Compréhension: Compréhension: comprendre le sens, en situation

•Intelligibilité:Intelligibilité: reconnaître les mots, hors situation

•Netteté:Netteté: reconnaître les phonèmes, syllabes ou VCV, hors situation et hors lexique

Page 31: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

•Canal simple: appareillage électro-Canal simple: appareillage électro-acoustiqueacoustique

- altérations usuelles: bruit de fond, distorsions fréquentielles

•Canal multiple: salleCanal multiple: salle- autant de canaux que de couples orateur-auditeur- altérations usuelles: échos, réverbération, bruits

•EvaluationEvaluation- entrée canal : listes d'éléments parlés de référence- sortie canal : comptage des réponses d'un ensemble d'auditeurs - mise en œuvre longue et difficile- recherche de critères physiques: indices fréquentiels, rapport S/B, premières réflexions, temps de réverbération, résolution spectro-temporelle…

Intelligibilité de transmissionIntelligibilité de transmission

Page 32: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

L'intelligibilité dépend du rapport L'intelligibilité dépend du rapport signal/bruit et du contenu des motssignal/bruit et du contenu des mots

Page 33: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

L'intelligibilité dépend aussi de la taille L'intelligibilité dépend aussi de la taille du vocabulairedu vocabulaire

Page 34: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

L'intelligibilité dépend de la nature L'intelligibilité dépend de la nature des unités linguistiquesdes unités linguistiques

Indice d'articulation: fonction normalisée (statistique) du rapport signal/bruit

Page 35: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

•Concerne un auditeur particulierConcerne un auditeur particulier- malentendant, ou normo-entendant placé dans des conditions difficiles

•Altérations de l'auditionAltérations de l'audition- atténuation: globale ou sélective en fréquence- bruits perturbateurs: acouphènes- diminution de la résolution spectro-temporelle du codage ?

•EvaluationEvaluation- l'audiogramme n'indique que les seuils d'audibilité- audiométrie vocale, dans le silence ou en présence de bruit- on cherche à établir un diagnostic, mais

- dans quels aspects du signal se trouve l'information de la parole ?- comment est-elle perçue "normalement" ?

Intelligibilité de perceptionIntelligibilité de perception

Page 36: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Courbe d'intelligibilité vocaleCourbe d'intelligibilité vocale

Paramètres :

• le seuil d'intelligibilité : niveau auquel la performance est de 50% ;

• la pente de la courbe ;

• le maximum d'intelligibilité ;

• le pourcentage de discrimination : performance à 35 dB au-dessus du seuil ;

• le seuil de distorsion : niveau auquel les performances commencent à décliner.

0102030405060708090

100

0 5 10 15 20 25 30 35 40 45

Niveau du stimulus

Per

form

ance

(%

)

-10 -5 0 5 10 15 20 25 30 35 dB HL

Page 37: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Facteurs influençant l'intelligibilité vocaleFacteurs influençant l'intelligibilité vocale

0102030405060708090

100

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100

Niveau du stimulus

Per

form

ance

(%

)

a

b

c

d

e

f

-10 -5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 dB HL

dB SPL

Différents types de courbes d’intelligibilitéa/ Courbe normale, mots dissyllabiquesb/ Courbe décalée et redresséec/ Courbe décalée, parallèled/ Courbe décalée et inclinéee/ Courbe décalée, inclinée ; maximum à plus faible niveauf/ Courbe de type e/ + diminution des performances pour des niveaux élevés

Page 38: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Les matériaux de testLes matériaux de test

Selon le niveau d'abstraction que l'on veut évaluer

Niveaux acoustico-phonétiques (1 à 4)• logatomes• Mots

Niveaux acoustico-phonétique + lexical (accès au lexique)

• Mots

Niveaux acoustico-phonétiques, lexical, sémantique (compréhension)

• Phrases, actions ?

Page 39: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

On veut mesurer la netteté, sans influence du lexique ni du sens

Logatomes : syllabes sans signification, espéranto

- exemples : zos, trag, fim, vlek, jop, frad …

- Nécessite un auditoire entraîné (transmission : téléphonie)

Segments VCV Voyelle-Consonne-Voyelle

- exemples : /ata/ /ara/ /imi/ ….

- en français 15 voyelles, 17 consonnes 255 VCV

- on se limite souvent à 3 voyelles, soit 51 VCV

Perception acoustico-phonétiquePerception acoustico-phonétique

Page 40: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

Diagnostic Rhyme Test (Voiers 70') ou test de diagnostic parpaires minimales

Pair Voicing CompactnessAcuteness Interrupted…PILL TILL XBEAR PAIR XTEAR DEAR XDULL BULL XKILL TILL XSIP TIP X… - Consonne initiale- différence minimale: 1 trait distinctif- test rapide, permet évaluation et diagnostic- sujets non-spécialistes---> limites: celles mêmes de la notion de trait distinctif

Perception acoustico-phonétiquePerception acoustico-phonétique

Page 41: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

• Le problèmeLe problème - tous les locuteurs ne sont pas également intelligibles- mais on ne s'en rend pas compte dans les conditions usuelles

• Mise en évidenceMise en évidence - dans des conditions difficiles: bruit, réverbération- pour certains styles de voix: voix criée, articulation relâchée ou rapide- dans une langue étrangère mal maîtrisée - quand on est malentendant

• EvaluationEvaluation- on évalue un locuteur et un style de voix- sujet peu étudié- nécessite un groupe d'auditeurs de référence

Intelligibilité de productionIntelligibilité de production

Page 42: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière

• ReprésentativitéReprésentativité - pas de test universel: définir d'abord le problème, ensuite le test qui représente celui-ci au mieux- l'intelligibilité n'est qu'un aspect de la communication orale

• Validité statistiqueValidité statistique - fonction des conditions de passation, du nombre d'items, du nombre d'auditeurs…

• RapiditéRapidité- passation rapide- dépouillement automatisé

Qualités d'un test d'intelligibilitéQualités d'un test d'intelligibilité

Page 43: Chapitre 3 -------- Les contenus du signal de parole et leur évaluation perceptive Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière