jacqueline vaissiere - sorbonne...

11
~ - ln UTILISATION DES PARAMETRES SUPRASEGMENTAUX EN RECONNAISSANCE AUTOMATIQUE COMME AIDE A LA SEGMENTATION EN PHONEMES JACQUELINE VAISSIERE (Communication faite lors du Séminaire "Prosodie et Reconnaissance", Aix-en-Provence, 1982) RECHERCHES/ACOUSTIQUE CNET VOL VII 1982/8J

Upload: duongdang

Post on 08-Sep-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: JACQUELINE VAISSIERE - Sorbonne Nouvellepersonnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index... · JACQUELINE VAISSIERE ... the acouet1c-phonet1c analyzer of a Speech Recognition

~

-ln

UTILISATION DES PARAMETRES SUPRASEGMENTAUX

EN RECONNAISSANCE AUTOMATIQUE

COMME AIDE A LA SEGMENTATION EN PHONEMES

JACQUELINE VAISSIERE

(Communication faite lors du Séminaire "Prosodie et Reconnaissance",

Aix-en-Provence, 1982)

RECHERCHES/ACOUSTIQUE CNET VOL VII 1982/8J

Page 2: JACQUELINE VAISSIERE - Sorbonne Nouvellepersonnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index... · JACQUELINE VAISSIERE ... the acouet1c-phonet1c analyzer of a Speech Recognition

129

UTILISATION DES PflRAMETRES SUPRf'.SEGMENTAUXEI~ RECOiii~.o.ISSANCE AUTOr-1ATIOUE

COl-1f.1E AIDE A LA SEGi'1EI'JTf-\TION EN PHONEr"1ES

RESUME

Des tests préliminaires ont suggéré la possibilité d'utiliser 1a.du-rée relative des segments acoustiques détectés par l'analyseur acoustico-phonétique d'un système de reconnaissance de la parole (KEAL), la fréquence dufondamental superposée aux segments détectée et les positions des pausescomme aide à l'interprétation des frontières de segments acoustiques en termede frontières entre phonèmes. En principe, en Français, à une voyelle ne doit

correspondre qu'un seul segment acoustique (pas de diphto~ue). Or, le program-me actuel opère des fusions (un segment acoustique = deux voyelles), des dis-persions (une voyelle = deux segments acoustiques) et des omis.sions (une voyel-le - 0 segment acoustique). Premièrement, les dispersions vocaliques correspon-dent en grande partie à des positions suprasegmentales caractéristiques, etelles sont causées par des variations spectrales dues à la réalisation de lacontinuation majeure, et à la chute finale, avant une pause, en fin de phrase.Ces contextes sont repérables automatiquement, et il est suggéré d'ajusterl'algorithme de d.étection des frontières à ce contexte suprasegmenta1. Deuxiè-mement, les phénomènes d'élongation tendent 1 caractériser la.syllabe touteentière, plutôt qu'un des phonèmes qui la composent: les variations relativesde durée des segments consonantiques et voca1iq~es en séquence permettent derepérer un certain nombre de fusions et d'omissions par le déséquilibre dansla durée relative des segments en séquence. L'intégration des algorithmes dansle module acoustico-phonétique du système KEAL n'a pas encore été faite et nousn'avons pas encore de données s~r l'efficacité réelle de ces algorithmes.

USE OF THE SUPRASEGMENïAL PARAMETERSIii AUTOMATIC RECOGNITION

AS AN AID Ir~ PHoi~EME SEG~]Ei~TATIoN

ABSTRACT

Preliminary tests have suggested that it may be possible touse the relative duration of the acoustic segments (phones), as delimited by

the acouet1c-phonet1c analyzer of a Speech Recognition System (SRS) from spec-tral discontinuity in the speech signal, the fundamental frequency superimposedto the vocalic segments, and ~he location of pauses, as parameters 1n

Page 3: JACQUELINE VAISSIERE - Sorbonne Nouvellepersonnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index... · JACQUELINE VAISSIERE ... the acouet1c-phonet1c analyzer of a Speech Recognition

130

deciding whether a vocalic segment effectively corresponds to the presence ofa simple vowel, and vice versa. ln French, vhere there is no diphthong, thereshould be, a priori, one vqcalic segment ~er rovel. However, the program makessome fusions (two successive vowels .one phone), some spreads (one vowel - twophônes) and some omissions (one vowel - 0 phone). First, analysis of the sprea-

ding cases bas shawn errors to be partly predictable from the suprasegmentalcontext in which the vowel occurs. MOre precisely, spreading occurs frequentlywhen a vowel is superimposed with the so-called continuation rise, and at thevery end of the sentence, when Fo falls sbarply before a pause. Consequently,in terme of boundary, spectral discontinuity should be interpreted using the Facontour àuperfmposed on the acoustic segments and the position of pauses, as areference. Secondly, lengthening tends to characterize the entire syllable, ratherthan a single phoneme. A a consequence, the relative du.ration of the phones insequence can be used to detect eventual spreading, omission (aute e in particu-lar) and merging (Note that in French, vowel duration is not distinctive). Theproposed algorithme have not yet be~ integrated into the acoustic-phonetic ana-lyzer. Work is in progres~ to quantitatively test the improvement brought aboutby taki~into account the suprasegmental context to interpret discontinuity inthe signal in terme of boundary.

Page 4: JACQUELINE VAISSIERE - Sorbonne Nouvellepersonnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index... · JACQUELINE VAISSIERE ... the acouet1c-phonet1c analyzer of a Speech Recognition

U1

UTILISP.TION DES PARAMETRES SUPRP.SEGMENTAUXEf'J RECOf'~NAISSANCE AUTOf1ATIOUE

CO~V1E AIDE A LA SEGMENTATIOt~EN PHONEMES

INTRODUCTION

L'idée d'ut~iser les paramètres suprasegmentaux dans les systèmes dereconnaissance n'est pas nouvelle. Il a déjà été souvent proposé d'utiliser lafréquence du fondamental, la durée et l'intensité, soit pour un repéra'ge dessyllabes dites accentuées, soit pour apporter des contraintes supplémentairessur les mots lors de la recherche lexicale, ou encore pour extraire des infor-mations sur la structure syntaxique de la phrase (Cheung, 1975 ; Lea, 1973 ;

Martin, 1975,1979 ; Vaissière, 1982 ; etc...).

Cet article propose d'utiliser la durée et la fréquence du fondamen-tal pour détecter certaines erreurs de segmentation, telles que les erreurs defusion (à plusieurs phonèmes ne correspond qu'un seul segment'acoustique détec-té) et les erreurs de dispersion vocalique (à une seule voyelle'correspondentdeux segments acoustiques).

Dans la plupart des systèmes de reconnaissance, et dans le systèmeKEAL.en particulier (Gresser et al, 1975 ; Mercier, 1981), le signal de paroleest segmenté en segments acoustiques par repérage de discontinuités dans lespectre. Ces segments acoustiques sont alors interprétés en termes de phonèmes,et en général, le nombre de phonèmes détectés est inférieur à celui des segmentsacoustiques. A une consonne occlusive sourde, par exemple, correspondent géné-ralement trois segments acoustiques, l'un représentant une zône de silence,l'autre une explosion de bruit, et une zône d'instabilité (transition vers la .

voyelle). A une voyelle ne devrait correspondre, en printipe, qu'un seul segment.acoustique centré sur sa partie la plus stable (Les transitions appartenant parconvention aux consonnes). Or, il arrive assez fréquemment qu'à une voyelle cor~respondent deux segments acoustiques (dispersion), ou ~ucun (omission de la vo-yelle,.et/ou fusion avec un phonème environnant). Nous avons examiné en détailces cas d'erreurs de segmentation sur quelques 200 phrases analysées par lemodule acoustico-phonétique du système KEAL*. La conclusion de notre observationqualitative est que l'information suprasegmentale, et plus particulièrement, lafréquence du fondamental superposée aux segments, la durée relative des segmentsen séquence, et la position des pauses, permet dans un grand nombre de cas, dedétecter les erreurs de fusion et de dispersion.vocalique et de les corriger.Le but de ce rapport. est de préciser ces deux aspect$. Notons que des. résultats

quantitatifs n'ont pas encore été obtenus, en particulier sur les effet de bord.

{Corpus phonétiquement équilibré (Combescure 1981).7 locuteurs)

Page 5: JACQUELINE VAISSIERE - Sorbonne Nouvellepersonnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index... · JACQUELINE VAISSIERE ... the acouet1c-phonet1c analyzer of a Speech Recognition

132

1 - INFORMATION LINGUISTIQUE CONTENUE PANS LES DUREES RELATIVES DESSEGMENTS

Rappelons tout d'abord quelques exemples d'utilisation possible de ladurée relative des segments en reconnaissance automatique de la parole. Première-ment, la. durée relative des segments se succédant immédiatement peut être untrait segmentaI et contribuer à l'identification du phonème : toutes choses ~ga-les par ailleurs, les voyelles nasales sont plus longues que les voyelles orales(Delattre, 1968) '; la durée d'une voyelle varie en fonction du v.oisement de; laconsonne~q\ii la suit (House et Fairbanks, 1953). Deuxièmement, la durée relativedes segments constitue un excellent filtre suprasegmental au niveau des hypothè-ses de mots: la dernière syllabe des mots en français est en général la pluslongue des syllabes de ce mot (Delàttre, 1966). Troisièmement, la comparaison dela durée. relative des segments de même nature, tels que les segments vocaliques,permet d'émettre d~s hypothèses très fiables sur la présence de frontière majeure(Delattre, 1966 ; Vaissière, 1983 ce volume).

L'utilisation efficace de l'information contenue dans la dur'e relativedes syllabes et phonèmes repose sur un repérage à peu près correct des unitéslinguistiques (voyelles et syllabes en particulier) sous-jacentes au signal.Une obse~ation informelle des résul tats de l' analyseur pho~étique de KEAL nousa conduit à repérer deux types "d'erreurs" de segmentation commises par le moduleacoustico-phonétique sur les segments vocaliques: soit à °11;ne voyelle correspon-dent plusieurs segments acoustiques détectés, soit il n"en correspond aucun.Rappelons que le français n'a pas de diphtongues, et qu'à chaque voyelle ne doitcorrespondre théoriquement qu'un seul segment. De plus, à part le cas du leImuet, oles voyelles sont en général toutes prononcées.

II - DISPERSIONS VOCALIQUES

II .1. ~!!~E!!~~_~!_~E~~~~E~_~1~~~ :

.. '

L'analyse des résultats a montré- que la plupart des voyelles auxquel-les correspondaient deux segments étaient des voyelles qui avaient subi un allon-gement dû à la présence de la frontière majeure de la phrase. En d'autres ter-mes, les voyelles scindées en deux par le programme de segmentation sont desvoyelles finales de mot, qui en plus sont porteuses d'une montée' de continuation(changement pos'itif de la fréquence du fondamental sur la majeure partie de lavoyelle). Le phénomène s'explique peut-~tre par un accroissement de la tensiondes cordes vocales qui modifie la source glotta1e et résulte en une transforma-tion du spectre (Fant, 1960). Le changement spectral est interprété par le pro-gramme de segmentation comme un indice de frontière entre deux segments acous-tiques (la voye11e::est "scindée" en deux), ou parfois même comme une transitiQncconsonantique (la voyelle est scindée en deux et une consonne, bien que de pro;,babi1ité réduite, s'înterca1e entre les deux segments vocaliques).

La figure 1 illustre trois exemples de dispersion. Dans la phrase"Annie s'ennuie loin...", la voyelle /i/ de "Annie" a été séparée par l'insertiond'une nasale. Cette voyelle porte la montée majeure de la phrase. La voyelle /i/de "ennuie", qui porte une montée de continuation secondaire, a également étédivisée. Dans la phrase "Un loup s'est ...", La voyelle du mot "loup" a été scin-dée en trois segments. On remarquera l'instabilité réelle du spectre au cours du

Page 6: JACQUELINE VAISSIERE - Sorbonne Nouvellepersonnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index... · JACQUELINE VAISSIERE ... the acouet1c-phonet1c analyzer of a Speech Recognition

133

temps dans ces trois cas. Là présE!:nce de la montée de continuation majeure per-tnet de "rattraper" un certain nombre d'erreurs de ce, type par l'algorithmesuivant:

Si plusieurs segments fortement vocaliques ont été détectés en séquen-ce. et si la fréquence du fondamental superposée à l'ensemble de ces segmentsindique une montée continue de Fo d'amplitude Xt et ~i x représente la montéeprincipale de la phraset .a10rs on propose un regroupement de tous les segmentsvocaliques dans une seule et même voyelle.

II.2. ~!!~~E!!~~_~_Y~~~!!~-~!~!~~~~_e~E~

La voyelle finale de phrase qui peut être la plus longue ou la deuxiè-me plus longue voyelle de la phrase (après la voyelle correspondant à la -fron-tière majeure) est également l'objet de dispersion (Notons que chez certainslocuteurs, cette voyelle finale est réduite et dévoisée). Le changement spectraldurant le corps de la voyelle peut s'expliquer également par un changement auniveau de la source d'excitation précédant la cessation complète des vibrationsdes cordes vocales (relaxation et ouverture anticipées des cordes vocales, avantla reprise de souffle) et peut-être par une relaxation antlcipatoire de tous lesarticulateurs $upérieurs (langue, mâchoire, etc...). L'erreur la plus classiqueconcernant cette voyelle est sa division en deux ou trois segments: deux seg-ments vocaliques, éventuellement séparés par une consonne brève. La figure 2donne des exemples de ce type d'erreurs, sur les mots "ch'êvre" et "rouge" enfin de phrase. La dispersion est détectée en prenant en ~ompte la posit~on fi-nale des éléments et leur si,mi1arité acoustique: la liquide dans le-premier caset la semi-voyelle dans le second cas sont des éléments peu résistants aux phé~nomènes coarticu1atoires.

En conclusion, un grand nombre de dispersions vocaliques peuvent êtrerepérées par le contexte: elles se produisent soit au niveau de la montée decontinuation la plus importante de la phrase, soit en position finale de phraseCes dispersions ne concernent que des syllabes accentuab1es, c'est-à-dire lesdernières syllabes de mot.

111 - ,FUSION, DUREE RELATIVE DES SEGMENTS ET FREQUENCE. DU FONDA-

. MENTAL

Un problème tout aussi important q~e la dispersion des voyelles estleur fusion. Dans le système KEAL, il est parfois difficile, voire impossip1e,de faire une séparation automatique entre deux voyelles éonsécutives, ou entredeux voyelles séparées par une liquide ou un Ir/.

Deux voyelles qui ont été fusionnées, deviennent, par la force deschoses, équivalentes à une seule voyelle pour le programme prosodique qui co~-pare la durée des segments: la durée des voyelles fusionnées est exagérémentlongue. Une vraie voyelle longue est généralement précédée d'une consonne lon-gue: sous l'accent. qu'il soit de nature syntaxique ou d'insistance, 1~ syllabea tendance à subir une élongation de tous ses éléments. Un déséquilibre entre ladurée d'un segment consonne et la durée du segment voca1ique qui le suit estdonc un indicateur d'une erreur de segmentation: soit la consonne est "tropcourte" par rapport à la durée du segment vocalique qui la suit immédiatement,et alors," ce segment vocalique représente en fait deux voyelles qui ont été fu-sionnées: soit la durée de la consonne est trop longue, par rapport à celle du

Page 7: JACQUELINE VAISSIERE - Sorbonne Nouvellepersonnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index... · JACQUELINE VAISSIERE ... the acouet1c-phonet1c analyzer of a Speech Recognition

134

segment: vocalique qui la suit, et alors, c'est ce segment consonantique qui re-

présente plusieurs phonèmes.

La figure 3 donne quelques exemples. Dans la phràse, "Les deux camions-vse sont hes.tés de face" le laI muet de "se" (f1~che 1) a. été omis (/s88o/ =

Iss701 - /so/). Premièrement, la forme du fondamental et l'obtention de valeurs

maximales de Fo sur la voyelle tOI de "camion" indique que la voyelle est situéeen fin de syllabe, et que les segments suivant cette voyeile (dans ce cas, unezône de silence~ suivie d~une zône de frication) n'appartiennent pas à la mêmesyllabe que la syllabe 1 0/. Deuxièmement, la fr'quence du fondament~l sur lesegment vocalique détect~ suivant indique que ce segment (correspondant à lavoyelle (0/) est dana la plage basse du fondamental, plage caract~ristique ~esmots grammaticaux (f1~che 2)..et qu'elle suit la voyelle qui porte la marque defronti~re maj~ure (la plus longue de la phrase avec une montée de continuation)(flèche 3). La durée du segment fricatif (correspondant aux deux Isl et au~muet résultant est de 262 msec, alors que celle du segment vocalique détectécorrespondant à I~I n'est que de 66 msec. L~ déséquilibre entre'la durée du seg-ment fricatif assimilé à une consonne et celle du segment vocalique suivant per-met de conclure que les deux.segments ne peuvent appartenir à une même syllabe.Le raisonnement permet donc de d~tecter une anomalie (dans ce cas précis: l'ab-sence de d~tection du I~I muet). Un retour vers le signal indique en effet laprésence de deux ~chantillons voisés, au milieu du segment fricatif (/sl fusion-nés), et qui correspondent à la pr~sence du e muet. Nous pouvons ouvrir une pa-renth~se sur le laI muet..En dépit de ce qui est généraJ.ement admis, le leI muetn'est jamais vraiment "muet" car il laisse toujours des traces dans le signal.Sa pr~sence "physique", segmentale, est redondante avec des informations de types4prasegmental (durée relative des segments). Kn d'autres termes, si le 1.1 muetn'est pas effectivement prononc~, le locuteur français peut le restituer pard'aùtres indices que sa présence même, puisque sa présence sous-jacente est in-diqu~e par des indices de durée. .Cette remarque va p1ein~ent dans le sens destravaux actuels (en particulier ceux de K. Stevens) sur la redondance des traitset l'explication de leur absence là où ils ne sont plus distinctifs: le leImuet dispara1t presque entièrement en tant que segment acoustique dans le signalmais reste présent au niveau suprasegmenta1.

CONCLUSION

C~s .ana1yses acoustiques qualitatives suggèrent que des r~gles spéci-fiques utilisant les paramètres suprasegmentaux pourraient permettre de détectercertaines erreurs de segmentation,' à un stage tr~s précoce du processus de re-connaissance. Ces erreurs, dans .1es systèmes ac.tue1s, sont souvent fatal,es pour1.a reconnaissance et tout au moins, elles ne sont repérables que tardivement,en gén~ra1 après un acc~s au dictionnaire. 'Si Dos hypoth~ses sont correctes,l'intégration de ces r~gles marqu8rai~ un progr~s indéniable par r.pport auxschémas de reconnaissance utilisés actuellement. Avant de conclure à leur effi-cacité, il e~t nécessaire de les tester, dans une optique complètement automati-que, ce qui n'a pas encore été fait à ce jour. L'intégration des algorithmesproposés nécessite un effort de programmation tRportant, et l'intégration desrègles devrait être en principe facilitée par le système expert qui est en cour.d'écriture pour le module phonétique de KEAL, devrait être opérationnel vers lafin de l'année 1983 (Gillet et al, 1984).

Page 8: JACQUELINE VAISSIERE - Sorbonne Nouvellepersonnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index... · JACQUELINE VAISSIERE ... the acouet1c-phonet1c analyzer of a Speech Recognition

135

REMERCIEMENTS

Je reme.rcie Bertrand De1gutte et Roland Vivès pour la relecture decet article.

BIBLIOGRAPHIE

CHEUNC J.Y.. and HOLDEN A.D.C.. 1975. "User~s manual for the computed automatedstress extraction system". Technical Report 87. Dpt of Electri-cal ~ngineering. Univ. of Washington.

COMBES CURE P., 1981, "20 .listes de dix phrases phon~tiquement équilibrées",Revue d'Acoustîque, 56, 34-38.

DELATTRE P., 1966, "A comparison of syllable length conditioning among langua-" 4 3 .

ses , Iut. Rev. Applied Linguistics, Vol. ,No. .

DELATTRE P., et !l)NNOT M., 1968, "The role of duration in the identification ofFrench nasal consonants", Int. Rev. APplied Linguistics, Vol. 6,No'. 3, 267-288.

FANT G., 1960, Acoustic theorv of speech production, the Hague, Mouton.

GILLET D. et al, 1984, "SERAC, Un Système Expert en Reconnaissance Acoustico-Phonétique", AFCET (en préparation).

GRESSER J.Y., et MERCIER G., 1975, "Automatic segmentation of spee«:h into sylla-ble and phonemic units", in Auditory, Analysis and Perception ofSpeech, Fant et Tatbam (eds), Academic Press, 349-359.

LEA W.A., 1973. "An approach to syntactic recognition without phonemics", ~Trans. AE, Vol. AU-ZI, No. 3.249-258.

MARTIN Ph., .1975, "Intonation et reconnaissance automatique de la structuresyntaxique", 6e Journées d'Etudes su~ la Parole" 52-62.

MARTIN Ph., 1979, "Automatic location of stressed syllables in French",Current Issues!n LinRuistics Theory, Vol. 9,1091~1094.

MERCIERG., 1981, "Acoustic processing and phonetic. analyste in continuousspeech recognition", 4e FASE Sympos.ium, 21-24, Venezia, Italie

VAISSIERE J., 1982, "A suprasegmental component in a speech recognit"ion system",104e A$A Meeting, Orlando, USA, JASA, Vol. 72,830."

VAISSIERE J., 1983, liA suprasegmental component in a Speech Recognition System :reducing the main bound~ry", Recherches/Acoustiq.ues, CNET,(Présent volume).

VIVES R. et al, 1977, '.Utilisation, pour la reconnaissance de la parole continu"e,de marqueu~s prosodiques extraits de la fr~quence du fondamental",

Recherches/Acoustiques, CNET, Vol. IV, 237-249.

Page 9: JACQUELINE VAISSIERE - Sorbonne Nouvellepersonnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index... · JACQUELINE VAISSIERE ... the acouet1c-phonet1c analyzer of a Speech Recognition

136

N:J: ~

2SO .,..."#~ .+~ v"

. .\\..:.' .-5~-i-crr' ~ III" i III

. :l E' ktt csc 4>z

J! a J a pl

~ ,, ..,100

11111./6 G

S@lt C v

H~QY n YJ u.

~r 1\0 m

~~

150 ""':'-'m

. .

! I!ti:f, ~ I~"i)t!~rIa ItEm 1 m Y ill' Q ~~ '

1 tHtHt H ~ H ittHttH+t fttfH-! HittHHt11

~ H+tHittl+ltHti~1tm$t H1ttt Hm! f ;

,1

!H

." Itllll'lII1U~ll f".mnlmlnn~~:i n

1$+~ffiffitmm Hr--op)! ~t

~itlHt~HH~-+1ffi{1

i ''l'IIIIIII'llffittt--fftHtH1. ,..IIIIIII.",t!!II!," ..!tlill:J'~~lljlll"IIIIIII'. "lllm

se) ce t e

*tttH ~,1

~~ttHttt+H Ht11lli~

~ffi~Ht HMj~

~iJIHI... ~

-+THHiHH~ HtHlli111H+

a n 'i'

+!~ Ht*HfttHtHttm~ 1 ~tHI-I#tHt

++f+-*.fill,IIIII'III\I,II.11

t.o.+-+tt-tfl tH1~ -ItfH 1 H!tH- Hf ~~ . .8. .~, n Y 1.

Début de la phrase:

"Annie s'ennuie..."

D~but de la phrase:

"Un loup s'est jet~..

FIGURE 1 : EXEMPLES DE DISPERSION VOCALIQUE ET DE MONTEE DE Fo

Sont illustrés de haut en bas:

1) la fréquence du fondamental (les cerlces indiquent les zonesde stabilité maximale de la voyelle),

2) les trois premiers candidats phonémiques proposés par lesystème (le:s phonèmes encerclés sont les phonèmes correctement détectés),

3) des informations sur 1J'répartition de l'énergie dansl'échelle des fréquences,

4) la transcription phonétique idéale.chaque échantillon représente 13,3 msec.

;"r,z:GlJRE 1 : VOCALIC SPREADING AND.ro RISE .

From top to bottom :: 1 1) Fo contomo (circl.es ind~te point of mzi1mDn spectral

stabi U ty during the VObJe l ) " ,

. . 2) ~e three tiret phonelTliCcandidates proposed .by th. acoustico-phonetm:c analyaer (the right solution i~ e1lCircled).-

3) Energy in different frequency bands"4) Ideal pho~tic. transcri~iOn.

Page 10: JACQUELINE VAISSIERE - Sorbonne Nouvellepersonnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index... · JACQUELINE VAISSIERE ... the acouet1c-phonet1c analyzer of a Speech Recognition

131

N

:rgso -" "'..' -+9'-,""'"' . \.

"..I~II;~IIIi:llllillll."5i- 150 -i. \}\ ~:G ~.- Q)

r O 'v9 a 8 .

T

!IIIIIIIIIIIHIIIIIIIlIIIIf-H

~ttHftff1ij IIIIIII!!!"'"

111111111111111111111111- III

Htlllnll'" "!IIIIIIII~"+

11I1I11i11 1111I11I11t+t0 f - r

m

. Il

rftf~ftf4~

'~C+HHfHffltfI#tttI';.

1"I"II""illlf~H

tHtHtHHtf+o.,1

~lllllImlllll'u 3

Fin de la phrase

"...au feu rouge"

Fin de la phrase:

"...sur la petite chèvre".

FIGuaE 21 : EXEMPLES DE DISPERSION EN POStTION FINALE DE PHRASE

FIGURE 2 : VOCALIC SPREADING IN SENTENCE FINAL PoSITION.

Page 11: JACQUELINE VAISSIERE - Sorbonne Nouvellepersonnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index... · JACQUELINE VAISSIERE ... the acouet1c-phonet1c analyzer of a Speech Recognition

138

FIGURE 3 : REPERAGE D'UNE VOYELLE SUPPRIMEE PAR L'ETUDE DES. DUREES RELAnVESDES SEGMENTS ACOUSTIQUES EN SEQUENCE.

Extrait de la phrase: "Les deux camions se sont heurtés de 'face".La voyelle leI du mot grauanatical "se" (flèche 1) n'a pas été détectée parl'analyseur. Le déséquilibre entre la longueur de la consonne C (détectée1 sI) et celle de la voyelle \1 suivante permet de repérer l'erreur. Unretour vers le signal montre la présence de deux échantillons (26 msec)avec des basses énergies: ces échantill~s correspondent à la voyelle omise

FIGURE .3 : RELATIVE SEGMENTAL LENGTH AND DETECTION OF A SEGMENT OMISSION.

E3XJerptB fl"om the s~ntence.: "Les deuz. oamf;ons se sont h8Ul"t4s de face n.1he vooaUo segment of the VOL)el- /~/ of the fuilction tûOl"d "se" has beennrissed by the aoo~tic-phonetio anal-yzel". .The l-ength of the frioationsegment C (l,abel-l-ed as /s/) l"el-ativel-y ta the fol-l-olA1ing vooaUc segment Vsignal-s a segmentation el"rol"S, eithel" syZl,abic Ol" phonemic. A beck-tl"aokta the speech signal- effectivel-y i ndica tee, the prese.nce of 26 msec oflOtI) frequencies enel"gy', tûhich coul.d ooZ'Zoespond ta a missing VOL)eL~