reconnaissance automatique de la parole par unités sous-phonétiques présenté par : m.m. saidi...

Reconnaissance automatique de la parole par unités sous-phonétiques

Présenté par : M.M. SAIDI

Directeur : R. AUDRE-OBRECHT

Co-directeur : O. PIETQUIN

2

Plan

Présentation d’un SRAP– Paramétrisation– Reconnaissance– Lacunes

Nouvelle vision du problème– Etat de l’art sur les PAs– Notre approche

Ondelettes EMD

3

Plan

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Nouvelle vision du problème– Etat de l’art sur les PAs– Notre approche

Ondelettes EMD

4

Système de reconnaissance

Mo

t re

con

nu

Production de parole

Signal de parole

Segmentation Paramétrisation Décodage


5

Domaines de reconnaissance

Reconnaissance de mots isolés:– Les mots prononcés sont séparés par une phase

de silence

Reconnaissance de mots connectés:– Les mots sont prédéfinis et prononcés de façon

continue

Reconnaissance de parole continue:– Dialogue naturel


6

Paramétrisation

Non-stationnaire

Quasi-stationnaire– 30ms avec recouvrement

de 10ms

Suppose un phonème* par segment

* Un phonème est la plus petite unité significative désignant une empreinte quasi-unique pour chaque son d’un alphabet limité


7

Paramétrisation

D’un point de vue pratique– Quasi-stationnaire permet l’application de la

transformée de Fourier

Il y a deux types de paramétrisation– Paramétrisation basée modèle de production

Exemple: LPC

– Paramétrisation basée modèle de perception Exemple: PLP, PLP-RASTA


8

Paramétrisation (MFCC)

1.1)( zazH

Préaccentuation

Sig

nal

Fenêtrage

20 à 30 ms

Hamming

12cos46,054,0

N

n

TFD

Banc de filtres Mel

Log de la puissance de TFD

TFD inverseCepstre


9

Reconnaissance

En se donnant un vecteur acoustique «A», quel est la probabilité de générer le mot «W»?

)/(maxarg^

AWIPWW

•Vecteur acoustique : variable connue•Séquence de phonèmes (ou mots) : variable cachée•Hypothèses :

•Continuité dans le temps•Processus stationnaire•Densité de probabilité gaussienne


10

Reconnaissance

Non calculable « on the fly » :

Loi de Bayes :

P(A) indépendante de W

Modèle acoustique

)/(maxarg^

AWPWW

)(

)/().(maxarg

^

AP

WAPWPW

W

)/().(maxarg^

WAPWPWW

i

WPAPWAP ii

)/()./()/(


11

Reconnaissance (HMM)

Exemple de HMM:– Soit le mot : agents a Z a~TP

I a Z a~ F

a11 a33a22

a01 a12 a23 a34

a02a13 a24

Vec

teur

s ac

oust

ique

s

b1 b2 b3


12

Un système de reconnaissance


13

Systèmes actuels

Problème mal poséFormalise ambigüeHypothèses non vérifiés en réalitéManque de robustesse aux conditions

réelles


14

Systèmes actuels

Exemple montrant la délicate tâche de faire la différence entre un bruit gaussien et une consonne

Bruit Phonème /f/


15

Systèmes actuels

Accroître la robustesse des systèmes en présence du bruit

• Essai de standardisation avec WI008

Taux de reconnaissance dans différents cas de bruit de fond


16

Les problèmes qui se posent

Variabilité du signal de parole– D’un point de vue longueur du signal– D’un point de vue prononciation

Concept de phonème qui paraît mal défini Changement de locuteur Accent qui concerne plus les non-natifs


17

Plan

Présentation d’un SRAP– Paramétrisation– Reconnaissance– Lacunes

Nouvelle vision du problème Etat de l’art sur les PAs Notre approche

Ondelettes EMD

18

Une nouvelle vision du problème

Une unité plus robuste à la variabilité du signal

Au niveau de la production de la voix parlée, il y a des articulations fixes pour chaque son

Ces caractéristiques sont partagées quelque soit la langue

Propriétés (points) articulatoires

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

19

Points d’articulations

Exemple d’une représentation unique en terme de PA:

– Phonèmes /m/

abaissement du voile de palais,

lèvres (bilabiale)– Phonème /n/

abaissement du voile de palais,

alvéoles (ou dentale)


Ondelettes EMD

20

Table de l’IPA

IPA: Alphabet phonétique international

Un standard pour représenter tous les phonèmes possibles en fonction des articulations

Partie grisée: mouvement impossible


Ondelettes EMD

21

Etat de l’art

Quatre approches sont abordées:– Système de reconnaissance basé sur une définition

de caractéristiques articulatoires par méthode statistique

– Système de reconnaissance basé sur des mesures physiques

– Détection des mouvements articulatoires par plage fréquentielle

– Approche utilisant l’inversion acoustico-articulatoire


Ondelettes EMD

22

Etat de l’art

Utilisation d’un articulographe permettant d’intégrer une mesure pour chaque articulation

• Détection de mouvement articulatoire dans le cas des voyelles par plage fréquentielle (formant)


Ondelettes EMD

23

Etat de l’art (modèle de Kirchhoff)

Présentation de l’ensemble de PAs utilisées dans le modèle :

Les vecteurs acoustiques sont des coefficients PLP-RASTA

La détection des PAs est réalisée par des MLPs avec différentes architectures par groupe d’articulations


Ondelettes EMD

24

Etat de l’art (modèle de Kirchhoff)

A1

A2

A5

P

Don

née

acou

stiq

ue

MLP1

MLP2

Vue d’ensemble sur le modèle proposé par Kirchhoff

Représentation des phonèmes en propriétés articulatoires selon le modèle proposé par Kirchhoff


Ondelettes EMD

25

Résumé du problème

Définir les PAs qui vont être prises en compte– Perspective d’un système multilingues– Système robuste au bruit

Extraire à partir du signal les variations indiquant la présence d’une PA précise– Approche localiste– Approche indépendante de la longueur du signal


Ondelettes EMD

26

Ondelettes

Approche localiste Faire face à la non-stationnarité Localisation en temps-fréquences

g

2h

2

aj+1

dj+1 g

2h

2

aj+2

dj+2

aj


Ondelettes EMD

27

Ondelettes

Tests réalisés en utilisant une D.O. continue– Ensemble des voyelles de la langue française– Différentes ondelettes mère (db32, db44, Meyer,…)

Caractérisation par échelle– Energie simple et Log de l’énergie

– Energie Teager

i

icoefE 2

i

iii coefcoefcoefET2

112 *


Ondelettes EMD

28

Ondelettes

Recherche des caractéristiques par analyse combinatoire

Vecteurs AE Vecteurs EO Vecteurs EI Vecteurs AO Vecteurs AI Vecteurs IO

(iA,iE) (iE,iO) (iE,iI) (iA,iO) (iA,iI) (iI,iO)

Existence de l’index EO par validation croisée

Existence de l’index EI par validation croisée

Existence de l’index IO par validation croisée

Fonctionnement de l’algorithme de classification combinatoire par validation croisée


Ondelettes EMD

29

Ondelettes

Les inconvénients d’une telle approche :– Segmentation du signal– Choix de la base d’ondelette– Choix de l’échelle– Temps de calcul

MorletMeyer Daubechies

Phonème /i/


Ondelettes EMD

30

Empirical Mode Decomposition [Huang98]

Nouvelle méthode de décomposition de signaux non-stationnaires

Utilise l’ « intersec mode function » pour décomposer le signal

La méthode s’appuie sur une interpolation entre deux minima consécutifs

Méthode localiste, indépendante d’une paramétrisation au préalable


Ondelettes EMD

31

10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0

EMD: principe par l’exemple

(présentation Flandrin GRETSI 2003)


Ondelettes EMD

32


10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0



Ondelettes EMD

33


10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0



Ondelettes EMD

34


10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0



Ondelettes EMD

35


10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0

10 20 30 40 50 60 70 80 90 100 110 120

-1.5

-1

-0.5

0

0.5

1

1.5

residue



Ondelettes EMD

36



10 20 30 40 50 60 70 80 90 100 110 120

-1.5

-1

-0.5

0

0.5

1

1.5

IMF 1; iteration 1

10 20 30 40 50 60 70 80 90 100 110 120

-1.5

-1

-0.5

0

0.5

1

1.5

residue


Ondelettes EMD

37


10 20 30 40 50 60 70 80 90 100 110 120

-1

-0.5

0

0.5

1

IMF 1; iteration 8

10 20 30 40 50 60 70 80 90 100 110 120

-1

-0.5

0

0.5

1

residue



Ondelettes EMD

38

Algorithme de l’EMD

Principe : « signal = oscillations rapides superposées à des oscillations lentes »

Huang 98:– identifier localement l’oscillation la plus rapide– soustraire au signal et itérer sur le résidu

Algorithme:– calculer deux enveloppes (une supérieure et

l’autre inférieure) par interpolations entre les extrema du signal


Ondelettes EMD

39

Algorithme de l’EMD

soustraire au signal de départ la moyenne de ces enveloppes

itérer jusqu’à ce que cette moyenne = 0 et #{extrema} = #{passages à zéro} ± 1

soustraire du signal le mode (IMF) ainsi obtenu et itérer sur le résidu Empirical mode decomposition for input

signal with three frequency 50Hz, 500Hz and 1KHz


Ondelettes EMD

40

Pourquoi l’EMD

Approche localiste pour mieux cerner les variations minimes du signal

Faire face à la non-stationnarité du signal Une segmentation du signal de parole n’est

plus nécessaire Analyse dépendante du contexte Indépendance d’une paramétrisation au

préalable


Ondelettes EMD

41

Que peut on faire avec l’EMD?

Analyse du spectre de puissance

Détection des formants Meilleur localisation

fréquentielle Dans le cas d’un signal

voisé, elle permet une meilleure représentation

Formants detection IMF vs. LPC analysis


Ondelettes EMD

42

Conclusion

Amélioration des performances des systèmes actuels par l’ajout d’informations auxiliaires

Nouvelle méthode de décomposition des signaux non-stationnaire

Originalité:– Idée et méthode jamais exploitées– Robustesse– Multilingues

reconnaissance automatique de la parole par unités sous-phonétiques présenté par : m.m. saidi...

Documents