reconnaissance automatique de la parole par unités sous-phonétiques présenté par : m.m. saidi...

Post on 03-Apr-2015

106 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Reconnaissance automatique de la parole par unités sous-phonétiques

Présenté par : M.M. SAIDI

Directeur : R. AUDRE-OBRECHT

Co-directeur : O. PIETQUIN

2

Plan

Présentation d’un SRAP– Paramétrisation– Reconnaissance– Lacunes

Nouvelle vision du problème– Etat de l’art sur les PAs– Notre approche

Ondelettes EMD

3

Plan

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Nouvelle vision du problème– Etat de l’art sur les PAs– Notre approche

Ondelettes EMD

4

Système de reconnaissance

Mo

t re

con

nu

Production de parole

Signal de parole

Segmentation Paramétrisation Décodage

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

5

Domaines de reconnaissance

Reconnaissance de mots isolés:– Les mots prononcés sont séparés par une phase

de silence

Reconnaissance de mots connectés:– Les mots sont prédéfinis et prononcés de façon

continue

Reconnaissance de parole continue:– Dialogue naturel

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

6

Paramétrisation

Non-stationnaire

Quasi-stationnaire– 30ms avec recouvrement

de 10ms

Suppose un phonème* par segment

* Un phonème est la plus petite unité significative désignant une empreinte quasi-unique pour chaque son d’un alphabet limité

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

7

Paramétrisation

D’un point de vue pratique– Quasi-stationnaire permet l’application de la

transformée de Fourier

Il y a deux types de paramétrisation– Paramétrisation basée modèle de production

Exemple: LPC

– Paramétrisation basée modèle de perception Exemple: PLP, PLP-RASTA

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

8

Paramétrisation (MFCC)

1.1)( zazH

Préaccentuation

Sig

nal

Fenêtrage

20 à 30 ms

Hamming

12cos46,054,0

N

n

TFD

Banc de filtres Mel

Log de la puissance de TFD

TFD inverseCepstre

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

9

Reconnaissance

En se donnant un vecteur acoustique «A», quel est la probabilité de générer le mot «W»?

)/(maxarg^

AWIPWW

•Vecteur acoustique : variable connue•Séquence de phonèmes (ou mots) : variable cachée•Hypothèses :

•Continuité dans le temps•Processus stationnaire•Densité de probabilité gaussienne

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

10

Reconnaissance

Non calculable « on the fly » :

Loi de Bayes :

P(A) indépendante de W

Modèle acoustique

)/(maxarg^

AWPWW

)(

)/().(maxarg

^

AP

WAPWPW

W

)/().(maxarg^

WAPWPWW

i

WPAPWAP ii

)/()./()/(

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

11

Reconnaissance (HMM)

Exemple de HMM:– Soit le mot : agents a Z a~TP

I a Z a~ F

a11 a33a22

a01 a12 a23 a34

a02a13 a24

Vec

teur

s ac

oust

ique

s

b1 b2 b3

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

12

Un système de reconnaissance

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

13

Systèmes actuels

Problème mal poséFormalise ambigüeHypothèses non vérifiés en réalitéManque de robustesse aux conditions

réelles

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

14

Systèmes actuels

Exemple montrant la délicate tâche de faire la différence entre un bruit gaussien et une consonne

Bruit Phonème /f/

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

15

Systèmes actuels

Accroître la robustesse des systèmes en présence du bruit

• Essai de standardisation avec WI008

Taux de reconnaissance dans différents cas de bruit de fond

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

16

Les problèmes qui se posent

Variabilité du signal de parole– D’un point de vue longueur du signal– D’un point de vue prononciation

Concept de phonème qui paraît mal défini Changement de locuteur Accent qui concerne plus les non-natifs

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

17

Plan

Présentation d’un SRAP– Paramétrisation– Reconnaissance– Lacunes

Nouvelle vision du problème Etat de l’art sur les PAs Notre approche

Ondelettes EMD

18

Une nouvelle vision du problème

Une unité plus robuste à la variabilité du signal

Au niveau de la production de la voix parlée, il y a des articulations fixes pour chaque son

Ces caractéristiques sont partagées quelque soit la langue

Propriétés (points) articulatoires

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

19

Points d’articulations

Exemple d’une représentation unique en terme de PA:

– Phonèmes /m/

abaissement du voile de palais,

lèvres (bilabiale)– Phonème /n/

abaissement du voile de palais,

alvéoles (ou dentale)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

20

Table de l’IPA

IPA: Alphabet phonétique international

Un standard pour représenter tous les phonèmes possibles en fonction des articulations

Partie grisée: mouvement impossible

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

21

Etat de l’art

Quatre approches sont abordées:– Système de reconnaissance basé sur une définition

de caractéristiques articulatoires par méthode statistique

– Système de reconnaissance basé sur des mesures physiques

– Détection des mouvements articulatoires par plage fréquentielle

– Approche utilisant l’inversion acoustico-articulatoire

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

22

Etat de l’art

Utilisation d’un articulographe permettant d’intégrer une mesure pour chaque articulation

• Détection de mouvement articulatoire dans le cas des voyelles par plage fréquentielle (formant)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

23

Etat de l’art (modèle de Kirchhoff)

Présentation de l’ensemble de PAs utilisées dans le modèle :

Les vecteurs acoustiques sont des coefficients PLP-RASTA

La détection des PAs est réalisée par des MLPs avec différentes architectures par groupe d’articulations

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

24

Etat de l’art (modèle de Kirchhoff)

A1

A2

A5

P

Don

née

acou

stiq

ue

MLP1

MLP2

Vue d’ensemble sur le modèle proposé par Kirchhoff

Représentation des phonèmes en propriétés articulatoires selon le modèle proposé par Kirchhoff

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

25

Résumé du problème

Définir les PAs qui vont être prises en compte– Perspective d’un système multilingues– Système robuste au bruit

Extraire à partir du signal les variations indiquant la présence d’une PA précise– Approche localiste– Approche indépendante de la longueur du signal

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

26

Ondelettes

Approche localiste Faire face à la non-stationnarité Localisation en temps-fréquences

g

2h

2

aj+1

dj+1 g

2h

2

aj+2

dj+2

aj

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

27

Ondelettes

Tests réalisés en utilisant une D.O. continue– Ensemble des voyelles de la langue française– Différentes ondelettes mère (db32, db44, Meyer,…)

Caractérisation par échelle– Energie simple et Log de l’énergie

– Energie Teager

i

icoefE 2

i

iii coefcoefcoefET2

112 *

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

28

Ondelettes

Recherche des caractéristiques par analyse combinatoire

Vecteurs AE Vecteurs EO Vecteurs EI Vecteurs AO Vecteurs AI Vecteurs IO

(iA,iE) (iE,iO) (iE,iI) (iA,iO) (iA,iI) (iI,iO)

Existence de l’index EO par validation croisée

Existence de l’index EI par validation croisée

Existence de l’index IO par validation croisée

Fonctionnement de l’algorithme de classification combinatoire par validation croisée

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

29

Ondelettes

Les inconvénients d’une telle approche :– Segmentation du signal– Choix de la base d’ondelette– Choix de l’échelle– Temps de calcul

MorletMeyer Daubechies

Phonème /i/

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

30

Empirical Mode Decomposition [Huang98]

Nouvelle méthode de décomposition de signaux non-stationnaires

Utilise l’ « intersec mode function » pour décomposer le signal

La méthode s’appuie sur une interpolation entre deux minima consécutifs

Méthode localiste, indépendante d’une paramétrisation au préalable

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

31

10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0

EMD: principe par l’exemple

(présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

32

EMD: principe par l’exemple

10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0

(présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

33

EMD: principe par l’exemple

10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0

(présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

34

EMD: principe par l’exemple

10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0

(présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

35

EMD: principe par l’exemple

10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0

10 20 30 40 50 60 70 80 90 100 110 120

-1.5

-1

-0.5

0

0.5

1

1.5

residue

(présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

36

EMD: principe par l’exemple

(présentation Flandrin GRETSI 2003)

10 20 30 40 50 60 70 80 90 100 110 120

-1.5

-1

-0.5

0

0.5

1

1.5

IMF 1; iteration 1

10 20 30 40 50 60 70 80 90 100 110 120

-1.5

-1

-0.5

0

0.5

1

1.5

residue

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

37

EMD: principe par l’exemple

10 20 30 40 50 60 70 80 90 100 110 120

-1

-0.5

0

0.5

1

IMF 1; iteration 8

10 20 30 40 50 60 70 80 90 100 110 120

-1

-0.5

0

0.5

1

residue

(présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

38

Algorithme de l’EMD

Principe : « signal = oscillations rapides superposées à des oscillations lentes »

Huang 98:– identifier localement l’oscillation la plus rapide– soustraire au signal et itérer sur le résidu

Algorithme:– calculer deux enveloppes (une supérieure et

l’autre inférieure) par interpolations entre les extrema du signal

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

39

Algorithme de l’EMD

soustraire au signal de départ la moyenne de ces enveloppes

itérer jusqu’à ce que cette moyenne = 0 et #{extrema} = #{passages à zéro} ± 1

soustraire du signal le mode (IMF) ainsi obtenu et itérer sur le résidu Empirical mode decomposition for input

signal with three frequency 50Hz, 500Hz and 1KHz

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

40

Pourquoi l’EMD

Approche localiste pour mieux cerner les variations minimes du signal

Faire face à la non-stationnarité du signal Une segmentation du signal de parole n’est

plus nécessaire Analyse dépendante du contexte Indépendance d’une paramétrisation au

préalable

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

41

Que peut on faire avec l’EMD?

Analyse du spectre de puissance

Détection des formants Meilleur localisation

fréquentielle Dans le cas d’un signal

voisé, elle permet une meilleure représentation

Formants detection IMF vs. LPC analysis

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

42

Conclusion

Amélioration des performances des systèmes actuels par l’ajout d’informations auxiliaires

Nouvelle méthode de décomposition des signaux non-stationnaire

Originalité:– Idée et méthode jamais exploitées– Robustesse– Multilingues

top related