reconnaissance automatique de la parole par unités sous-phonétiques présenté par : m.m. saidi...

42
Reconnaissance automatique de la parole par unités sous- phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

Upload: helaine-merlin

Post on 03-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

Reconnaissance automatique de la parole par unités sous-phonétiques

Présenté par : M.M. SAIDI

Directeur : R. AUDRE-OBRECHT

Co-directeur : O. PIETQUIN

Page 2: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

2

Plan

Présentation d’un SRAP– Paramétrisation– Reconnaissance– Lacunes

Nouvelle vision du problème– Etat de l’art sur les PAs– Notre approche

Ondelettes EMD

Page 3: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

3

Plan

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Nouvelle vision du problème– Etat de l’art sur les PAs– Notre approche

Ondelettes EMD

Page 4: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

4

Système de reconnaissance

Mo

t re

con

nu

Production de parole

Signal de parole

Segmentation Paramétrisation Décodage

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 5: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

5

Domaines de reconnaissance

Reconnaissance de mots isolés:– Les mots prononcés sont séparés par une phase

de silence

Reconnaissance de mots connectés:– Les mots sont prédéfinis et prononcés de façon

continue

Reconnaissance de parole continue:– Dialogue naturel

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 6: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

6

Paramétrisation

Non-stationnaire

Quasi-stationnaire– 30ms avec recouvrement

de 10ms

Suppose un phonème* par segment

* Un phonème est la plus petite unité significative désignant une empreinte quasi-unique pour chaque son d’un alphabet limité

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 7: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

7

Paramétrisation

D’un point de vue pratique– Quasi-stationnaire permet l’application de la

transformée de Fourier

Il y a deux types de paramétrisation– Paramétrisation basée modèle de production

Exemple: LPC

– Paramétrisation basée modèle de perception Exemple: PLP, PLP-RASTA

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 8: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

8

Paramétrisation (MFCC)

1.1)( zazH

Préaccentuation

Sig

nal

Fenêtrage

20 à 30 ms

Hamming

12cos46,054,0

N

n

TFD

Banc de filtres Mel

Log de la puissance de TFD

TFD inverseCepstre

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 9: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

9

Reconnaissance

En se donnant un vecteur acoustique «A», quel est la probabilité de générer le mot «W»?

)/(maxarg^

AWIPWW

•Vecteur acoustique : variable connue•Séquence de phonèmes (ou mots) : variable cachée•Hypothèses :

•Continuité dans le temps•Processus stationnaire•Densité de probabilité gaussienne

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 10: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

10

Reconnaissance

Non calculable « on the fly » :

Loi de Bayes :

P(A) indépendante de W

Modèle acoustique

)/(maxarg^

AWPWW

)(

)/().(maxarg

^

AP

WAPWPW

W

)/().(maxarg^

WAPWPWW

i

WPAPWAP ii

)/()./()/(

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 11: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

11

Reconnaissance (HMM)

Exemple de HMM:– Soit le mot : agents a Z a~TP

I a Z a~ F

a11 a33a22

a01 a12 a23 a34

a02a13 a24

Vec

teur

s ac

oust

ique

s

b1 b2 b3

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 12: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

12

Un système de reconnaissance

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 13: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

13

Systèmes actuels

Problème mal poséFormalise ambigüeHypothèses non vérifiés en réalitéManque de robustesse aux conditions

réelles

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 14: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

14

Systèmes actuels

Exemple montrant la délicate tâche de faire la différence entre un bruit gaussien et une consonne

Bruit Phonème /f/

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 15: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

15

Systèmes actuels

Accroître la robustesse des systèmes en présence du bruit

• Essai de standardisation avec WI008

Taux de reconnaissance dans différents cas de bruit de fond

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 16: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

16

Les problèmes qui se posent

Variabilité du signal de parole– D’un point de vue longueur du signal– D’un point de vue prononciation

Concept de phonème qui paraît mal défini Changement de locuteur Accent qui concerne plus les non-natifs

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Page 17: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

17

Plan

Présentation d’un SRAP– Paramétrisation– Reconnaissance– Lacunes

Nouvelle vision du problème Etat de l’art sur les PAs Notre approche

Ondelettes EMD

Page 18: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

18

Une nouvelle vision du problème

Une unité plus robuste à la variabilité du signal

Au niveau de la production de la voix parlée, il y a des articulations fixes pour chaque son

Ces caractéristiques sont partagées quelque soit la langue

Propriétés (points) articulatoires

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 19: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

19

Points d’articulations

Exemple d’une représentation unique en terme de PA:

– Phonèmes /m/

abaissement du voile de palais,

lèvres (bilabiale)– Phonème /n/

abaissement du voile de palais,

alvéoles (ou dentale)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 20: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

20

Table de l’IPA

IPA: Alphabet phonétique international

Un standard pour représenter tous les phonèmes possibles en fonction des articulations

Partie grisée: mouvement impossible

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 21: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

21

Etat de l’art

Quatre approches sont abordées:– Système de reconnaissance basé sur une définition

de caractéristiques articulatoires par méthode statistique

– Système de reconnaissance basé sur des mesures physiques

– Détection des mouvements articulatoires par plage fréquentielle

– Approche utilisant l’inversion acoustico-articulatoire

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 22: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

22

Etat de l’art

Utilisation d’un articulographe permettant d’intégrer une mesure pour chaque articulation

• Détection de mouvement articulatoire dans le cas des voyelles par plage fréquentielle (formant)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 23: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

23

Etat de l’art (modèle de Kirchhoff)

Présentation de l’ensemble de PAs utilisées dans le modèle :

Les vecteurs acoustiques sont des coefficients PLP-RASTA

La détection des PAs est réalisée par des MLPs avec différentes architectures par groupe d’articulations

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 24: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

24

Etat de l’art (modèle de Kirchhoff)

A1

A2

A5

P

Don

née

acou

stiq

ue

MLP1

MLP2

Vue d’ensemble sur le modèle proposé par Kirchhoff

Représentation des phonèmes en propriétés articulatoires selon le modèle proposé par Kirchhoff

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 25: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

25

Résumé du problème

Définir les PAs qui vont être prises en compte– Perspective d’un système multilingues– Système robuste au bruit

Extraire à partir du signal les variations indiquant la présence d’une PA précise– Approche localiste– Approche indépendante de la longueur du signal

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 26: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

26

Ondelettes

Approche localiste Faire face à la non-stationnarité Localisation en temps-fréquences

g

2h

2

aj+1

dj+1 g

2h

2

aj+2

dj+2

aj

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 27: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

27

Ondelettes

Tests réalisés en utilisant une D.O. continue– Ensemble des voyelles de la langue française– Différentes ondelettes mère (db32, db44, Meyer,…)

Caractérisation par échelle– Energie simple et Log de l’énergie

– Energie Teager

i

icoefE 2

i

iii coefcoefcoefET2

112 *

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 28: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

28

Ondelettes

Recherche des caractéristiques par analyse combinatoire

Vecteurs AE Vecteurs EO Vecteurs EI Vecteurs AO Vecteurs AI Vecteurs IO

(iA,iE) (iE,iO) (iE,iI) (iA,iO) (iA,iI) (iI,iO)

Existence de l’index EO par validation croisée

Existence de l’index EI par validation croisée

Existence de l’index IO par validation croisée

Fonctionnement de l’algorithme de classification combinatoire par validation croisée

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 29: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

29

Ondelettes

Les inconvénients d’une telle approche :– Segmentation du signal– Choix de la base d’ondelette– Choix de l’échelle– Temps de calcul

MorletMeyer Daubechies

Phonème /i/

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 30: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

30

Empirical Mode Decomposition [Huang98]

Nouvelle méthode de décomposition de signaux non-stationnaires

Utilise l’ « intersec mode function » pour décomposer le signal

La méthode s’appuie sur une interpolation entre deux minima consécutifs

Méthode localiste, indépendante d’une paramétrisation au préalable

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 31: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

31

10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0

EMD: principe par l’exemple

(présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 32: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

32

EMD: principe par l’exemple

10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0

(présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 33: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

33

EMD: principe par l’exemple

10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0

(présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 34: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

34

EMD: principe par l’exemple

10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0

(présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 35: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

35

EMD: principe par l’exemple

10 20 30 40 50 60 70 80 90 100 110 120

-2

-1

0

1

2

IMF 1; iteration 0

10 20 30 40 50 60 70 80 90 100 110 120

-1.5

-1

-0.5

0

0.5

1

1.5

residue

(présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 36: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

36

EMD: principe par l’exemple

(présentation Flandrin GRETSI 2003)

10 20 30 40 50 60 70 80 90 100 110 120

-1.5

-1

-0.5

0

0.5

1

1.5

IMF 1; iteration 1

10 20 30 40 50 60 70 80 90 100 110 120

-1.5

-1

-0.5

0

0.5

1

1.5

residue

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 37: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

37

EMD: principe par l’exemple

10 20 30 40 50 60 70 80 90 100 110 120

-1

-0.5

0

0.5

1

IMF 1; iteration 8

10 20 30 40 50 60 70 80 90 100 110 120

-1

-0.5

0

0.5

1

residue

(présentation Flandrin GRETSI 2003)

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 38: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

38

Algorithme de l’EMD

Principe : « signal = oscillations rapides superposées à des oscillations lentes »

Huang 98:– identifier localement l’oscillation la plus rapide– soustraire au signal et itérer sur le résidu

Algorithme:– calculer deux enveloppes (une supérieure et

l’autre inférieure) par interpolations entre les extrema du signal

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 39: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

39

Algorithme de l’EMD

soustraire au signal de départ la moyenne de ces enveloppes

itérer jusqu’à ce que cette moyenne = 0 et #{extrema} = #{passages à zéro} ± 1

soustraire du signal le mode (IMF) ainsi obtenu et itérer sur le résidu Empirical mode decomposition for input

signal with three frequency 50Hz, 500Hz and 1KHz

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 40: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

40

Pourquoi l’EMD

Approche localiste pour mieux cerner les variations minimes du signal

Faire face à la non-stationnarité du signal Une segmentation du signal de parole n’est

plus nécessaire Analyse dépendante du contexte Indépendance d’une paramétrisation au

préalable

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 41: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

41

Que peut on faire avec l’EMD?

Analyse du spectre de puissance

Détection des formants Meilleur localisation

fréquentielle Dans le cas d’un signal

voisé, elle permet une meilleure représentation

Formants detection IMF vs. LPC analysis

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Page 42: Reconnaissance automatique de la parole par unités sous-phonétiques Présenté par : M.M. SAIDI Directeur : R. AUDRE-OBRECHT Co-directeur : O. PIETQUIN

42

Conclusion

Amélioration des performances des systèmes actuels par l’ajout d’informations auxiliaires

Nouvelle méthode de décomposition des signaux non-stationnaire

Originalité:– Idée et méthode jamais exploitées– Robustesse– Multilingues