reconnaissance automatique de la parole par unités sous-phonétiques présenté par : m.m. saidi...
TRANSCRIPT
Reconnaissance automatique de la parole par unités sous-phonétiques
Présenté par : M.M. SAIDI
Directeur : R. AUDRE-OBRECHT
Co-directeur : O. PIETQUIN
2
Plan
Présentation d’un SRAP– Paramétrisation– Reconnaissance– Lacunes
Nouvelle vision du problème– Etat de l’art sur les PAs– Notre approche
Ondelettes EMD
3
Plan
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
Nouvelle vision du problème– Etat de l’art sur les PAs– Notre approche
Ondelettes EMD
4
Système de reconnaissance
Mo
t re
con
nu
Production de parole
Signal de parole
Segmentation Paramétrisation Décodage
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
5
Domaines de reconnaissance
Reconnaissance de mots isolés:– Les mots prononcés sont séparés par une phase
de silence
Reconnaissance de mots connectés:– Les mots sont prédéfinis et prononcés de façon
continue
Reconnaissance de parole continue:– Dialogue naturel
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
6
Paramétrisation
Non-stationnaire
Quasi-stationnaire– 30ms avec recouvrement
de 10ms
Suppose un phonème* par segment
* Un phonème est la plus petite unité significative désignant une empreinte quasi-unique pour chaque son d’un alphabet limité
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
7
Paramétrisation
D’un point de vue pratique– Quasi-stationnaire permet l’application de la
transformée de Fourier
Il y a deux types de paramétrisation– Paramétrisation basée modèle de production
Exemple: LPC
– Paramétrisation basée modèle de perception Exemple: PLP, PLP-RASTA
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
8
Paramétrisation (MFCC)
1.1)( zazH
Préaccentuation
Sig
nal
Fenêtrage
20 à 30 ms
Hamming
12cos46,054,0
N
n
TFD
Banc de filtres Mel
Log de la puissance de TFD
TFD inverseCepstre
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
9
Reconnaissance
En se donnant un vecteur acoustique «A», quel est la probabilité de générer le mot «W»?
)/(maxarg^
AWIPWW
•Vecteur acoustique : variable connue•Séquence de phonèmes (ou mots) : variable cachée•Hypothèses :
•Continuité dans le temps•Processus stationnaire•Densité de probabilité gaussienne
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
10
Reconnaissance
Non calculable « on the fly » :
Loi de Bayes :
P(A) indépendante de W
Modèle acoustique
)/(maxarg^
AWPWW
)(
)/().(maxarg
^
AP
WAPWPW
W
)/().(maxarg^
WAPWPWW
i
WPAPWAP ii
)/()./()/(
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
11
Reconnaissance (HMM)
Exemple de HMM:– Soit le mot : agents a Z a~TP
I a Z a~ F
a11 a33a22
a01 a12 a23 a34
a02a13 a24
Vec
teur
s ac
oust
ique
s
b1 b2 b3
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
12
Un système de reconnaissance
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
13
Systèmes actuels
Problème mal poséFormalise ambigüeHypothèses non vérifiés en réalitéManque de robustesse aux conditions
réelles
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
14
Systèmes actuels
Exemple montrant la délicate tâche de faire la différence entre un bruit gaussien et une consonne
Bruit Phonème /f/
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
15
Systèmes actuels
Accroître la robustesse des systèmes en présence du bruit
• Essai de standardisation avec WI008
Taux de reconnaissance dans différents cas de bruit de fond
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
16
Les problèmes qui se posent
Variabilité du signal de parole– D’un point de vue longueur du signal– D’un point de vue prononciation
Concept de phonème qui paraît mal défini Changement de locuteur Accent qui concerne plus les non-natifs
Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes
17
Plan
Présentation d’un SRAP– Paramétrisation– Reconnaissance– Lacunes
Nouvelle vision du problème Etat de l’art sur les PAs Notre approche
Ondelettes EMD
18
Une nouvelle vision du problème
Une unité plus robuste à la variabilité du signal
Au niveau de la production de la voix parlée, il y a des articulations fixes pour chaque son
Ces caractéristiques sont partagées quelque soit la langue
Propriétés (points) articulatoires
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
19
Points d’articulations
Exemple d’une représentation unique en terme de PA:
– Phonèmes /m/
abaissement du voile de palais,
lèvres (bilabiale)– Phonème /n/
abaissement du voile de palais,
alvéoles (ou dentale)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
20
Table de l’IPA
IPA: Alphabet phonétique international
Un standard pour représenter tous les phonèmes possibles en fonction des articulations
Partie grisée: mouvement impossible
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
21
Etat de l’art
Quatre approches sont abordées:– Système de reconnaissance basé sur une définition
de caractéristiques articulatoires par méthode statistique
– Système de reconnaissance basé sur des mesures physiques
– Détection des mouvements articulatoires par plage fréquentielle
– Approche utilisant l’inversion acoustico-articulatoire
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
22
Etat de l’art
Utilisation d’un articulographe permettant d’intégrer une mesure pour chaque articulation
• Détection de mouvement articulatoire dans le cas des voyelles par plage fréquentielle (formant)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
23
Etat de l’art (modèle de Kirchhoff)
Présentation de l’ensemble de PAs utilisées dans le modèle :
Les vecteurs acoustiques sont des coefficients PLP-RASTA
La détection des PAs est réalisée par des MLPs avec différentes architectures par groupe d’articulations
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
24
Etat de l’art (modèle de Kirchhoff)
A1
A2
A5
P
Don
née
acou
stiq
ue
MLP1
MLP2
Vue d’ensemble sur le modèle proposé par Kirchhoff
Représentation des phonèmes en propriétés articulatoires selon le modèle proposé par Kirchhoff
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
25
Résumé du problème
Définir les PAs qui vont être prises en compte– Perspective d’un système multilingues– Système robuste au bruit
Extraire à partir du signal les variations indiquant la présence d’une PA précise– Approche localiste– Approche indépendante de la longueur du signal
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
26
Ondelettes
Approche localiste Faire face à la non-stationnarité Localisation en temps-fréquences
g
2h
2
aj+1
dj+1 g
2h
2
aj+2
dj+2
aj
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
27
Ondelettes
Tests réalisés en utilisant une D.O. continue– Ensemble des voyelles de la langue française– Différentes ondelettes mère (db32, db44, Meyer,…)
Caractérisation par échelle– Energie simple et Log de l’énergie
– Energie Teager
i
icoefE 2
i
iii coefcoefcoefET2
112 *
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
28
Ondelettes
Recherche des caractéristiques par analyse combinatoire
Vecteurs AE Vecteurs EO Vecteurs EI Vecteurs AO Vecteurs AI Vecteurs IO
(iA,iE) (iE,iO) (iE,iI) (iA,iO) (iA,iI) (iI,iO)
Existence de l’index EO par validation croisée
Existence de l’index EI par validation croisée
Existence de l’index IO par validation croisée
Fonctionnement de l’algorithme de classification combinatoire par validation croisée
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
29
Ondelettes
Les inconvénients d’une telle approche :– Segmentation du signal– Choix de la base d’ondelette– Choix de l’échelle– Temps de calcul
MorletMeyer Daubechies
Phonème /i/
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
30
Empirical Mode Decomposition [Huang98]
Nouvelle méthode de décomposition de signaux non-stationnaires
Utilise l’ « intersec mode function » pour décomposer le signal
La méthode s’appuie sur une interpolation entre deux minima consécutifs
Méthode localiste, indépendante d’une paramétrisation au préalable
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
31
10 20 30 40 50 60 70 80 90 100 110 120
-2
-1
0
1
2
IMF 1; iteration 0
EMD: principe par l’exemple
(présentation Flandrin GRETSI 2003)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
32
EMD: principe par l’exemple
10 20 30 40 50 60 70 80 90 100 110 120
-2
-1
0
1
2
IMF 1; iteration 0
(présentation Flandrin GRETSI 2003)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
33
EMD: principe par l’exemple
10 20 30 40 50 60 70 80 90 100 110 120
-2
-1
0
1
2
IMF 1; iteration 0
(présentation Flandrin GRETSI 2003)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
34
EMD: principe par l’exemple
10 20 30 40 50 60 70 80 90 100 110 120
-2
-1
0
1
2
IMF 1; iteration 0
(présentation Flandrin GRETSI 2003)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
35
EMD: principe par l’exemple
10 20 30 40 50 60 70 80 90 100 110 120
-2
-1
0
1
2
IMF 1; iteration 0
10 20 30 40 50 60 70 80 90 100 110 120
-1.5
-1
-0.5
0
0.5
1
1.5
residue
(présentation Flandrin GRETSI 2003)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
36
EMD: principe par l’exemple
(présentation Flandrin GRETSI 2003)
10 20 30 40 50 60 70 80 90 100 110 120
-1.5
-1
-0.5
0
0.5
1
1.5
IMF 1; iteration 1
10 20 30 40 50 60 70 80 90 100 110 120
-1.5
-1
-0.5
0
0.5
1
1.5
residue
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
37
EMD: principe par l’exemple
10 20 30 40 50 60 70 80 90 100 110 120
-1
-0.5
0
0.5
1
IMF 1; iteration 8
10 20 30 40 50 60 70 80 90 100 110 120
-1
-0.5
0
0.5
1
residue
(présentation Flandrin GRETSI 2003)
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
38
Algorithme de l’EMD
Principe : « signal = oscillations rapides superposées à des oscillations lentes »
Huang 98:– identifier localement l’oscillation la plus rapide– soustraire au signal et itérer sur le résidu
Algorithme:– calculer deux enveloppes (une supérieure et
l’autre inférieure) par interpolations entre les extrema du signal
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
39
Algorithme de l’EMD
soustraire au signal de départ la moyenne de ces enveloppes
itérer jusqu’à ce que cette moyenne = 0 et #{extrema} = #{passages à zéro} ± 1
soustraire du signal le mode (IMF) ainsi obtenu et itérer sur le résidu Empirical mode decomposition for input
signal with three frequency 50Hz, 500Hz and 1KHz
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
40
Pourquoi l’EMD
Approche localiste pour mieux cerner les variations minimes du signal
Faire face à la non-stationnarité du signal Une segmentation du signal de parole n’est
plus nécessaire Analyse dépendante du contexte Indépendance d’une paramétrisation au
préalable
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
41
Que peut on faire avec l’EMD?
Analyse du spectre de puissance
Détection des formants Meilleur localisation
fréquentielle Dans le cas d’un signal
voisé, elle permet une meilleure représentation
Formants detection IMF vs. LPC analysis
Nouvelle vision du problème Etat de l’art sur les Pas Notre approche
Ondelettes EMD
42
Conclusion
Amélioration des performances des systèmes actuels par l’ajout d’informations auxiliaires
Nouvelle méthode de décomposition des signaux non-stationnaire
Originalité:– Idée et méthode jamais exploitées– Robustesse– Multilingues