simulations du vmike et évaluations comparatives
Post on 03-Apr-2015
109 Views
Preview:
TRANSCRIPT
Simulations du VMike et évaluations
comparatives
Projet de recherche sur crédit incitatif GET 2005Page 2
Reconnaissance AV de la parole
Projet de recherche sur crédit incitatif GET 2005Page 3
Traitements audio
Extraction du signal audio
Détection des chiffres
Reconnaissance des chiffres:
• Paramètres acoustiques : MFCC• HMMs indépendants du contexte• Décodage : algo. de Viterbi
Bruitage de la parole• Bruit : Babble
Tests de reconnaissance
Projet de recherche sur crédit incitatif GET 2005Page 4
Traitements Vidéo
Extraction des vidéos
Localisation des lèvres
Interpolation des images
(même cadence que la parole)
Extraction des paramètres
• DCT et DCT2 (+LDA)• Projections :PRO et PRO2
(+LDA)
Tests de reconnaissance
0
5
10
15
20
25
30
35
40
45
50
1
PROPRO 2DCTDCT 2
Projet de recherche sur crédit incitatif GET 2005Page 5
Techniques de fusion
Fusion des paramètres :• Concaténation• Réduction de la dimension : LDA• Modélisation HMM classique avec un seul flux
Fusion des scores : Multistream HMM
Projet de recherche sur crédit incitatif GET 2005Page 6
Résultats expérimentauxFusion des paramètres
0
10
20
30
40
50
60
70
80
90
100
-15 -10 -5 0 5 10
audio seule
Pro2
DCT2
parm. Fus. Pro2
parm. Fus. DCT2
Projet de recherche sur crédit incitatif GET 2005Page 7
Résultats expérimentauxFusion des scores : -5db
42
43
44
45
46
47
48
49
50
51
52
Audio seul PRO PRO2 DCT DCT2
Audio seul
PRO
PRO2
DCT
DCT2
Projet de recherche sur crédit incitatif GET 2005Page 8
Bibliographie
G. Potamianos, C. Neti, G. Gravier, A. Garp, A. W. Senior. Recent Advances in the Automatic Recognition of Audiovisuel Speech. In IEEE? Vol. 91, pages 1306-1326. sept 2003.
J.N. Gowdy, A. Subramanya, C. Bartels, and J. Bilmes. DBN-Based Multi-Stream Models for Audio-Visual Speech Recognition IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, May 2004. Montreal, Canada
F. Brugger, L. Zouari, H. Bredin, A. Ameheaye, G. Chollet, D. Pastor et Y. Ni. Reconnaissance de la parole audiovisuelle par VMike. Accepté aux XVIèmes Journées d’Etude sur la Parole. Dinard 2006.
top related