reconnaissance automatique de la parole par unités sous-phonétiques présenté par : m.m. saidi...

Reconnaissance automatique de la parole par unités sous-phonétiques

Présenté par : M.M. SAIDI

Directeur : R. AUDRE-OBRECHT

Co-directeur : O. PIETQUIN

Présentation d’un SRAP– Paramétrisation– Reconnaissance– Lacunes

Nouvelle vision du problème– Etat de l’art sur les PAs– Notre approche

Ondelettes EMD

Présentation d’un SRAP Paramétrisation Reconnaissance Lacunes

Nouvelle vision du problème– Etat de l’art sur les PAs– Notre approche

Ondelettes EMD

Système de reconnaissance

Production de parole

Signal de parole

Segmentation Paramétrisation Décodage

Domaines de reconnaissance

Reconnaissance de mots isolés:– Les mots prononcés sont séparés par une phase

de silence

Reconnaissance de mots connectés:– Les mots sont prédéfinis et prononcés de façon

continue

Reconnaissance de parole continue:– Dialogue naturel

Paramétrisation

Non-stationnaire

Quasi-stationnaire– 30ms avec recouvrement

de 10ms

Suppose un phonème* par segment

* Un phonème est la plus petite unité significative désignant une empreinte quasi-unique pour chaque son d’un alphabet limité

Paramétrisation

D’un point de vue pratique– Quasi-stationnaire permet l’application de la

transformée de Fourier

Il y a deux types de paramétrisation– Paramétrisation basée modèle de production

Exemple: LPC

– Paramétrisation basée modèle de perception Exemple: PLP, PLP-RASTA

Paramétrisation (MFCC)

1.1)( zazH

Préaccentuation

Fenêtrage

20 à 30 ms

Hamming

12cos46,054,0

Banc de filtres Mel

Log de la puissance de TFD

TFD inverseCepstre

Reconnaissance

En se donnant un vecteur acoustique «A», quel est la probabilité de générer le mot «W»?

)/(maxarg^

AWIPWW

•Vecteur acoustique : variable connue•Séquence de phonèmes (ou mots) : variable cachée•Hypothèses :

•Continuité dans le temps•Processus stationnaire•Densité de probabilité gaussienne

Reconnaissance

Non calculable « on the fly » :

Loi de Bayes :

P(A) indépendante de W

Modèle acoustique

)/(maxarg^

)/().(maxarg

WAPWPW

)/().(maxarg^

WAPWPWW

WPAPWAP ii

)/()./()/(

Reconnaissance (HMM)

Exemple de HMM:– Soit le mot : agents a Z a~TP

I a Z a~ F

a11 a33a22

a01 a12 a23 a34

a02a13 a24

b1 b2 b3

Un système de reconnaissance

Systèmes actuels

Problème mal poséFormalise ambigüeHypothèses non vérifiés en réalitéManque de robustesse aux conditions

réelles

Systèmes actuels

Exemple montrant la délicate tâche de faire la différence entre un bruit gaussien et une consonne

Bruit Phonème /f/

Systèmes actuels

Accroître la robustesse des systèmes en présence du bruit

• Essai de standardisation avec WI008

Taux de reconnaissance dans différents cas de bruit de fond

Les problèmes qui se posent

Variabilité du signal de parole– D’un point de vue longueur du signal– D’un point de vue prononciation

Concept de phonème qui paraît mal défini Changement de locuteur Accent qui concerne plus les non-natifs

Présentation d’un SRAP– Paramétrisation– Reconnaissance– Lacunes

Nouvelle vision du problème Etat de l’art sur les PAs Notre approche

Ondelettes EMD

Une nouvelle vision du problème

Une unité plus robuste à la variabilité du signal

Au niveau de la production de la voix parlée, il y a des articulations fixes pour chaque son

Ces caractéristiques sont partagées quelque soit la langue

Propriétés (points) articulatoires

Nouvelle vision du problème Etat de l’art sur les Pas Notre approche

Ondelettes EMD

Points d’articulations

Exemple d’une représentation unique en terme de PA:

– Phonèmes /m/

abaissement du voile de palais,

lèvres (bilabiale)– Phonème /n/

abaissement du voile de palais,

alvéoles (ou dentale)

Ondelettes EMD

Table de l’IPA

IPA: Alphabet phonétique international

Un standard pour représenter tous les phonèmes possibles en fonction des articulations

Partie grisée: mouvement impossible

Ondelettes EMD

Etat de l’art

Quatre approches sont abordées:– Système de reconnaissance basé sur une définition

de caractéristiques articulatoires par méthode statistique

– Système de reconnaissance basé sur des mesures physiques

– Détection des mouvements articulatoires par plage fréquentielle

– Approche utilisant l’inversion acoustico-articulatoire

Ondelettes EMD

Etat de l’art

Utilisation d’un articulographe permettant d’intégrer une mesure pour chaque articulation

• Détection de mouvement articulatoire dans le cas des voyelles par plage fréquentielle (formant)

Ondelettes EMD

Etat de l’art (modèle de Kirchhoff)

Présentation de l’ensemble de PAs utilisées dans le modèle :

Les vecteurs acoustiques sont des coefficients PLP-RASTA

La détection des PAs est réalisée par des MLPs avec différentes architectures par groupe d’articulations

Ondelettes EMD

Etat de l’art (modèle de Kirchhoff)

Vue d’ensemble sur le modèle proposé par Kirchhoff

Représentation des phonèmes en propriétés articulatoires selon le modèle proposé par Kirchhoff

Ondelettes EMD

Résumé du problème

Définir les PAs qui vont être prises en compte– Perspective d’un système multilingues– Système robuste au bruit

Extraire à partir du signal les variations indiquant la présence d’une PA précise– Approche localiste– Approche indépendante de la longueur du signal

Ondelettes EMD

Ondelettes

Approche localiste Faire face à la non-stationnarité Localisation en temps-fréquences

dj+1 g

Ondelettes EMD

Ondelettes

Tests réalisés en utilisant une D.O. continue– Ensemble des voyelles de la langue française– Différentes ondelettes mère (db32, db44, Meyer,…)

Caractérisation par échelle– Energie simple et Log de l’énergie

– Energie Teager

icoefE 2

iii coefcoefcoefET2

Ondelettes EMD

Ondelettes

Recherche des caractéristiques par analyse combinatoire

Vecteurs AE Vecteurs EO Vecteurs EI Vecteurs AO Vecteurs AI Vecteurs IO

(iA,iE) (iE,iO) (iE,iI) (iA,iO) (iA,iI) (iI,iO)

Existence de l’index EO par validation croisée

Existence de l’index EI par validation croisée

Existence de l’index IO par validation croisée

Fonctionnement de l’algorithme de classification combinatoire par validation croisée

Ondelettes EMD

Ondelettes

Les inconvénients d’une telle approche :– Segmentation du signal– Choix de la base d’ondelette– Choix de l’échelle– Temps de calcul

MorletMeyer Daubechies

Phonème /i/

Ondelettes EMD

Empirical Mode Decomposition [Huang98]

Nouvelle méthode de décomposition de signaux non-stationnaires

Utilise l’ « intersec mode function » pour décomposer le signal

La méthode s’appuie sur une interpolation entre deux minima consécutifs

Méthode localiste, indépendante d’une paramétrisation au préalable

Ondelettes EMD

10 20 30 40 50 60 70 80 90 100 110 120

IMF 1; iteration 0

EMD: principe par l’exemple

(présentation Flandrin GRETSI 2003)

Ondelettes EMD

10 20 30 40 50 60 70 80 90 100 110 120

IMF 1; iteration 0

Ondelettes EMD

10 20 30 40 50 60 70 80 90 100 110 120

IMF 1; iteration 0

Ondelettes EMD

10 20 30 40 50 60 70 80 90 100 110 120

IMF 1; iteration 0

Ondelettes EMD

10 20 30 40 50 60 70 80 90 100 110 120

IMF 1; iteration 0

10 20 30 40 50 60 70 80 90 100 110 120

residue

Ondelettes EMD

10 20 30 40 50 60 70 80 90 100 110 120

IMF 1; iteration 1

10 20 30 40 50 60 70 80 90 100 110 120

residue

Ondelettes EMD

10 20 30 40 50 60 70 80 90 100 110 120

IMF 1; iteration 8

10 20 30 40 50 60 70 80 90 100 110 120

residue

Ondelettes EMD

Algorithme de l’EMD

Principe : « signal = oscillations rapides superposées à des oscillations lentes »

Huang 98:– identifier localement l’oscillation la plus rapide– soustraire au signal et itérer sur le résidu

Algorithme:– calculer deux enveloppes (une supérieure et

l’autre inférieure) par interpolations entre les extrema du signal

Ondelettes EMD

Algorithme de l’EMD

soustraire au signal de départ la moyenne de ces enveloppes

itérer jusqu’à ce que cette moyenne = 0 et #{extrema} = #{passages à zéro} ± 1

soustraire du signal le mode (IMF) ainsi obtenu et itérer sur le résidu Empirical mode decomposition for input

signal with three frequency 50Hz, 500Hz and 1KHz

Ondelettes EMD

Pourquoi l’EMD

Approche localiste pour mieux cerner les variations minimes du signal

Faire face à la non-stationnarité du signal Une segmentation du signal de parole n’est

plus nécessaire Analyse dépendante du contexte Indépendance d’une paramétrisation au

préalable

Ondelettes EMD

Que peut on faire avec l’EMD?

Analyse du spectre de puissance

Détection des formants Meilleur localisation

fréquentielle Dans le cas d’un signal

voisé, elle permet une meilleure représentation

Formants detection IMF vs. LPC analysis

Ondelettes EMD

Conclusion

Amélioration des performances des systèmes actuels par l’ajout d’informations auxiliaires

Nouvelle méthode de décomposition des signaux non-stationnaire

Originalité:– Idée et méthode jamais exploitées– Robustesse– Multilingues

reconnaissance automatique de la parole par unités sous-phonétiques présenté par : m.m. saidi...

Documents

intÉgrer les logiciels de prÉsentation afin d'optimiser...

directeur gÉnÉral

p. juban - les aspects phonologiques & phonétique de la...

schema directeur - yonne€¦ · schema directeur...

directeur - sciencepress.mnhn.fr

presentation template orange · stéphane richard,...

rôle des indices acoustico-phonétiques dans la...

caractéristiques phonétiques des voyelles orales arrondies...

cappella pratensis - clic musique©e pour la première fois...

our uoi • • ais - icem-freinet.fr€¦lecture et...

bilan des dépenses 2008-2009 les rogers, président...

mémoire d’éléphant · chapitre 10 les indices de...

directeur artistique

franÇais langue de scolarisation - ac … · légendes de...

politique rÉgionale du mÉdicament et des … · olivier...

eclairage intelligent sdal - schéma directeur...

le directeur des services judiciaires le directeur des

les transcriptions phonÉtiques...

connecter rapport les Énergies d’avenir · thierry...

composantes graphiques des systèmes phonétiques et leurs...