Traitement du signal pour la reconnaissance vocale
Cours 5: Traitement du signal et reconnaissance de forme
Chaîne de Reconnaissance vocale
Acquisition microphone
Numérisation du signal
Pré-traitement
Extraction de paramètres
Classification et décision
Dictionnaire
Tests et validation
Signal ?Définition: codage et simplification d’un message. un signal 1D est une fonction en général du temps s(t) � signaux lumineux, sonores, etc… ou spatial (2D, 3D images)A chaque instant t, on associe une valeur (amplitude).Le traitement, l’analyse, et l’interprétation des signaux sont regroupés dans la discipline appelée traitement du signal.
Différents secteurs et différentes branches
Les signaux sont présents dans différents secteurs (électronique, optique, audiovisuels, informatiques…). Quelques branches particulières qui nous intéressent .- traitement d’image (déjà vu)- traitement de la parole
Signaux
Signaux analogiques: signaux produits de manière naturelle, continus (capteurs, amplificateurs, CNA) � traitement réalisé par circuits électroniques, (ou manuellement)Signaux numériques: signaux utilisés dans le traitement informatique, discrets, facilité et rapidité de traitement. Ils sont artificiels � traitement réalisé par micro-ordinateurs, DSP (microprocesseurs spécialisés)
Problème en reconnaissance de parole
Acquisition microphone
Signal analogique
Traitement de la parole
Signal numérique
Conversion analogique –numérique (CAN)
Exemple
Signal analogique U(t) � signal continu (représentation par une courbe)Signal numérique Ut �valeurs non continues (représentation par un histogramme)
Conversion analogique-numérique (1)
La conversion analogique- numérique se décompose en général en deux actions:- l’échantillonnage (on prélève la valeur du signal à une fréquence définie) - la quantification (on affecte une valeur numérique à chaque échantillon prélevé)
Qualité de la CAN
La qualité du signal numérique dépend donc: - Taux d’échantillonnage (ou fréquence d’échantillonnage) plus la fréquence est grande, plus la qualité du signal numérique est bonne.- le nombre de bits sur lequel on code les valeurs (phase de quantification)
EchantillonnageQui dit échantillonnage dit perte d’information.Si fréquence très faible � espace très grand entre deux données � grosse perte d’informationsSi fréquence trop grande � information stockée inutile � gaspillage de l’espace de stockageFréquence d‘échantillonnage: fréquence à laquelle les données sont enregistrées ou capturées (Hz �nombre de valeurs par seconde).
Théorème de Shannon –fréquence de Nyquist
Pour pouvoir échantillonner un signal, il faut fixer une fréquence d’échantillonnage au moins égal au double de la fréquence du signal � fréquence limite = fréquence de Nyquist (théorème de Shannon)Signal sinusoïdal � fréquence du signal: pas de problème
Exemple: signal sinusoïdal
Signal analogique (f = 10 Hz)
échantillonnage à 20Hz (=2f) �cas parfait si on part du maximum
Sous échantillonnage à 10Hz
T
Signal périodique non sinusoïdal
On applique le théorème de shannonmais quelle fréquence choisir ?Signal peut être décomposé en signaux sinusoïdaux dont la fréquence est le multiple d’une fréquence fondamentale (largeur de bande)Fréquence de Nyquist = 2*plus haute fréquence
Phénomène d’aliasing
Sous-échantillonnage (restitution d’un faux signal)� phénomène d’Aliasing(ou de repliement)
Quantification (1)
Chaque valeur est quantifiée sur un certain nombre de bits par rapport à la valeur réelle du signal analogique.Nombre de bits disponibles est important pour quantifier la valeur du signal à un temps t. Plus le nombre est élevé, plus la quantification est de qualité
Quantification (2)
Quantification- sur 1 bit (2 valeurs)- sur 8 bits = 1 octet (256 valeurs)- sur 16 bits = 216 valeurs les quantifications se font en général sur 16 bits
Fourier ?
Joseph Fourier (mathématicien du XIXème sicèle)Séries de Fourier (par extension, transformée de Fourier et transformée de Fourier discrète) base de toute la théorie de traitement du signal
De façon mathématique
�∞
=
+=0
]2
sin2
cos[)(n
nn Tnt
bTnt
atfππ
Signal périodique (période T) = somme pondérée de signaux sinusoïdaux
1/T : fréquence fondamentale (on utilise souvent �=2�/T)n/T: harmoniquean et bn coefficients pondérateurs de Fourier
Exemples (1)
Somme pondérée de deux signaux de fréquence f et 3f (H3) � signal résultant (b): addition point par point des deux courbes de (a).
Exemples (2)
Meilleure approximation d’un Signal carré f(t): décomposition de la façons suivante
)23sin(231
...)5sin(51
)4cos(0)3sin(31
)2cos(0)sin()( tttttttf ϖϖϖϖϖϖ ++++++=
Analyse spectrale (1)
Représentation des amplitudes des différentes harmoniques (n=1,3,5,7…23) d’un signal � analyse spectrale.
Analyse spectrale (2)
Note de musique: harmoniques différentes pour le son du diapason (La pur) , son d’une guitare, son de cymbale.
Remarque (1)Etant donné que les séries de Fourier sont une décomposition en cosinus et sinus, on utilise souvent la notation complexe:
Avec Fn=(an+ibn)/2 et F-n=(an-ibn)/2
�∞
−∞=
=n
n TFtf )
int2exp()(
π
Remarque (2)A partir de l’équation précédente, les coefficients de Fourier se calculent de la façon suivante:
dtT
tfT
FT
Tn )
int2exp()(
1 2/
2/
π−= �−
Le nombre de descripteurs de Fourier calculés ainsi est en théorie infini
Interprétation
Plus n est grand, plus les fonctions sinusoïdales varient rapidement.� une fonction lisse (c.a.d qui ne varient pas beaucoup) aura des coefficients an et bn qui prendront rapidement (hautes fréquences) des valeurs faibles� une fonction très perturbée et très changeante (ou bruitée) auront des composantes importantes dans les hautes fréquences.
Transformée de Fourier (1)Souvent fonctions non périodiques et non bornées , la transformée de Fourier permet de généraliser le concept de séries de Fourier à ce type de fonction:
dttitfF �∞
∞−−= )2exp()()( υπυ
On peut noter le changement de variable � = n/T, ce qui explique la disparition du facteur 1/T avant la somme.
InterprétationDe façon peu rigoureuse, on pourrait considérer un signal analogique non périodique comme un signal dont la période tendrait vers l’infini, la fréquence tendrait alors vers 0 (dν)
et on obtient un spectre de Fourier continu appelé spectre de bande (et non un spectre de raies):
En pratique, signal non borné: très rare !on définit une fenêtre d’application [-T/2,T/2]Échantillonnage à une fréquence f telle que T=K/f
Vers la transformée de Fourier discrète
�−
−=
−=1)2/(
2/
)2
exp(1 K
KkKn K
inkf
KF
π
Remarque
Le signal numérique est décomposé en K segments. Le nombre total de coefficients de Fourier sera K.En traitement de signal, on utilise la FFT (Fast Fourier Transform) qui, sous certaines conditions, permet d’accélérer le calcul
Pour en revenir àl’échantillonnage
On fait un échantillonnage à très haute fréquence feToutes les fréquences supérieures à fe/2 sont éliminées: filtre anti-aliasingExemple: Pour un CD (fréquence 44,1 kHz), il ne faut pas de sons supérieurs à22 kHz (L’oreille humaine capte au maximum à 20 kHz) .
La reconnaissance vocaleApplications de la reconnaissance vocale:- commande vocale: mots isolés, petit vocabulaire.- compréhension: signification d’un petit message en parole continue- dictée: retranscription du texte sans compréhension
- Identification ou vérification du locuteur
Comment ça marche?
Même méthodologie que reconnaissance de forme:- Pré-traitement- Segmentation- Extraction de caractéristiques- Classification- Décision
Mais….Continuité: difficulté de séparer les mots ou les phonèmes dans un signal (les silences ne remplacent pas les blancs)Variabilité (effets plus importants que sur document visuel):- plusieurs locuteurs (timbre de voix, âge)- pour un même locuteur (émotions, voix enrouée, chants..)- rythme de la dictée (temps plus ou moins long pour dire la même chose)- bruit extérieur
Deux approches
Approche globale: reconnaissance de mots. Plus facile mais limité par le vocabulaire, la taille mémoire et le temps de calcul.Approche analytique: reconnaissance de phonèmes, de sons, plus difficile àmettre en place mais plus puissant
Pré-traitement du signal
Signal parlé: onde non stationnaire (pas les mêmes caractéristiques statistiques au cours du temps.On découpe le signal en fenêtre temporelle (quelques ms)On analyse chaque fenêtre temporelle
Segmentation (en mots ou phonèmes)
Les mots sont marqués par des silences plus ou moins longsReconnaissance de mots isolés: facileReconnaissance de mots dans une parole continue: bien articuler et distinguer les motsReconnaissance de phonèmes: très difficile (changement de rythmes, rupture en fréquence…)
Extraction de l’empreinte du signal
Identifier une empreinte caractéristique du son émis- analyse spectrale- analyse par prédiction linéaire- analyse par coefficients cepstraux
Analyse spectrale
Au cours du temps (par fenêtre temporelle), on fait une FFTOn peut tracer un graphique temps/fréquence/ amplitude � Sonagramme. L’amplitude est donnée par les niveaux de gris Les coefficients de Fourier par fenêtre temporelle sont des caractéristiques du signal
Analyse par prédiction linéaire
Approximation du signal par un modèle suivant les échantillons précédentsLe signal est alors modélisé par une combinaison linéaire pondérée des échantillons précédents.
Les différents coefficients servent de caractéristiques
pnpnnn sasasas −−− +++= ...2211
Analyse par cepstresCepstre: passage du domaine temporel àun autre domaine temporelPour un signal x(t), on obtient les coefficients cepstraux exprimés en quéfrences par:
)))((((log)( 101 txFFTc −=
Les coefficients cepstraux sont des caractéristiques du signal.
Mesure de ressemblance
Calculer la ressemblance entre un mot (ou un phonème) et les mots ou les phonèmes d’un dictionnaireCritères statistiques (ou euclidiens) déjàvus en reconnaissance de forme
Mais…
Si un locuteur prononce deux fois le même mot. Il y aura des différences de rythme (temps).Comparaison dynamique (DTW: dynamic Time Warping)
La DTW
Création d’une fonction qui met en correspondance les évolutions temporelles.Problème, le réajustement est souvent long.La DTW est très utilisée pour la reconnaissance de mots isolés
Modèles statistiques
Type Bayes: Probabilité d’appartenance à un classe.� Très bien pour les mots isolés ou les
phrases très simples
Problème: le modèle statistique bayésien n’est pas assez puissant.
Exemple
Reconnaissance de phonèmes:
PhonèmeExtraction de caractéristiques
Identification du phonème (problème de coarticulation)
Identification du phonème àl’intérieur d’un mot: comparaison avec d’autres mots
HMM et Réseaux de neurones
Chaines de Markov Cachées (HMM): méthode statistique très élaborée �très utilisées car permet de mettre en correspondance le phonème identifié et le langage proprement dit.Méthodes neuronales: moins utilisées en reconnaissance de forme mais petit à petit on y vient.
Système mono et multi-locuteurs
Caractéristiques du signal très liées au locuteur.- Développement de systèmes monolocuteur, une personne fait un apprentissage et fournit ainsi son empreinte vocale � fort taux de reconnaissance, limité à une personne- Développement de systèmes multi-locuteurs, on moyenne l’empreinte vocale de tout le monde � taux de reconnaissance plus faible
Différences globales/analytiques
++-dictée
-+++Mots isolés
++/-Mutlilocuteur
-++cout
++ (qq mots)/ - (grand mot)
Apprentissage
+-Taille du vocabulaire (>1000)
analytiqueGlobale
Conclusion traitement du signal
Traitement numérique du signal: Analyse de Fourier et notions de filtrage sont les bases.Murat Kunt « Techniques Modernes de Traitement numérique des Signaux », Presse Polytechniques et Universitaires Romandes, Lausanne, 1991.
Conclusion et Avenir de la reconnaissance de parole
Principe similaire à la reconnaissance de formeLes méthodes de reconnaissance de parole sont encore loin d‘être optimales malgré l’apport des HMMProblèmes de segmentation, de reconnaissance de phonème, de bruit, d’usage multi locuteurs
bibliographieTraitement de la parole:
http://r.battault.free.fr/probatoire/probatoire.htmlhttp://www.vieartificielle.com/index.php?action=article&id=191Mariani J. (: Reconnaissance de la parole : Traitement
automatique du langage parlé, LavoisierBoîte R., Bourlard H., Dutoit H., Hancq J., Leich H.; Traitement de
la parole, Presse Polytechnique Universitaires Romandes, 1999.
Chaines de Markovhttp://r.battault.free.fr/probatoire/probatoire.htmlFrederick Jelinek Statistical Methods for Speech Recognition MIT Press,
1998.
Bibliographie (2)Réseaux de neuronesJodouin J.F (1994) les réseaux de neurones: principe et définition. Hermès, Paris, FranceRenders J.M. (1995) Algorithmes génétiques et réseaux de neurones. Hermès, Paris, Francehttp://www.umoncton.ca/sciences/informatique/maia/in4413/projets/landry/historique.html
StatistiquesDodge Y. (1993) Statistique. Dictionnaire encyclopédique. Dunod, Paris, FranceSaporta G. (1990) Probabilités, analyse des données et statistique. EditioSCHERRER B. (1984) - Biostatistique - Gaëtan Morin (ed.), C.P. 965, Chicoutimi, Québec, Canada.