rpm - reconnaissance de la parole multilingue - un début de parcours - chafic mokbel et gérard...
Post on 03-Apr-2015
110 Views
Preview:
TRANSCRIPT
RPM - Reconnaissance de la Parole Multilingue
- Un début de Parcours -
RPM - Reconnaissance de la Parole Multilingue
- Un début de Parcours -
Chafic Mokbel et Gérard Chollet
Congrès 10ème Anniversaire Programme CEDRE
Chafic Mokbel et Gérard Chollet
Congrès 10ème Anniversaire Programme CEDRE
Un ParcoursUn Parcours
Qui Sommes Nous?Qui Sommes Nous? Université de Balamand
Chafic Mokbel Hanna Greige Walid Karam Rania Bayeh + des thésards et stagiaires
Université de Balamand Chafic Mokbel Hanna Greige Walid Karam Rania Bayeh + des thésards et stagiaires
ENST Gérard Chollet Dijana Petrovska Maurice Charbit Raphael Blouet Guido Aversano + des thésards et stagiaires
ENST Gérard Chollet Dijana Petrovska Maurice Charbit Raphael Blouet Guido Aversano + des thésards et stagiaires
Le ProjetLe Projet
Base de donnéesBilingue
Reconnaissance deLa ParoleBilingue
Français/Arabe
HMMCART Reconnaissance du
LocuteurIndépendant du
Texte
GMM
BECARS
BEAF
Base ScientifiqueBase Scientifique
Modèles stochastiques Les mélanges à composantes Gaussiennes Les chaînes de Markov Cachées Les arbres de classification et de régression
Spécialisation Adaptation ou algorithmes EM récursifs
Modèles stochastiques Les mélanges à composantes Gaussiennes Les chaînes de Markov Cachées Les arbres de classification et de régression
Spécialisation Adaptation ou algorithmes EM récursifs
Base ScientifiqueBase Scientifique Modèles de Markov Cachés (MMC ou “HMM”) A un instant t, le système est dans un état interne
(non observable) s(t) qui n’est observé qu’à travers une mesure x(t)
Modèles de Markov Cachés (MMC ou “HMM”) A un instant t, le système est dans un état interne
(non observable) s(t) qui n’est observé qu’à travers une mesure x(t)
s(t) x(t)
Base ScientifiqueMMC
Base ScientifiqueMMC
1° 2°
3° 4°
Vitesse
Accélération1°
2°3°
4°
Base Scientifique MMC
Base Scientifique MMC
MMC () caractérisé par Probabilités d’occupation des états à l’instant
initial Probabilités de transition Distributions des observations
conditionnellement à l’état
Données incomplètes
MMC () caractérisé par Probabilités d’occupation des états à l’instant
initial Probabilités de transition Distributions des observations
conditionnellement à l’état
Données incomplètes ∑=
TssTTT ssxxpxxp
,...,111
1
)/,...,,,...,()/,...,( λλ
Base Scientifique MMC
Base Scientifique MMC
Lors de la manipulation des MMCs, une partie des observations est cachée. Calcul de la vraisemblance (avant-arrière) Calcul du meilleur chemin (Viterbi) Apprentissage (EM)
Modèle stochastique: Besoin d’une base de données représentative Adaptation aux nouvelles conditions (EM récursif)
Lors de la manipulation des MMCs, une partie des observations est cachée. Calcul de la vraisemblance (avant-arrière) Calcul du meilleur chemin (Viterbi) Apprentissage (EM)
Modèle stochastique: Besoin d’une base de données représentative Adaptation aux nouvelles conditions (EM récursif)
Base ScientifiqueEM
Base ScientifiqueEM
Paramètres
Chemin ou Alignements
s
Base de donnéesBase de données
Avec CEDRE – RPM: Serveur de collecte de données parole Un programme de validation des données Une expérience en étiquettage 2 bases de données (BAD et BEAF) dont l’une
bilingue Plus d’expériences en reco
Avec CEDRE – RPM: Serveur de collecte de données parole Un programme de validation des données Une expérience en étiquettage 2 bases de données (BAD et BEAF) dont l’une
bilingue Plus d’expériences en reco
Reconnaissance MultilingueReconnaissance Multilingue
SpeechAnalysis and
FeatureExtraction
AcousticModeling
LexicalModeling
LinguisticModeling
P(wi / h)
DecisionModule
Inputspeech
Θ
Recognizedsentence
Reconnaissance MultilingueReconnaissance Multilingue
Peu de données dans BEAF partie arabe pour effectuer un apprentissage multilocuteur et surtout pour des modèles par mots Modélisation phonétique
Pas d’étiquettage phonétique lors du lancement des premières expériences
Peu de données dans BEAF partie arabe pour effectuer un apprentissage multilocuteur et surtout pour des modèles par mots Modélisation phonétique
Pas d’étiquettage phonétique lors du lancement des premières expériences
Modéliser les mots arabes en utilisant des modèles phonétiques français
Reconnaissance MultilingueReconnaissance Multilingue Modèles phonétiques français appris par l’Enst sur de large bases de données Inférence de structures phonétiques:
Description manuelle ta3deel tt aa dd ii ll
Inférence automatique: Trouver une ou plusieurs séquences phonétiques de manière que le modèle résultant soit le plus vraisemblable
Modèles phonétiques français appris par l’Enst sur de large bases de données Inférence de structures phonétiques:
Description manuelle ta3deel tt aa dd ii ll
Inférence automatique: Trouver une ou plusieurs séquences phonétiques de manière que le modèle résultant soit le plus vraisemblable
Vérification du LocuteurVérification du Locuteur
Identité proclamée Système de
Vérification du Locuteur
Acceptation
Rejet
Technologie du Traitement Automatique de la Parole Technologie du Traitement Automatique de la Parole
Technologie Biométrique de l’Authentification
Automatique
Modélisation
Phase opérationnelle
Phase d’apprentissage
Paramétrisation
Base de donnéesId1 ,..,IdN
Comparaison et décision
Identité proclamée
Modélisation
Architecture des SystèmesArchitecture des Systèmes
Acceptation
RejetParamétrisation
Modélisation: travail effectuéModélisation: travail effectué
• Mise au point d’un système état-de-l’art• Mise au point d’un système avec adaptation MLLR des paramètres du mélange [Mokbel, 1992]• Participation commune aux évaluations NIST’2003
Organisée par le National Institute of Standard and Technologies (USA) 350 locuteurs – téléphones cellulaires – 20.000 accès
Regroupant les meilleurs laboratoires mondiaux: MIT, IBM… Résultats proches des meilleurs systèmes
BECARSBECARS
Balamand ENST CEDRE Automatic Recognition of SpeakersLogiciel libre (sous license cecile en France)http://tsi.enst.fr/becarshttp://www.balamand.edu.lb/english/
Research.asp
Balamand ENST CEDRE Automatic Recognition of SpeakersLogiciel libre (sous license cecile en France)http://tsi.enst.fr/becarshttp://www.balamand.edu.lb/english/
Research.asp
http://tsi.enst.fr/becars Utilisé par différents
labos dans différents pays
http://tsi.enst.fr/becars Utilisé par différents
labos dans différents pays
BioSecureBioSecure
NIST 2006NIST 2006
A la fin de RPMA la fin de RPM
Bases de données BEAF Système de reconnaissance multilingue BECARS
Bases de données BEAF Système de reconnaissance multilingue BECARS
Suite à RPMSuite à RPM
RPM
BEAF
BECARS
Reco Multi
NEMLAR
NIST 2004, 2005, 2006
Autres Domaines
Autres Projets
HCM
ESTER
SecurePhone
BioSecure
Reco AudioVisuelle
Segmentation et codage Video
Imagerie Médicale
Prédiction d’erreur
Détection d’intrus
Transformation audio-visuelle
Reco de l’écriture manuscrite
Virgule fixe /PDA
Segmentation/Codage VideoSegmentation/Codage Video
Becars (G. Yazbek)
ConclusionsConclusions
CEDRE RPM était l’impulsion: Plusieurs technologies développées Plusieurs thèses en cours (5) Plusieurs projets en cours
Au delà et sur le plan scientifique: Le temps ou la position dans la séquence comme
paramètre (ou dimension de l’espace comme les autres dimensions)
Inférence de la connaissance à partir des données
CEDRE RPM était l’impulsion: Plusieurs technologies développées Plusieurs thèses en cours (5) Plusieurs projets en cours
Au delà et sur le plan scientifique: Le temps ou la position dans la séquence comme
paramètre (ou dimension de l’espace comme les autres dimensions)
Inférence de la connaissance à partir des données
top related