reconnaissance de mots manuscrits cursifs par modèles de markov cachés en contexte application au...

Reconnaissance de mots manuscrits cursifs par modèles de Markov cachés en contexte

Application au français, à l’anglais et à l’arabe

Anne-Laure Bianne-Bernard

21 novembre 2011

21 Novembre 2011 Soutenance de thèse Anne-Laure Bianne-Bernard21 Novembre 2011 Soutenance de thèse Anne-Laure Bianne-Bernard

• Introduction à la reconnaissance d’écriture manuscrite

• Objectifs et contributions de la thèse• Les modèles de Markov cachés en contexte• Applications et résultats• Conclusions et perspectives

2

IntroductionObjectifs et contributionsLes HMMS contextuelsExpériencesConclusion




2


La reconnaissance d’écritureDe la page au motExtraction de caractéristiquesModélisation HMMs


Reconnaissance d’écriture

Hors ligneEn ligne

3




Reconnaissance d’écriture hors ligne

Imprimé Manuscrit Autres

4




Extraction des blocs de texte Extraction des lignes de texte

Extraction de mots

5




Prétraitements des images de mots :– Correction de la pente

du mot (skew)

– Correction de l’angle d’inclinaison des caractères(slant)

– Re-proportionnement

– Binarisation

6




Stratégies de parcours de l’image

• Segmentation explicite

• Sans segmentation : approche par fenêtres glissantes

7




Extraction de caractéristiques par fenêtres glissantes

– Caractéristiques géométriques et statistiques (El Hajj et al. 2005)

• configurations de pixels• centre de gravité de la fenêtre• densité de pixels dans la fenêtre, etc.

– Caractéristiques directionnelles (Rodriguez et al. 2008)

• histogrammes de gradients0

12

3

4

56

7

8




Modélisation et reconnaissance de mots isolés– Objectif : trouver le mot ŵ tel que

• OT : la séquence de vecteurs de caractéristiques

– Règle de Bayes :

)(maxargˆ Tw

Oww P

)()(maxarg)(

)()(maxargˆ wOw

O

wOww T

wT

T

wPP

P

PP

calculé pardes HMMs

9



modélisationlexicale


Modélisation par HMMs

– Un mot = concaténation des caractères qui le composent

modèle(pendant) = hmm_p + hmm_e + hmm_n + hmm_d + hmm_a + hmm_n + hmm_t

10



hmm_e :




11


ObjectifsContributions


Objectifs

• Reconnaissance de mots manuscrits avec HMMs et sans segmentation

• Système à l’état de l’art• Reconnaisseur robuste indépendamment de la base

de données utilisée :– script (alphabet)– grande taille du dictionnaire ( ≥105 mots)

12




Contributions• Raffinement de la modélisation HMM de caractères

– optimisation du nombre d’états des HMMs– ajout de caractéristiques dynamiques

• Elaboration de modèles HMMs dépendants de leur contexte : les trigraphes– création de questions binaires originales sur la forme des

caractères pour le clustering d’états des trigraphes– mise en place des modèles contextuels pour le français,

l’anglais et l’arabe

13






Segmentation explicite(graphèmes)

Segmentation implicite(fenêtres glissantes)

Modèleshybrides

HMM/NN

HMMs typeBakis (loi

gaussienne)

Modèlesde caractères

Reconnaissancede mots

74 caractéristiques (profil, ratioH/L, centre de gravité, etc.)

34 caractéristiques+ caract. dynamiques

Extraction decaractéristiques

+ prise en compte ducontexte

14

Pré-traitementsBinarisation, deslant, etc. Binarisation, deslant, etc.

Système existant à A2iA Briques ajoutées/modifiées

new

new

new

new




15


Elaboration de HMMs de caractères robustesModélisationClustering par position d’étatArbres binaires pour le clusteringDécodage



• Objectifs et contributions de la thèse• Les modèles de Markov cachés en contexte

– Adaptation de la topologie des HMMs– Ajout de caractéristiques dynamiques– Modélisation de HMMs contextuels

• Applications et résultats• Conclusions et perspectives

15




Adaptation de la topologie des modèles

Calcul du nombre optimal d’états Ls(C) par HMM de caractère

C

s

CL CSss

)(

)(– Γ(s) : statistique de passage dans l’état s

– Sc : états du caractère C

– |C| : nombre de caractères utilisés pour calculer Γ(s)

16




Adaptation de la topologie des modèles

Exemple surla baseOpenHart

17




Adaptation de la topologie des modèles (cont.)Optimisation du nombre de gaussiennes par état

Exemplesur la baseRimes

Rimes-validation 2011lexique :1612

Point de fonctionnement



18

nombre de gaussiennes par mélange

tau

x d

e r

eco

nn

ais

san

ce

tem

ps

de

dé

cod

ag

e (

s)


Ajout de caractéristiques dynamiques

Ki

Ki

i

i

...1

2...1

2

)( ijij oo

jo

n

n

o

o

o

o

o

o

2

1

2

1

~jo et

19




Les HMMs contextuels

• Prennent en compte la variabilité des caractères manuscrits en fonction de leur contexte : phénomène de co-articulation

• Modélisent plus finement les caractères

20




Les HMMs contextuels : modélisation

d – a + ncontexte précédent – caractère central + contexte suivant

pendant = (Ø-p+e) (p-e+n) (e-n+d) (n-d+a) (d-a+n) (a-n+t) (n-t+Ø)

21




Modélisation plus fine MAIS• Augmentation du nombre d’états

– 1 modèle environ 10 états• Peu de données d’apprentissage pour un grand

nombre de trigraphes– < 10 exemples pour 70% des trigraphes

base de données

# mots apprentissage # monographes # trigraphes

Rimes-2011 5335 81 5175

IAM 7097 75 6614

OpenHart-2010 36303 147 22183

22



x60

x90

x150


Comment réduire le nombre de paramètres?• Partage de paramètres (tying)

– modèles semi-continus : Gaussiennes partagées pour tous les états et tous les modèles

– Gaussiennes partagées par les trigraphes avec même caractère central– états centraux des HMMs partagés par les trigraphes avec même caractère

central (Nedel et al., 2000)

• Suppression de modèles– modèles bigraphes ou trigraphes avec peu d’exemples (Schussler et al. 08)

• Regroupement de modèles (Fink and Plotz 07, El-Hajj et al. 08)

– modèles avec contextes similaires regroupés (ascendants, descendants, …)

• Clustering par position d’état (state-based clustering, Natarajan et al. 06 & 09, Fink and Ploetz 07, Bianne-Bernard et al. 10)

– états regroupés par lettre centrale et position dans le HMM

23




Apprentissage des modèles contextuels

monographes initialisés (1 distribution Gauss. par état)

duplication :trigraphes

estimation desParamètres

(Baum-Welch)

clustering parposition d’état

incrémentation# gaussiennespar mélange

trigraphes finaux (n distributions Gauss. par état)

24




Clustering par position d’état

e-b+r

e-b+i

a-b+s

etc …

e-b+r

a-b+s

m-b+i

e-b+i

o-b+s

r-b+o

position d’état 1 n-1 n…..

o-b+s

m-b+i

25



2


Comment réaliser le clustering ?• Directement sur les données (data-driven)• Par arbre de décision (tree-based)

– lexique de décodage indépendant de l’apprentissage

26




Clustering par position d’état à base d’arbres binaires• Notre contribution principale• Arbres construits à partir de questions binaires sur la

forme des caractères à gauche et à droite de la lettre centrale

27




Clustering par position d’état à base d’arbres binaires• 1 arbre construit pour chaque numéro d’état des

trigraphes *-x+*• Trouver la question q* maximisant ΔLq sur les

données (frames) (Young et al. 1994)

SLSLSLL qqq

28




Formule de Young (Young et al. 1997)

L(S) = log vraisemblance de l’ensemble S des états s générant l’ensemble F de vecteurs de caractéristiques of sachant que les états s S sont liés

– les états s S partagent µ et ∑– gaussienne– ∑(S) diagonale– les observations f F correspondent à l’ensemble S – γs(of) probabilité a posteriori de générer of par s

Ff Ss

fsf oSSoSL ))(),(;Prlog)(

))(),(;Pr( SSo f

29




Exemple : construction de l’arbre pour la position d’état n°2 des trigraphes *-b+*

*-b+*



30



maximal SLSLSLL qqq

ensemble des états 2 pour *-b+*

Q1

q tel que

31





Q2Q3

ouinon

sil-b+rA-b+i

…

a-b+ea-b+di-b+l

…


Q1 : contexte gauche minuscule?

31




ouinon



Q3 : contexte droit enforme de « u »?

Q2 : lien avec contexte gauche sur ligne de base basse?

Critères d’arrêt• ΔL < seuil défini ΔLmin

• # observations par nœud < seuil défini Γmin


31




ouinon



Q3 : contexte droit enforme de « u »?

Q2 : lien avec contexte gauche sur ligne de base basse?


Q4

oui

oui

ouinon non

non

31




• Réduction du nombre d’états

* nombre de trigraphes différents après regroupement de modèles identiques

base de données

# mots apprentissage type # modèles # états

Rimes 2011 5335

trigraphes init. 5175 60408

trigraphes + clustering 1691* 2804

IAM 7097trigraphes init. 6614 76137

trigraphes + clustering 2700* 3171

OpenHart 2010

Phase136303

trigraphes init. 22183 287127

trigraphes + clustering 2782 * 9631

32




Clustering par arbres binaires important pour le décodage :

• Un mot hors du lexique d’apprentissage peut être modélisé

• Les trigraphes non appris sont modélisés– attribution d’un cluster à chaque état– en répondant aux questions des arbres construits à

l’apprentissage

33




État n°2 de e-b+l


Exemple : attribution d’un cluster à l’état n°2 du trigraphe non appris e-b+l

• e-b+l n’est pas dans l’ensemble d’apprentissage• Les arbres pour toutes les positions d’état des trigra-phes*-b+* sont disponibles• Descendre les arbres permet d’allouer un cluster à chaque état du nouveau trigraphe

34




ouinon

Q3Q2 : lien avec contexte

gauche sur ligne de base basse?



État n°2 de e-b+l


34




ouinon

Q3Q2 : lien avec contexte

gauche sur ligne de base basse?



État n°2 de e-b+l


oui

Q4 : contexte droit contient un ascen- dant avec boucle?

e-b+la-b+h

34



oui



e-b+l

a-b+h



35


Bilan des modèles HMMs en contexte• Modélisation d’un caractère en fonction de son

voisinage• Augmentation du nombre d’états clustering par

position d’états• Arbres binaires pour le clustering, questions sur la

morphologie des caractères • Lexique de test indépendant du lexique

d’apprentissage



36





Les bases de donnéesConstruction d’un système HMM génériqueElaboration du système HMMs contexuelsComparaison à l’état de l’art

37


Rimes : courriers manuscrits en français (Augustin et al. 2006)

– 12500 documents– 1300 scripteurs

– campagne 2011 mots isolés• 51738 mots pour

l’apprentissage• 7464 mots pour la

validation• 7776 mots pour le

test• lexique de 5744 mots



38


IAMdb : documents en anglais (Marti et Bunke 1999)

– 1540 documents– 671 scripteurs

– IAM-words :• 46901 mots pour

l’apprentissage• 13503 mots pour la

validation• 13750 mots pour

le test– lexique : 10K mots les plus

fréquents du LOB corpus



39


OpenHart : documents manuscrits en arabe ( site web)

– 40 000 documents– 450 scripteurs– 4x106 images de mots

– Phase 1 :• 758 936 mots pour l’apprentissage• 84405 mots pour la validation• 48342 mots pour le test

– lexique : 20K mots les plus fréquents de Phase1_Train



40


Elaboration d’un système robuste à base de HMMs indépendants du contexte

Taux d’erreur sur base de validation, dictionnaire restreint (1-10K mots), nombre de gaussiennes par mélange restreint (=5)

base de données Syst. initial + caract.

dynamiques+ topologie

adaptée

Rimes 2011 30,5% 26,84% 26,6%

IAM 38,7% 35,1% 33,3%

OpenHart 2010 Phase1 N/A 60,7% 57,0%



41


Elaboration d’un système à base de HMMs contextuels

• Construction des arbres : 2 paramètres à optimiser– ΔLmin : contrôle la variation de la vraisemblance des

clusters enfants vs parent– Γmin : contrôle le taux d’occupation de chaque noeud

ΔLmin et Γmin sont optimisés sur une base de validation



42


Rimes : optimisation de ΔLmin et Γmin



43

no

mb

re f

ina

l d

e c

lus

ters

seuil sur Γmin

seuil sur ΔLmin




44

système choisi Γmin = 200 et ΔLmin=1000

tau

x d

e r

ec

on

na

iss

an

ce

nombre de clusters

Rimes : optimisation de ΔLmin et Γmin


Résultats des HMMs contextuels (taux d‘erreur sur les bases de test)

* Un modèle de langage (trigrammes de mots) a été utilisé

base de données HMMs indépendants du contexte HMMs contextuels

Rimes 2011 24,6% 20,1%

IAM 32,1% 30,5%

OpenHart 2010* 55,1% 46%



45


Comparaison à l’état de l’art : Rimes 2011

Systèmes isolés à base de HMMs

SystèmeTaux d’erreur

1-best 10-best

HMMs contextuels 20,1% 5,6%

IRISA (1) 21,4% 11,5%

ParisTech 24,9% 6,9%

IRISA (2) 25,5% 16,1%

E. Grosicki et H. El Abed : “ICDAR 2011 - French Handwriting Recognition Competition”, in Proceedings of the 11th International Conference on Document Analysis and Recognition (ICDAR 2011), p. 1459-1463, 2011.



46




1-best 10-best


IRISA (1) 21,4% 11,5%


IRISA (2) 25,5% 16,1%




46



* systèmes issus de combinaison de systèmes


1-best 10-best

A2iA * 5,1% 0,4%

Jouve * 12,5% 2,0%


IRISA (1) 21,4% 11,5%


IRISA (2) 25,5% 16,1%




46


Comparaison à l’état de l’art : OpenHart

Tous les systèmes utilisent un modèle de langage (trigrammes de mots)

Source : site web Openhart (compétitions 2010).

Système Taux d’erreurs

A2iA.primary.1 37,69%

HMMs contextuels 42%

UPV-PRHLT.primary.1 51,49%



47


Participation aux compétitions internationales de reconnaissance d’écriture manuscrite

– compétition Rimes ICDAR 2009 (reconnaissance de mots manuscrits français) : 2ème place

– compétition IFN-Enit ICDAR 2009 (reconnaissance de noms de villes (mots manuscrits) arabes) : 2ème place

– compétition OpenHart 2010 (reconnaissance de lignes manuscrites arabes pré-segmentées) : 1ère place

– compétition Rimes ICDAR 2011 (reconnaissance de mots et de lignes manuscrits français) : 1ère place



48





ConclusionPerspectives

49


• Mise en place d’un système robuste de reconnaissance de mots à base de HMMs– ajout d’une dimension dynamique aux caractéristiques

extraites– mise en place de calcul automatique de longueur de

modèle optimale• Amélioration du taux de reconnaissance



50


• Application d’un outil inédit en reconnaissance de l’écriture manuscrite : les modèles contextuels– utilisés en reconnaissance de la parole– modélisent plus finement les caractères– nécessitent un partage de paramètres

• Clustering basé sur des arbres binaires de décision– clustering par position d’état– questions originales basées sur expertise humaine– trigraphes inconnus sont modélisés

• Application avec succès sur 2 alphabets et 3 tailles de base de données différents



51


Perspectives• Combinaison de systèmes• Généralisation des résultats d’une base à une autre



Base de test Base d’apprentissage Taux d’erreurs

Rimes valid2011Rimes train2011 15,8%

IAM train 42,7%

IAM validRimes train2011 55,9%

IAM train 32,1%

52


Perspectives (cont.)• Utilisation d’autres techniques connues des HMMs

mais non / peu pratiquées en HWR– adaptation au scripteur– apprentissage discriminant– subspace-GMM

• Passage du niveau mots au niveau lignes– nouveaux challenges de prétraitement des images– utilisation de modèles de langage innovants :

• Modèle M• RNN-LM



53


Merci de votre attention.


A-L. Bianne-Bernard, F. Menasri, R. Al-Hajj Mohamad, C. Mokbel, C. Kermorvant and L. Likforman-Sulem. Dynamic and contextual information in HMM modeling for handwritten word recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(10) : 2066-2080, 2011.

A-L. Bianne-Bernard, C. Kermorvant, L. Likforman-Sulem and C. Mokbel. Modélisation de HMMs en contexte avec des arbres de décision pour la reconnaissance de mots manuscrits. Document Numérique, 14(2) :29-52, 2011.

A-L. Bianne-Bernard, F. Menasri, L. Likforman-Sulem, C. Mokbel and C. Kermorvant. Variable length and context-dependent HMM letter form models for Arabic handwritten word recognition. In Proccedings of the 19th Document Recognition and Retrieval Conference, part of the IS\&T-SPIE Electronic Imaging Symposium - DRR2012, vol. 8297 : pages to appear, 2012.

A-L. Bianne, C. Kermorvant and L. Likforman-Sulem. Context-dependent {HMM} modeling using tree-based clustering for the recognition of handwritten words. In Proccedings of the 17th Document Recognition and Retrieval Conference, part of the IS&T-SPIE Electronic Imaging Symposium - DRR2010, vol. 7534, 2010.

A-L. Bianne, C. Kermorvant and L. Likforman-Sulem. Modélisation de HMMs en contexte avec des arbres de décision pour la reconnaissance de mots manuscrits. In Proccedings of the Colloque International Francophone sur l'Ecrit et le Document - CIFED2010, 2010.

A-L. Bianne, C. Kermorvant, P. Marty and F. Menasri. Les caractères ne sont pas la clef des champs. In Proceedings of the 11th Conférence Francophone sur l'Apprentissage Artificiel - CAP2009, 2009 .


Publications


C. Kermorvant, F. Menasri, A-L. Bianne, R. Al-Hajj Mohamad, C. Mokbel and L. Likforman-Sulem. The A2iA-Télécom ParisTech-UOB system for the ICDAR 2009 handwriting recognition competition. In Proceedings of the 12th International Workshop on Frontiers of Handwriting Recognition - IWFHR2010, pages 247-252, 2010.

F. Menasri, J. Louradour, A-L. Bianne-Bernard, C. Kermorvant. The A2iA French handwriting recognition system at the Rimes-ICDAR2011 competition. In Proccedings of the 19th Document Recognition and Retrieval Conference, part of the IS\&T-SPIE Electronic Imaging Symposium - DRR2012, vol. 8297 : pages to appear, 2012.

C. Kermorvant, A-L. Bianne, P. Marty and F. Menasri. From isolated handwritten characters to fields recognition: There's many a slip twixt cup and lip. In Proceedings of the Tenth International Conference on Document Analysis and Recognition - ICDAR2009, pages 1031-1035, 2009.


Publications


Calcul de l’angle d’inclinaison des caractèrespseudo-entropie :

pi = projection de lacolonne de pixels i normalisée entre0 et 1.

(les pi ne somment pas à 1)

coln

iii ppH

1

)log(


Annexe

pseudo-entropie

pseudo-entropie normalisée

pse

ud

o-

en

tro

pie

pse

ud

o-e

ntr

op

ie n

orm

alis

ée

angles


Comparaison à l’état de l’art : IAM

• comparaison à titre indicatif• Reconnaissance de

– lignes / mots,– avec / sans modèle de langage.

Système Taux d’erreur

HMMs contextuels 30,5%

TU Dortmund 28,9%

IAM (Univ. Bern) 37,3%

BBN technologies 40,1%

T. Plötz et G. A. Fink: “Markov models for offline handwriting recognition: a survey ”, in Proceedings of the International Journal on Document Analysis and Recognition, vol. 12, pp. 269-298, 2009.


Annexe


QS "R_isnotchar" {*+sA,*+sB,*+sT,*+sN}

QS "R_lowercase"{*+1,*+8,*+a,*+b,*+c,*+d,*+e,*+f,*+g,*+h,*+i,*+j, *+k,*+l,*+m,*+n,*+o,*+p,*+q,*+r,*+s,*+t,*+u,*+v,*+w,*+x,*+y, *+z,*+ç}

QS "R_uppercase" {*+2,*+3,*+4,*+6,*+7,*+9,*+A,*+B,*+C,*+D,*+E, *+F,*+G,*+H,*+I,*+J,*+K,*+L,*+M,*+N,*+O,*+P,*+Q,*+R,*+S,*+T, *+U,*+V,*+W,*+X,*+Y,*+Z,*+À,*+É}

QS "R_LC_descender" {*+f,*+g,*+j,*+p,*+q,*+y,*+z,*+ç}

QS "R_LC_ascender" {*+1,*+8,*+b,*+d,*+f,*+h,*+k,*+l,*+t}

QS "R_LC_small" {*+a,*+c,*+d,*+e,*+i,*+m,*+n,*+o,*+q,*+r,*+s,

*+u,*+v,*+w,*+x,*+z}

QS "R_LC_accent" {*+à,*+â,*+é,*+è,*+ê,*+ë,*+î,*+ï,*+ô,*+ù,*+û}


Annexe


Adaptation du modèle au scripteurTransformation linéaire : CMLLR (Constrained MLLR)– Réduction de la distance entre le modèle et les données

d’adaptation– Transformation linéaire W appliquée aux moyennes µ :

µadapt = W ξ = A µ + b ( ξ = [ b µ ] )

– Même transformation appliquée à la matrice de covariance (diagonale) : Σadapt = A Σ AT

Base d’apprentissage Base de test

Taux d’erreurs

Sans adaptation Avec adaptation

IAM train IAM test 30,5% 30,1%


Annexe


Combinaison de sorties de systèmes


Annexe

reconnaisseur 1

reconnaisseur 2

reconnaisseur 3

sous 0,5129vous 0,3265nous 0,1606

vous 0,5629avons 0,2793sous 0,1578

sous 0,4047vous 0,3419Nous 0,2534

vous 0,4103sous 0,359

avons 0,093Nous 0,0843nous 0,0534

N

nn motscore

N

motscore

1

)(1

)(

(N=3)


Intuition : variabilité des modèlesExemple sur la base Rimes

σvrais = 43 versus σvrais = 17 (≈ 300 exemples)


Annexe

reconnaissance de mots manuscrits cursifs par modèles de markov cachés en contexte application au...

Documents