amélioration du système de reconnaissance de l’écriture arabe
TRANSCRIPT
Amélioration du système de reconnaissance de l’écriture arabe manuscrite, basé sur le réseau RNT-DF
Présenté par: Messaoudi Hafedh Mohamed Hichem
Encadré par: M. Maddouri Mondher Mme. Maddouri Samia
04/06/2009
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 2
1. Introduction2. Systèmes de reconnaissance de l’écriture manuscrite
• Types de reconnaissance de l’écriture manuscrite• Etapes de reconnaissance de l’écriture manuscrite• Caractérisation de l’écriture arabe • Système RNT-DF
3. Aspect méthodologique• Détection des points diacritiques• Estimation du nombre des PAWs• Détection des hampes
4. Aspect technique• Problèmes de mémoires• Interface
5. Conclusion et perspectives
Plan
• Contexte– Reconnaissance de l’écriture arabe manuscrite
• Discipline récente, apparue au début des années 80• Domaine de recherche très disputé
• But– Amélioration du système de reconnaissance de
l’écriture arabe manuscrite basé sur le réseau de neurones transparents RNT-DF• Améliorations méthodologique• Amélioration technique
13/04/2023 03:06 PMMessaoudi Hafedh , Mohamed
Hichem3
IntroductionSystèmes de
reconnaissance de l’écriture
Aspect méthodologique
Aspect techniqueIntroduction
Systèmes de reconnaissance de l’écriture
Aspect méthodologiqu
e
Aspect technique
Conclusion
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 4
• Deux types de reconnaissance– Reconnaissance en ligne:
• Reconnaissance en temps réel du texte à partir de la trajectoire du stylo
• Données sous forme de signal
– Reconnaissance hors ligne:• Reconnaissance statique d’images • Absence d’informations temporelles
Reconnaissance hors ligne est plus difficile (moins d’informations)
Introduction
Systèmes de reconnaissance de l’écriture
Aspect méthodologiqu
e
Aspect technique
Conclusion
Types de reconnaissance de l’écriture manuscrite
Prétraitement• Dilatation
• Normalisation• …
Extraction des caractéristiques
Reconnaissance
13/04/2023 03:06 PMMessaoudi Hafedh , Mohamed
Hichem5
7تطاوين نوفمبر
Introduction
Systèmes de reconnaissance de l’écriture
Aspect méthodologiqu
e
Aspect technique
Conclusion
Etapes de reconnaissance
Extraction des caractéristiques
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 6
Primitives DescriptionH HampeJ JambageB BoucleP Point diacritique au-dessus
du corps du motQ point diacritiQue au-
dessous du corps du mot
RRien des primitives ci-dessus
D, M, F, I Position des primitives dans le mot (D : Début, M : Milieu, F : Fin, I : Isolé)
PAW Piece of Arabic Word
Introduction
Systèmes de reconnaissance de l’écriture
Aspect méthodologiqu
e
Aspect technique
Conclusion
Caractérisation de l’écriture arabe
ار
هت
ب
شـ ـش ـشـ ش
نستو
د
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 7
• Réseau de Neurones Transparent – Descripteurs de Fourier
Mot
à
reco
nnaî
tre
Couche des
primitives
Mot
reconnu
Couche des lettres
Couche des PAWs
Couche des mots
Introduction
Systèmes de reconnaissance de l’écriture
Aspect méthodologiqu
e
Aspect technique
Conclusion
Système RNT-DF: Architecture
: Propagation
: Retropropagation
HJ
B
P
…
أ
و
ت…
نستو
منز…
تونس
منزل
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 8
• Méthode existante:– Toute boucle détectée au dessus de la ligne
supérieure ou au dessous de la ligne inférieure est un point diacritique
Introduction
Systèmes de reconnaissance
de l’écriture
Aspect méthodologiqu
e
Aspect technique
Conclusion
Détection des points diacritiques
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 9
Observation
Ligne supérieure
Ligne inférieure
Ligne de base
Boucle au dessus de la ligne supérieure
Point diacritique entre ligne inférieure et supérieure
Boucle au dessus de la ligne supérieure
Mauvaise détection Bonne détection Non détection
Introduction
Systèmes de reconnaissance
de l’écriture
Aspect méthodologique
Aspect technique
Conclusion
Détection des points diacritiques
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 10
Observation
Mauvaise détection Bonne détection
Boucle au dessus de la ligne supérieure
Introduction
Systèmes de reconnaissance
de l’écriture
Aspect méthodologique
Aspect technique
Conclusion
Détection des points diacritiques
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 11
Si (largeur > hauteur)rapport = largeur / hauteur
Sinonrapport = hauteur / largeur
La boucle est considérée proportionnelle si rapport < seuil
Nombre de points de contourRemplissage interneProportionnalité de
la formeProportionnalité de
la forme Remplissage interne Nombre de points de contour
Traitement
Nombre Point de contours < Seuil
Introduction
Systèmes de reconnaissance
de l’écriture
Aspect méthodologique
Aspect technique
Conclusion
Détection des points diacritiques
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 12
Observation
Nombre PAWS correct = 5
Nombre de PAWs détectés = 6
Nombre PAWS correct = 8
Nombre de PAWs détectés = 10
Introduction
Systèmes de reconnaissance
de l’écriture
Aspect méthodologique
Aspect technique
Conclusion
Estimation du nombre des PAWs
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 13
Traitement
Un PAW est éliminé si:
Sa largeur est supérieure à sa hauteur
ETSon plus haut point est au dessous de la ligne inférieure - une marge
Son plus bas point est au dessus de la ligne supérieure + une marge
OU
Introduction
Systèmes de reconnaissance
de l’écriture
Aspect méthodologique
Aspect technique
Conclusion
Estimation du nombre des PAWs
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 14
Observation et traitement
Détection des hampes à partir de maximums
locaux
Introduction
Systèmes de reconnaissance
de l’écriture
Aspect méthodologique
Aspect technique
Conclusion
Détection des hampes
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 15
Introduction
Systèmes de reconnaissance
de l’écriture
Aspect méthodologique
Aspect technique
Conclusion
Impact sur le taux de reconnaissance
Mot reconnu
Ancien taux: 13%
Nouveau Taux: 18%
Le pourcentage des taux est par rapport à 6500 images traitées
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 16
– Langage de programmation : C++– Approche fonctionnelle – Interface en MFC
Présentation techniqueDescription des modules d’IKRAA
IntroductionSystèmes de
reconnaissance de l’écriture
Aspect méthodologique
Aspect techniqueIntroduction
Systèmes de reconnaissance de l’écriture
Aspect méthodologiqu
e
Aspect technique
Conclusion
Nom du fichier Nombre lignes de code
Nombre de fonctions
Nombre de types de données
Nombre de variables
Rôle
ImageBMP.h 36 2 5 53 Saisie des images
LectureLoop1.cpp
2268 48 5 260 Extraction des primitives
MainFrm.cpp 1120 25 5 96 Programme principal
Normalisation1.h
564 13 4 5 Normalisation par DF
Pretraitement1.h
137 1 3 8 Prétraitement
RNT_Recognition_Words1.cp
p
1030 59 6 154 Fonctionnement du RNT-DF
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 17
Problème de Fuites de mémoire
Utilisation de matrices de grandes taille
Certaines matrices vivent dans plusieurs fonctions
Les pointeurs en C sont difficiles à gérer
Nécessité de gestion avancée de la désallocation de ces matrices
Solution
Gestion centralisé de la mémoire en s’inspirant du Pattern du « Garbage Collector »
Stockage des pointeurs sur matrices dans une liste afin de les libérer ultérieurement
Impact
Introduction
Systèmes de reconnaissance
de l’écriture
Aspect méthodologiqu
e
Aspect technique
Conclusion
Problème de mémoire
Traitement de 32 000 images à la fois en un temps réduit à 20h, comparé au fonctionnement initial du système qui ne
traitait que 100 images à la fois
Faciliter la tâche d’évaluation du système qui allait jusqu’à prendre des jours voire des semaines
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 18
• Observation– Généralement causé par les fonctions récursives– Certaines fonctions de l’application font appels à elles
mêmes plus de 10000 fois– Impossible de traiter les images dont le nombre de pixels
dépasse 30000 pixels.
• Solution– Convertir les fonctions récursives en itératives
• Impact– Traitement d’image allant jusqu’à (10 000 x 10 000) pixels
Stack Overflow
Introduction
Systèmes de reconnaissance
de l’écriture
Aspect méthodologiqu
e
Aspect technique
Conclusion
Autres problèmes
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 19
MFC
Technologie obsolète
Utilisation exclusive de Visual Studio
Modèle événementiel complexe : utilisation de boucle
d’évènements (messages)
Présence obligatoire de la DLL MFC42.dll pour fonctionner
GTK
Simplicité et rapidité
Open Source, multiplateforme
Modèle événementielle Callback/listener
Autres problèmes
Introduction
Systèmes de reconnaissance
de l’écriture
Aspect méthodologiqu
e
Aspect technique
Conclusion
Interfaces
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 20
Démonstration
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 21
• Ce projet nous a permis de – Avoir une expérience dans le domaine du
traitement d’image et de la reconnaissance de l’écriture manuscrite
– Manipuler un système à réseaux de neurones• Ce présent projet a été présenté dans un
workshop en Mars à Sousse dans le cadre des travaux de collaboration effectués entre l’ENIS l’ENIT et l’IFN allemande
IntroductionSystèmes de
reconnaissance de l’écriture
Aspect méthodologique
Aspect techniqueIntroduction
Systèmes de reconnaissance de l’écriture
Aspect méthodologiqu
e
Aspect technique
Conclusion
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 22
• Perspectives– Améliorer les résultats d’extraction de
caractéristiques– Ajouter des étapes de prétraitement (exemple:
squelettisation)– Transformer l’application en P.O.O.– Avoir de bons résultats lors de la première
participation arabe et tunisienne dans la compétition ICDAR dans le domaine de la reconnaissance de l’écriture arabe manuscrite
IntroductionSystèmes de
reconnaissance de l’écriture
Aspect méthodologique
Aspect techniqueIntroduction
Systèmes de reconnaissance de l’écriture
Aspect méthodologiqu
e
Aspect technique
Conclusion
13/04/2023 03:06 PM Messaoudi Hafedh , Mohamed Hichem 23
Merci pour votre attention