optical character recognition (clairvoyan). Распознавание образов

8
_______________________________________________________________________________ ООО «ГЕРСИС СОФТВЕР» ул. Жиновича 21-194, 220055, г. Минск, Республика Беларусь Проект « Clairvoyant » («Ясновидящий») Технологиям распознавания текстовых образов (OCR) уделяется повышенное внимание в среде разработчиков и ученых с начала развития области машинного зрения. Причиной этого является множество сфер их потенциального применения (практическая мотивация), а задача распознавания – одна из классических в контексте искусственного интеллекта (творческая). Проект « Clairvoyant » («Ясновидящий») базируется на перспективном подходе белорусских разработчиков к построению универсальных классификаторов текстовых образов с использованием сверточных нейронных сетей (далее CNN). В его основе лежит формирование комитетов CNN, обученных на образах различного масштаба, с последующей селекцией членов. Результаты экспериментов с использованием стандартных печатных и рукописных баз показали, что созданные классификаторы более эффективны, чем коммерческие системы. В ходе исследований: 1.Накоплен большой объем информации в форме моделей классификаторов, методов выделения признаков. 2.Созданы работающие приложения, способные распознавать различные документы (например: система обработки банковских чеков). Разработано программное обеспечение для обучения сверточных нейронных сетей (CNN) распознающих рукописные (и печатные) графические образы символов – цифр, заглавных и строчных букв. 3.Проведены эксперименты, показавшие возможность достижения точности распознавания, сравнимой с человеческой на отдельных тестовых множествах. Достигнута уникальная точность распознавания: Тестирование на стандартной базе рукописных цифр MNist 2-й результат в мире – 99.64% распознавания. Тестирование на подмножестве заглавных букв стандартной базы латинских букв Nist – лучший, из известных процент распознавания – 98.17%. для строчных букв стандартной базы латинских букв ожидаемый процент будет в районе 97-98%. В рамках проекта « Clairvoyant » активно разрабатываются приложения в двух наиболее перспективных направлениях:

Upload: gersis-software

Post on 21-Jun-2015

77 views

Category:

Science


0 download

DESCRIPTION

Распознавание образов.

TRANSCRIPT

Page 1: Optical character recognition (Clairvoyan). Распознавание образов

_______________________________________________________________________________ООО «ГЕРСИС СОФТВЕР»ул. Жиновича 21-194, 220055, г. Минск, Республика Беларусь

Проект «Clairvoyant» («Ясновидящий»)

Технологиям распознавания текстовых образов (OCR) уделяется повышенное внимание в среде разработчиков и ученых с начала развития области машинного зрения. Причиной этого является множество сфер их потенциального применения (практическая мотивация), а задача распознавания – одна из классических в контексте искусственного интеллекта (творческая).

Проект «Clairvoyant» («Ясновидящий») базируется на перспективном подходе белорусских разработчиков к построению универсальных классификаторов текстовых образов с использованием сверточных нейронных сетей (далее CNN). В его основе лежит формирование комитетов CNN, обученных на образах различного масштаба, с последующей селекцией членов. Результаты экспериментов с использованием стандартных печатных и рукописных баз показали, что созданные классификаторы более эффективны, чем коммерческие системы.

В ходе исследований:

1. Накоплен большой объем информации в форме моделей классификаторов, методов выделения признаков.

2. Созданы работающие приложения, способные распознавать различные документы (например: система обработки банковских чеков). Разработано программное обеспечение для обучения сверточных нейронных сетей (CNN) распознающих рукописные (и печатные) графические образы символов – цифр, заглавных и строчных букв.

3. Проведены эксперименты, показавшие возможность достижения точности распознавания, сравнимой с человеческой на отдельных тестовых множествах.

Достигнута уникальная точность распознавания:

Тестирование на стандартной базе рукописных цифр MNist 2-й результат в мире – 99.64% распознавания.

Тестирование на подмножестве заглавных букв стандартной базы латинских букв Nist – лучший, из известных процент распознавания – 98.17%.

для строчных букв стандартной базы латинских букв ожидаемый процент будет в районе 97-98%.

В рамках проекта «Clairvoyant» активно разрабатываются приложения в двух наиболее перспективных направлениях:

«Clairvoyant forms» («Ясновидящий анкет») – приложение для системы документооборота предприятия по распознаванию печатного и рукописного текста различных документов.

«Clairvoyant car numbers» («Ясновидящий автомобильных номеров») – приложение по распознаванию автомобильных номеров.

Page 2: Optical character recognition (Clairvoyan). Распознавание образов

Функциональные особенности приложения «Clairvoyant forms»

Особый фокус внимания - распознавание не только печатных, но и рукописных символов.

Решает задачи массового ввода документов (данные анкет, акций и опросов) с отсканированного изображения и проверки правильности введенных данных.

Может быть встроен в систему управления документооборотом предприятия. Обеспечено шифрование информации для защиты персональных данных. Возможна реализация оффлайн, онлайн, а также облачного приложения.

* Первый вариант предпочтителен в сферах деятельности, где необходимо обрабатывать большое количество рукописных документов. Качество распознавания повышается использованием структурированных документов (форм) и уменьшением диапазона возможных вводимых символов.

Наиболее перспективные области и сферы применения приложения «Clairvoyant forms»:

1. Документооборот : Программные системы для потокового ввода данных и документов, содержащих рукописную информацию, автоматизирующие извлечение информации из бумажных документов и сохранения данных в информационной системе предприятия.

2. Банковская и финансовая сферы, страхование, ЖКХ, администрация, таможенные, почтовые, нотариальные и юридические услуги, рассчётно-кассовое обслуживание и др.: приложения по распознаванию символов в анкетах банков и финансовых организациях; прием страховых заявлений; прием квитанций о коммунальных и иных платежей; прием заявлений граждан в организациях самоуправления и обслуживания жилого фонда; регистрация населения в паспортных столах и на таможне; прием запросов в коммерческих фирмах, предоставляющих услуги; регистрационные палаты различных видов; прием всех видов заявлений и анкет в кадровых агентствах, учебных заведениях, военных комиссариатах и т. д.; обработка почтовых отправлений; подготовка документов в нотариальных конторах; прием таможенных деклараций; прием визовых заявлений; и т.п.

Преимущества приложения «Clairvoyant forms» для Заказчика:1. Разработка эксклюзивна и дешевле существующих зарубежных аналогов. Экономия

на кастомизированной разработке под конкретные нужды заказчика, с возможностью доработок с учётом изменяющихся потребностей и экономических реалий. Не нужно ежегодно покупать лицензии на пользование программой и ограничивать себя в количестве пользователей и числе обрабатываемых документов.

2. Обеспечивает высокую точность распознавания. Качество распознавания раздельных рукописных символов кириллического алфавита превышает 80%. Возможна адаптация системы к требованиям заказчика в отношении процента вероятности ошибки. В частности, в случаях, когда есть необходимость гарантировать крайне высокое качество (вероятность ошибки распознавания слова менее 1:100), возможно выполнение настройки системы, когда однозначно будут распознаваться только те поля/анкеты, где необходимое качество может быть гарантировано, например, в полях анкет с ограниченным перечнем значений. Остальные документы/части документов могут отдаваться на проверку пользователю после выполнения распознавания или вообще передаваться на ручной ввод.

3. Экономия на затратах по распознаванию документов (сокращение времени ввода данных до нескольких секунд).

4. Избавление от человеческого фактора и сопряжённых с ним ошибок.5. Сохраняет конфиденциальность вводимой информации.

Функциональные особенности приложения «Clairvoyant car numbers»2

_________________________________________________________________________________________________________Общество с ограниченной ответственностью «ГЕРСИС СОФТВЕР», УНП 191022662, ОКПО 378075365000

ул. Жиновича 21-194, 220055, Беларусь Тел.: +375 (17) 396 51 96, http://www.gersis-software.com, http://www.gersis-software.ru/ru/

р/счет 3012084330010 в ЦБУ 3 ЗАО «МТБанк», код 117, г. Минск, ул. Короля 51

Page 3: Optical character recognition (Clairvoyan). Распознавание образов

Основное внимание уделяется распознаванию автомобильных номеров.На данный момент, в РБ отсутствует какая-либо отечественная система распознавания автомобильных номеров.

Сфера применения: приложения для ГАИ и МВД; на проходных предприятий (регистрация + соответствующая БД) в организации

системы безопасности; в автопарках, автостоянках и т.п.

Преимущества нейросетевого распознавания в «Clairvoyant car numbers»:1. Нейросетевое распознавание предпочтительнее для использования на достаточно

искаженных (например, из-за погодных условий) изображениях.2. Алфавит, как правило, ограничивается цифрами и подмножеством заглавных букв.

Автоматическое распознавание автомобильных номеров выше 90%.

Заключение:Методика создания комитетов CNN, обученных на разных масштабах образов, и их

селекция позволили достичь уникальной точности распознавания тестового MNIST и заглавных букв NIST. Перспективными направлениями продолжения исследования является регуляризация множеств образов, развитие архитектуры CNN и их комитетов.

Примеры применения системы «Clairvoyant».

Рисунок 1. Распознавание автомобильных номеров.

Рисунок 2. Распознавание плакатных текстов.

Рисунок 3. Распознавание полей документов.3

_________________________________________________________________________________________________________Общество с ограниченной ответственностью «ГЕРСИС СОФТВЕР», УНП 191022662, ОКПО 378075365000

ул. Жиновича 21-194, 220055, Беларусь Тел.: +375 (17) 396 51 96, http://www.gersis-software.com, http://www.gersis-software.ru/ru/

р/счет 3012084330010 в ЦБУ 3 ЗАО «МТБанк», код 117, г. Минск, ул. Короля 51

Page 4: Optical character recognition (Clairvoyan). Распознавание образов

Рисунок 4. Распознавание анкет»

Примечание: Программа позволяет выбрать из множества различных файлов и документов в общей папке анкеты нужного формата для автоматического распознавания. Она создаёт формат шаблона анкет и сортирует анкеты нужного формата в отдельной папке. Приложение способно находить блоки с текстом, которые можно редактировать, удалять или добавлять произвольную область, логотипы, изображения. Система распознаёт текст и сравнивает его с ожидаемым для данного вида анкет, находит изображение/ картинку уникальную для данного шаблона анкеты. Так обеспечивается возможность сравнения и сортировки анкет.

4_________________________________________________________________________________________________________

Общество с ограниченной ответственностью «ГЕРСИС СОФТВЕР», УНП 191022662, ОКПО 378075365000ул. Жиновича 21-194, 220055, Беларусь Тел.: +375 (17) 396 51 96,

http://www.gersis-software.com, http://www.gersis-software.ru/ru/ р/счет 3012084330010 в ЦБУ 3 ЗАО «МТБанк», код 117, г. Минск, ул. Короля 51

Page 5: Optical character recognition (Clairvoyan). Распознавание образов

Рисунок 5. Распознавание поля имя в анкетах.

Примечание:Программа нужна для автоматического распознавания имени в анкете.Она сначала выравнивает анкету, находит и выделяет поле «Имя», затем выделяет и распознаёт буквы, сверяет имя со словарём имён и выдаёт распознанный результат. На правой боковой панели инструментов высвечивается коэффициент, характеризующий совпадение/близость изображения к определённым буквам алфавита. Сверка распознанных букв со словарём имен существенно повышает качество распознавания.

5_________________________________________________________________________________________________________

Общество с ограниченной ответственностью «ГЕРСИС СОФТВЕР», УНП 191022662, ОКПО 378075365000ул. Жиновича 21-194, 220055, Беларусь Тел.: +375 (17) 396 51 96,

http://www.gersis-software.com, http://www.gersis-software.ru/ru/ р/счет 3012084330010 в ЦБУ 3 ЗАО «МТБанк», код 117, г. Минск, ул. Короля 51