Microsoft Word мто-25 2016-1 Журнал
Download 434.28 Kb. Pdf ko'rish
|
metody-raspoznavaniya-teksta-na-uzbekskom-yazyke-na-osnove-kletochnyh-avtomatov
- Bu sahifa navigatsiya:
- Ахатов А.Р., д.т.н. Самаркандский филиал Ташкентского университета информационных технологий, г.Самрканд, Узбекистан Туркменова Р.Т.
СОВРЕМЕННЫЕ МАТЕРИАЛЫ, ТЕХНИКА И ТЕХНОЛОГИИ, №1 (4), 2016 215 УДК: 658.512.011 МЕТОДЫ РАСПОЗНАВАНИЯ ТЕКСТА НА УЗБЕКСКОМ ЯЗЫКЕ НА ОСНОВЕ КЛЕТОЧНЫХ АВТОМАТОВ Туркменова Рухие Тохировна , магистрант (e-mail: ruha.5202155@yandex.ru) Нучный руководитель: Ахатов А.Р., д.т.н. Самаркандский филиал Ташкентского университета информационных технологий, г.Самрканд, Узбекистан Туркменова Р.Т. МЕТОДЫ РАСПОЗНАВАНИЯ ТЕКСТА НА УЗБЕКСКОМ ЯЗЫКЕ НА ОСНОВЕ КЛЕТОЧНЫХ АВТОМАТОВ В статье рассматривается использование метода клеточных автома- тов в распознавании текста на узбекском языке на основе алгоритмов выделения пересечений, концов и петель символа, выделения конечных то- чек и пересечений. Ключевые слова: клеточные автоматы, распознавание, изображение, признаки символов, алгоритмы, выделение конечных точек, выделение пе- ресечения. В век информационных технологий, так называемый «информационный взрыв» или рост диспропорции между объёмом информации, произведён- ной человечеством, и объёмом информации, которую люди способны по- требить и усвоить, не маловажной проблемой является как точность ин- формации, ее подача и оформление, так и грамматическая «правильность» подачи информации или достоверность передачи сообщения. От досто- верности информации зависит работа информационных систем, правиль- ная работа предприятий и др. достоверность информации зачастую снижа- ется при ошибках, допускаемых человеком, машиной, сбоями связи, по- грешностями в распознавании. При обработке большого количества ин- формации. например в системах электронного документооборота, часто встречаются орфографические ошибки.[1] Обнаружение ошибок в контексте напрямую связанно с применением методов распознавания, когда контролируемые участки текста необходимо выделить и сверить с эталонными образцами, хранящимися в базах данных соответствующих информационных систем. Одним из сложнейших разделов области распознавания образов являет- ся область распознавания текста. Известно множество методик для распо- знавания текста. Одной из них является методика распознавания текста методом клеточных автоматов. Клеточные автоматы являются дискретными динамическими систе- мами, поведение которых полностью определяется в терминах локаль- ных зависимостей. Пространство представлено равномерной сеткой, каж- дая ячейка или клетка которой содержит несколько битов данных; любая клетка на каждом шаге вычисляет своё новое состояние по со- стояниям её близких соседей. Методы вычисления в такой системе явля- ются локальными и повсюду одинаковыми.[2] 216 СОВРЕМЕННЫЕ МАТЕРИАЛЫ, ТЕХНИКА И ТЕХНОЛОГИИ, №1 (4), 2016 До процесса выделения признаков символов в программе распознавания текстов, необходимо решить несколько задач: необходимо изображение текста обработать от шума, привести его в состояние, которое позволяет выполнить условия алгоритмов распознавания, и выделить из него от- дельные изображения и признаки символов. Каждый символ текста, в частности на узбекском языке, имеет свои уникальные признаки. Данные признаки уникальным образом отлича- ют символы друг от друга. Символы текста имеют большое число признаков: положение и наклон линий, дуг, наличие петель, вертикальных – горизонтальных линий, вы- ступы и их наклон, пересечения. Основными признаками можно считать выступы, петли и пересечения, а также их взаимное расположение. После обработки и фильтрации выделяются признаки символов. После этого предполагается процесс классификации, который на основании по- лученных признаков определит название символа. Классификация наибо- лее часто основывается на методы, которые на основе накопленной информации о признаках определяют символ. Система распознавания предполагает наличие блока обучения. Обуче- ние системы напрямую связано с классификацией, оно позволяет из- менять и поправлять коэффициенты на основе ассоциации результата классификации с названием символа. Клеточные автоматы также участвуют в процессе классификации при- знаков. Идеей классификации служит создание характерного клеточного автомата для каждого признака и его коррекция, с учетом определен- ных признаков в процессе обучения. Формально клеточный автомат можно определить как набор {G, Z, N, f}, где G – метрика поля, на котором действует клеточный автомат; Z – множество состояний каждой клетки; N – окрестность клетки, которая влияет на состояние данной клет- ки; f – правила клеточного автомата, которые в математическом виде могут быть записано х | | → Свойствами клеточного автомата являются: локальность правил, од- нородность системы, конечность множества состояний клетки, одно- временность изменений для всех клеток. Так как, основными элементами символов являются петли, пересече- ния, положение концов, то по этим элементам проводится сегментация и идентификация изображения, соотнесение с конкретным символом. Существует множество стратегий выделения описанных признаков на основе клеточных автоматов. Ниже описаны две таких стратегии, ко- торые используют клеточные автоматы с метками. [3] СОВРЕМЕННЫЕ МАТЕРИАЛЫ, ТЕХНИКА И ТЕХНОЛОГИИ, №1 (4), 2016 217 Рис. 1. Схема работы последовательности клеточных автоматов для первого алгоритма выделения признаков символов 218 СОВРЕМЕННЫЕ МАТЕРИАЛЫ, ТЕХНИКА И ТЕХНОЛОГИИ, №1 (4), 2016 Download 434.28 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling