Microsoft Word мто-25 2016-1 Журнал


Download 434.28 Kb.
Pdf ko'rish
bet1/3
Sana11.05.2023
Hajmi434.28 Kb.
#1454650
  1   2   3
Bog'liq
metody-raspoznavaniya-teksta-na-uzbekskom-yazyke-na-osnove-kletochnyh-avtomatov



СОВРЕМЕННЫЕ МАТЕРИАЛЫ, ТЕХНИКА И ТЕХНОЛОГИИ, №1 (4), 2016 215
УДК: 658.512.011 
МЕТОДЫ РАСПОЗНАВАНИЯ ТЕКСТА НА УЗБЕКСКОМ ЯЗЫКЕ 
НА ОСНОВЕ КЛЕТОЧНЫХ АВТОМАТОВ 
Туркменова Рухие Тохировна
, магистрант 
(e-mail: ruha.5202155@yandex.ru) 
Нучный руководитель: 
Ахатов А.Р., 
д.т.н. 
Самаркандский филиал Ташкентского университета информационных 
технологий, г.Самрканд, Узбекистан 
Туркменова Р.Т. 
МЕТОДЫ РАСПОЗНАВАНИЯ ТЕКСТА НА УЗБЕКСКОМ ЯЗЫКЕ НА ОСНОВЕ КЛЕТОЧНЫХ АВТОМАТОВ 
В статье рассматривается использование метода клеточных автома-
тов в распознавании текста на узбекском языке на основе алгоритмов 
выделения пересечений, концов и петель символа, выделения конечных то-
чек и пересечений. 
Ключевые слова: клеточные автоматы, распознавание, изображение, 
признаки символов, алгоритмы, выделение конечных точек, выделение пе-
ресечения. 
В век информационных технологий, так называемый «информационный 
взрыв» или рост диспропорции между объёмом информации, произведён-
ной человечеством, и объёмом информации, которую люди способны по-
требить и усвоить, не маловажной проблемой является как точность ин-
формации, ее подача и оформление, так и грамматическая «правильность» 
подачи информации или достоверность передачи сообщения. От досто-
верности информации зависит работа информационных систем, правиль-
ная работа предприятий и др. достоверность информации зачастую снижа-
ется при ошибках, допускаемых человеком, машиной, сбоями связи, по-
грешностями в распознавании. При обработке большого количества ин-
формации. например в системах электронного документооборота, часто 
встречаются орфографические ошибки.[1] 
Обнаружение ошибок в контексте напрямую связанно с применением 
методов распознавания, когда контролируемые участки текста необходимо 
выделить и сверить с эталонными образцами, хранящимися в базах данных 
соответствующих информационных систем. 
Одним из сложнейших разделов области распознавания образов являет-
ся область распознавания текста. Известно множество методик для распо-
знавания текста. Одной из них является методика распознавания текста 
методом клеточных автоматов.
Клеточные автоматы являются дискретными динамическими систе-
мами, поведение которых полностью определяется в терминах локаль-
ных зависимостей. Пространство представлено равномерной сеткой, каж-
дая ячейка или клетка которой содержит несколько битов данных;
любая клетка на каждом шаге вычисляет своё новое состояние по со-
стояниям её близких соседей. Методы вычисления в такой системе явля-
ются локальными и повсюду одинаковыми.[2]


216 СОВРЕМЕННЫЕ МАТЕРИАЛЫ, ТЕХНИКА И ТЕХНОЛОГИИ, №1 (4), 2016
До процесса выделения признаков символов в программе распознавания 
текстов, необходимо решить несколько задач: необходимо изображение
текста обработать от шума, привести его в состояние, которое позволяет 
выполнить условия алгоритмов распознавания, и выделить из него от-
дельные изображения и признаки символов.
Каждый символ текста, в частности на узбекском языке, имеет свои 
уникальные признаки. Данные признаки уникальным образом отлича-
ют символы друг от друга. 
Символы текста имеют большое число признаков: положение и наклон 
линий, дуг, наличие петель, вертикальных – горизонтальных линий, вы-
ступы и их наклон, пересечения. Основными признаками можно считать 
выступы, петли и пересечения, а также их взаимное расположение.
После обработки и фильтрации выделяются признаки символов. После
этого предполагается процесс классификации, который на основании по-
лученных признаков определит название символа. Классификация наибо-
лее часто основывается на методы, которые на основе накопленной
информации о признаках определяют символ.
Система распознавания предполагает наличие блока обучения. Обуче-
ние системы напрямую связано с классификацией, оно позволяет из-
менять и поправлять коэффициенты на основе ассоциации результата 
классификации с названием символа. 
Клеточные автоматы также участвуют в процессе классификации при-
знаков. Идеей классификации служит создание характерного клеточного
автомата для каждого признака и его коррекция, с учетом определен-
ных признаков в процессе обучения.
Формально клеточный автомат можно определить как набор
{G, Z, N, f}, 
где G – метрика поля, на котором действует клеточный автомат;
Z – множество состояний каждой клетки;
N – окрестность клетки, которая влияет на состояние данной клет-
ки;
f – правила клеточного автомата, которые в математическом виде 
могут быть записано
х
| |

Свойствами клеточного автомата являются: локальность правил, од-
нородность системы, конечность множества состояний клетки, одно-
временность изменений для всех клеток. 
Так как, основными элементами символов являются петли, пересече-
ния, положение концов, то по этим элементам проводится сегментация 
и идентификация изображения, соотнесение с конкретным символом. 
Существует множество стратегий выделения описанных признаков на 
основе клеточных автоматов. Ниже описаны две таких стратегии, ко-
торые используют клеточные автоматы с метками. [3] 


СОВРЕМЕННЫЕ МАТЕРИАЛЫ, ТЕХНИКА И ТЕХНОЛОГИИ, №1 (4), 2016 217
Рис. 1. Схема работы последовательности клеточных автоматов
для первого алгоритма выделения признаков символов 


218 СОВРЕМЕННЫЕ МАТЕРИАЛЫ, ТЕХНИКА И ТЕХНОЛОГИИ, №1 (4), 2016

Download 434.28 Kb.

Do'stlaringiz bilan baham:
  1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling