Сравнительный анализ методов машинного обучения для решения задачи классификации документов научно-образовательного учреждения


Download 0.6 Mb.
Pdf ko'rish
bet6/12
Sana11.05.2023
Hajmi0.6 Mb.
#1453201
1   2   3   4   5   6   7   8   9   ...   12
Bog'liq
2018-03-19

Анализ предметной области. Документы 
в научно-образовательном учреждение могут 
сильно отличаются по структуре и размеру 
в зависимости от направленности деятель-
ности организации, в рамках которых они 
существуют. Документы могут быть как до-
статочно небольшими по размеру (служеб-
ные записки, выписки, счета), так и включать 
несколько сотен страниц (коллективные за-
писки, дипломные проекты), а их структура 
может быть как жестко заданной, так и пол-
ностью произвольной. Данные особенности 
крайне негативно влияют на точность и ско-
рость классификатора.
Анализ множества документов. На дан-
ном этапе осуществляется формализация 
структуры информационных потоков в виде 
наглядной математической модели докумен-
тооборота. Представим данную математиче-
скую модель 
M
в кортежном виде [28]:
( , , )
,
M U P O
S
=
(1)
где 
{ |
1.. }
i
U
u i
nU
=
=
– множество объектов 
документооборота – документов
nU
– об-
щее количество объектов;
{ |
1.. }
q
P
p q
nP
=
=
– множество пользова-
телей, 
nP
– общее количество пользователей;
Рис. 1. Алгоритм классификации документов научно-образовательного 
учреждения на основе машинного обучения


177
ВЕСТНИК ВГУ, СЕРИЯ: СИСТЕМНЫЙ АНАЛИЗ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, 2018, № 3
Сравнительный анализ методов машинного обучения …
{ |
1.. }
l
O
o l
nO
=
=
– множество операций, 
выполняемых над документом, 
nO
общее 
их количество;
( , , )
S
U P O
=
– структура документообо-
рота организации.
Используя данную математическую мо-
дель, мы можем формализовать информаци-
онные потоки организации, а также описать 
внутреннюю структуру документов, которую 
представим в виде упорядоченных пар атри-
бутов документа и их значений:
{( , ) ,
1... ,
}
i
ik
ik
i
k
u
a d
nA
=
=
(2)
где 
ik
a
– атрибут, 
ik
d
его значение
i
nA
– об-
щее количество атрибутов.
Среди всех атрибутов для решения задачи 
классификации самую большую роль играет 
его содержание – текст.

Download 0.6 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   12




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling