Сравнительный анализ методов машинного обучения для решения задачи классификации документов научно-образовательного учреждения
Download 0.6 Mb. Pdf ko'rish
|
2018-03-19
МАТЕРИАЛЫ И МЕТОДЫ
ИССЛЕДОВАНИЙ Классификация документов – одна из за- дач информационного поиска, заключающа- яся в определении документа к одной из не- скольких категорий на основании его содер- жания. Классификация может осуществлять- ся вручную либо автоматически с помощью набора правил или применением методов машинного обучения. Следует отличать классификацию текстов от кластеризации. В кластеризации тексты также группируются по некоторым критери- ям, но данные критерии и конечные катего- рии заранее не известны. Существуют три подхода к решению зада- чи классификации текстов: обучение с учите- лем, обучение без учителя и обучение с под- креплением. Одним из популярных подходов, представляющий наибольший интерес, яв- ляется классификация на основе машинного обучения. В данном подходе производится обучение классификатора (системы наиме- нований объектов, каждому из которых со- ответствует уникальный идентификатор) на наборе исходных обучающих данных в виде документов с заданными для них значениями категорий [24]. Под обучающими данными будем пони- мать некоторое количество образцов доку- ментов из каждого класса, позволяющее с достаточной точностью выделить конкрет- ную категорию. Отметим, что в машинном обучении сохраняется необходимость руч- ной разметки (указания классов докумен- тов), что, тем не менее, является более про- стой задачей, чем написание системы правил. Приведем пример такой разметки, которая может производиться даже в процессе функ- ционирования системы: в электронной почте может существовать возможность помечать письма как спам, тем самым формируя об- учающее множество для классификатора – фильтра нежелательных сообщений. Таким образом, классификация текстов, основанная на машинном обучении, является примером обучения с учителем, где в роли учителя вы- ступает человек, задающий набор классов и размечающий обучающее множество [25, 26]. Итак, несмотря на огромное количество методов, подходов и технологий машинного обучения, используемые для решения зада- чи классификации документов, особенности предметной области, в которой реализуются данные технологии, накладывают свою огра- ничения и требования. В рамках данной ста- тьи мы рассматриваем применение машинно- го обучения для классификации документов научно-образовательного учреждения. Для решения поставленной задачи максимально эффективно необходимо разработать мето- 176 ВЕСТНИК ВГУ, СЕРИЯ: СИСТЕМНЫЙ АНАЛИЗ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, 2018, № 3 М. Н. Краснянский, А. Д. Обухов, Е. М. Соломатина, А. А. Воякина дику, в соответствие с которой будет осу- ществляться процесс обработки докумен- тов, машинного обучения и классификации (рис. 1). Представленный алгоритм формали- зует процесс классификации документов на- учно-образовательного учреждения и позво- ляет за счет декомпозиции исходной задачи на ряд более простых подзадач распаралле- лить и ускорить процесс классификации до- кументов [27]. Рассмотрим каждый из этапов представ- ленного алгоритма более подробно: Download 0.6 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling