Vest 8(91) 2014г в кривых


Download 1.78 Mb.
Pdf ko'rish
bet1/6
Sana04.05.2023
Hajmi1.78 Mb.
#1426184
  1   2   3   4   5   6
Bog'liq
problemy-ispolzovaniya-terminov-i-definitsiy-v-zakonodatelstve-o-transportnoy-bezopasnosti



Гуманитарные науки 
ВЕСТНИК ИрГТУ №8 (91) 2014
243 
тема, идея, слово, вещь, жизнь, стиль, работа, мо-
дель, группа, команда); спектакль (выступление, кон-
церт, сцена, театр); ролик (клип); фотография (но-
вость, картинка, запись); серия (версия). Очевидно, 
что для дальнейшего исследования необходима 
фильтрация некоторых многозначных слов, использо-
вание которых приведет к большому шуму.
Затем были построены частотные сочетания при-
лагательных и существительных из тезаурусной груп-
пы. В рамках данного эксперимента мы ограничились 
тремя словами (фильм, кинофильм, кино). После уда-
ления низкочастотных слов получилось три списка 
прилагательных (2307, 596 и 1087). Число общих слов 
для всех списков составило 170. После фильтрации 
мы получили единый список в 1514 оценочных слов.
В ходе анализа неоценочных слов выявлены сле-
дующие ошибки: парсинга html (отделяется окончание 
слова, стоящее после дефиса или тире, например, –
ское, остающиеся непечатные символы, например, 
n
bspфантастичекое); и ошибки нормализации значе-
ний несловарных прилагательных (например, голли-
вудским, голливудских, голливудского, голливудском). 
Таким образом, встает необходимость увеличения 
точности работы морфологического анализа слов, 
отсутствующих в словаре, для русскоязычных текстов. 
В результате анализа ошибок методики выявлено, 
что фильтрацию низкочастотных слов необходимо 
проводить после повторной лемматизации с примене-
нием морфоанализатора, отличающегося от исполь-
зуемого в системе TreeTagger. После повторной лем-
матизации целесообразно произвести пересчет ча-
стот. Относительно небольшой объем словаря в 
дальнейшем предлагается увеличить за счет сниже-
ния частотного порога до четырех вхождений в колло-
кацию со словом из квазисинонимического тезауруса. 
Другим способом пополнения словаря может стать 
привлечение прилагательных, сочетающихся с други-
ми словами из тезауруса. 
В данной работе апробирована методика автома-
тизированного составления оценочного словаря для 
широкой предметной области. В результате прове-
денного исследования представлены дальнейшие 
шаги по увеличению объема оценочного словаря. 
Статья поступила 27.05. 2014 г. 

Download 1.78 Mb.

Do'stlaringiz bilan baham:
  1   2   3   4   5   6




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling