Vest 8(91) 2014г в кривых
Download 1.78 Mb. Pdf ko'rish
|
problemy-ispolzovaniya-terminov-i-definitsiy-v-zakonodatelstve-o-transportnoy-bezopasnosti
Гуманитарные науки ВЕСТНИК ИрГТУ №8 (91) 2014 243 тема, идея, слово, вещь, жизнь, стиль, работа, мо- дель, группа, команда); спектакль (выступление, кон- церт, сцена, театр); ролик (клип); фотография (но- вость, картинка, запись); серия (версия). Очевидно, что для дальнейшего исследования необходима фильтрация некоторых многозначных слов, использо- вание которых приведет к большому шуму. Затем были построены частотные сочетания при- лагательных и существительных из тезаурусной груп- пы. В рамках данного эксперимента мы ограничились тремя словами (фильм, кинофильм, кино). После уда- ления низкочастотных слов получилось три списка прилагательных (2307, 596 и 1087). Число общих слов для всех списков составило 170. После фильтрации мы получили единый список в 1514 оценочных слов. В ходе анализа неоценочных слов выявлены сле- дующие ошибки: парсинга html (отделяется окончание слова, стоящее после дефиса или тире, например, – ское, остающиеся непечатные символы, например, n bspфантастичекое); и ошибки нормализации значе- ний несловарных прилагательных (например, голли- вудским, голливудских, голливудского, голливудском). Таким образом, встает необходимость увеличения точности работы морфологического анализа слов, отсутствующих в словаре, для русскоязычных текстов. В результате анализа ошибок методики выявлено, что фильтрацию низкочастотных слов необходимо проводить после повторной лемматизации с примене- нием морфоанализатора, отличающегося от исполь- зуемого в системе TreeTagger. После повторной лем- матизации целесообразно произвести пересчет ча- стот. Относительно небольшой объем словаря в дальнейшем предлагается увеличить за счет сниже- ния частотного порога до четырех вхождений в колло- кацию со словом из квазисинонимического тезауруса. Другим способом пополнения словаря может стать привлечение прилагательных, сочетающихся с други- ми словами из тезауруса. В данной работе апробирована методика автома- тизированного составления оценочного словаря для широкой предметной области. В результате прове- денного исследования представлены дальнейшие шаги по увеличению объема оценочного словаря. Статья поступила 27.05. 2014 г. Download 1.78 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling