Сборник конференции Научно-исследовательские публикации 2014 окончательный для елибрари
Download 77.77 Kb. Pdf ko'rish
|
sovremennoe-napravlenie-razvitiya-rekomendatelnyh-sistem-dlya-elektronnyh-dokumentov
- Bu sahifa navigatsiya:
- НАПРАВЛЕНИЕ РАЗВИТИЯ РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ ДЛЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ
«Общество и цивилизация в ХХI веке: тенденции и перспективы развития» 202 УДК 004.01 ББК 32.0 Селивёрстов Е.В., магистрант МГУЛ., Московская обл., г. Мытищи, Россия СОВРЕМЕННОЕ НАПРАВЛЕНИЕ РАЗВИТИЯ РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ ДЛЯ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ Рекомендательные системы – это такие программные средства и методы, предоставляющие рекомендации пред- метов, которые могли бы оказаться полезными для пользо- вателя. Рекомендации могут касаться совершенно различ- ных областей принятия решений, например, таких как, ка- кой предмет купить, какую музыку послушать, какие ново- сти прочесть. Разработка рекомендательных систем была иницииро- вана из достаточно простого наблюдения – люди часто по- лагаются на рекомендации для решения обычных повсе- дневных задач. Например, при выборе книги для чтения по- лагаются на советы сверстников; работодатели учитывают рекомендательные письма в рекрутинговых решения; при выборе фильма люди часто полагаются на обзоры и мнения кинокритиков, и т. д. В попытках имитировать это поведение, первые алго- ритмы рекомендательных систем использовали рекоменда- ции сообщества пользователей для предоставления реко- мендаций конкретному пользователю. Рекомендовались те предметы, которые нравились похожим пользователям. Этот подход получил название коллаборативной фильтра- ции и его обоснование состоит в том, что если пользователь согласился в прошлом с другими пользователями, то и дру- гие рекомендации, исходящие от этих пользователей, долж- ны быть для него актуальны. «Общество и цивилизация в ХХI веке: тенденции и перспективы развития» 203 С развитием веб-сайтов электронной коммерции воз- никла необходимость предоставления рекомендаций, полу- ченных в результате фильтрации всего ассортимента. Поль- зователям было трудно сделать самостоятельный выбор из огромного разнообразия предметов или услуг. Рекоменда- тельные системы показали себя как эффективное средство решения проблемы информационной перегрузки. Помимо коллаборативной фильтрации, которая форми- рует рекомендации на основе мнения других пользователей, существует подход формирования рекомендаций на основе оценённых пользователем предметов. Каждый предмет в коллекции имеет определённое число атрибутов, характе- ризующих этот предмет, которые могут быть использованы для других, похожих на него предметов. Такие системы по- лучили название рекомендательные системы, основанные на содержании. Эффективность работы рекомендательных систем, ос- нованных на содержании, напрямую зависит от числа атри- бутов, характеризующих каждый предмет. Наиболее удач- ной областью применения такого подхода являются систе- мы, оперирующие текстовыми документами, поскольку в качестве идентифицирующих атрибутов можно использо- вать их содержание. Существует множество работ, описывающих методику формирования рекомендаций, на основе содержания доку- ментов. Анализ содержания является универсальным под- ходом, поскольку все возможные виды документов (книги, статьи, отчеты, веб-страницы и т. д.) содержат текстовую информацию. В настоящее время, большинство документов хранится в электронных форматах, которые позволяют форматиро- вать содержимое и задавать определенную структуру, такую как оглавления, нумерация разделов, таблиц, изображений и т. д. Учет особенности этой структуры должен повысить качество рекомендаций, по сравнению с одним из классиче- «Общество и цивилизация в ХХI веке: тенденции и перспективы развития» 204 ских подходов, учета одного лишь набора лексем докумен- тов. В большинстве алгоритмов, вес лексемы зависит от то- го, как часто она встречается в конкретном документе, и как часто во всей коллекции. Чем чаще лексема встречается в коллекции документов, тем хуже она идентифицирует кон- кретный документ, и поэтому её вес меньше. При учете особенности структуры документа, можно, например, уве- личить вес лексемам, которые являются оглавлениями раз- делов, так как они фактически описывают их смысл. Как уже говорилось ранее, формирование рекоменда- ций зависит только от лексем документов. В ситуации, ко- гда имеется два идентичных по набору лексем документа, но один из них содержит изображения, то он никак не выде- ляется в текущих алгоритмах. Очевидно, что его нужно ранжировать выше. В документах могут содержаться таблицы, которые ча- сто содержат важную информацию. В текущих алгоритмах эти лексемы учитываются так же, как и все остальные. Если таблица содержит цифры, то они и вовсе не учитываются. Для придания таблицам большей значимости, можно выде- лить её заголовок, который фактически описывает её смысл, и поступить с ним так же, как с оглавлениями разделов. Современные форматы электронных документов обла- дают большими возможностями, а также постоянно разви- ваются. По мнению автора, учет их возможностей в форми- ровании рекомендаций является достаточно перспективным направлением развития рекомендательных систем для до- кументов. Вывод: в статье автор предпринял попытку показать проблемы рекомендательных систем, основанных на содер- жании, а также предложено одно из возможных направле- ний их развития. Download 77.77 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling