«интернаука» Научный журнал №24(153) Июль 020 г. Часть Издается с ноября 2016 года Москва 2020 ббк 94 И73 Председатель редакционной коллегии: Еникеев Анатолий Анатольевич
Download 4.99 Mb. Pdf ko'rish
|
Интернаука
- Bu sahifa navigatsiya:
- Кошкаров Александр Васильевич
Список литературы: 1. Клеппман М. Высоконагруженные приложения. Программирование, масштабирование, поддержка. 2018 [Электронный ресурс]. — Режим доступа: http://diggerdnepr.ddns.net/wp- content/uploads/ARC_ALL/pdf/kleppman_m_vysokonagruzhennye_prilozheniya_programmirovanie.pdf; 2. Власенко С.В. Репликация данных и управление транзакциями в распределенных базах данных. 2015 [Электронный ресурс]. — Режим доступа: https://issuu.com/euroasiascience/docs/evro_10_p1_tech_phiz-mat; 3. Лаврентьев К.А., Титова Е.А. Проблемы проектирования архитектуры распределенных баз данных // Вестник хабаровской государственной академии экономики и права — 2015. - №1, - С. 33-38.; 4. Технический документ Sybase. Репликация баз данных. 2010 [Электронный ресурс]. — Режим доступа: https://www.sybase.com.ua/system/files/pdf/sybase_rs_db_replication_wp_ru_2.pdf. Журнал «Интернаука» № 24 (153), часть 1, 2020 г. 12 О ПОДХОДАХ К РАЗРАБОТКЕ РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ Ласый Алиса Сергеевна студент Астраханского государственного университета, РФ, г. Астрахань Кошкаров Александр Васильевич канд. техн. наук, доц. кафедры цифровых технологий и кибербезопасности Астраханского государственного университета, РФ, г. Астрахань Начнем с определения, что же такое рекомен- дательные системы? Это программы и сервисы, которые пытаются предсказать, какие объекты (фильмы, музыка, книги, новости, веб-сайты) хотят видеть пользователи, и соответственно рекоменду- ют им это. Рекомендательная система позволяет пользователю замечать свои предпочтения и воз- вращает результаты, которые полезны для него, основываясь на оценках других пользователей и предположениях самой системы [1]. Каждый поль- зователь сети Интернет наверняка встречал подоб- ные приемы на различных сайтах. Рекомендации формируются отдельно для каждого человека, опираясь на его предыдущие действия на конкрет- ном веб-ресурсе или на основе прошлой активно- сти. Кроме того, значение имеет и поведение предыдущих участников процесса. Тема рекомендательных систем активно иссле- дуется последние десятилетия [2]. Она широко применима на практике, в том числе в коммерции, что значительно стимулирует ее развитие. В каче- стве одного из первых примеров рекомендательной системы в современном представлении является movielens.org [3], предлагающий пользователям фильмы на основе их предпочтений. Этот сервис интересен тем, что он предоставляет всем желаю- щим набор данных о фильмах и рейтингах, постав- ленных им пользователями. Этот набор данных был использован в большом числе исследований в об- ласти рекомендательных систем. Для интернет- магазинов рекомендательная система — важная функция, а для таких крупных каталогов типа Amazon [4] — один из способов качественно рабо- тать. Способ рекомендации в данном случае не является обычной дополнительной опцией, она обеспечивает удобство навигации пользователя по веб-ресурсу. Если электронный каталог содержит более 20 000 наименований продукции, ориентация уже представляется непомерно тяжелой, что гово- рить, если товаров миллионы? Рекомендательная система ресурса MathsGarden[5] работает с отдель- ными задачами. Она представляет собой тренажер по элементарной арифметике для учеников началь- ной школы, который предлагает ученику задачи, оптимально подходящие ему в данный момент времени по сложности. Для этого система подсчи- тывает и динамически изменяет относительную характеристику знаний ученика, а также характери- стику сложности задач. Существует несколько подходов к разработке рекомендательных систем, самыми популярными из которых являются: 1. Content-based пользователю рекомендуются объекты, похо- жие на те, которые этот пользователь уже употребил; похожести оцениваются по признакам содер- жимого объектов; сильная зависимость от предметной области, полезность рекомендаций ограничена. Схожесть подсчитывается с помощью характе- ристик сравниваемых объектов. Например, для рекомендации фильмов можно использовать бли- зость жанров или актерский состав. Такой подход используется в сервисе для оценки, поиска и реко- мендаций фильмов Internet Movie Database [6]. 2. Коллаборативная фильтрация (Collaborative Filtering) для рекомендации используется история оценок как самого пользователя, так и других поль- зователей; более универсальный подход, часто дает лучший результат; есть свои проблемы (например, холодный старт). Проще говоря, пользователю предлагается кон- тент, заинтересовавший похожих на него пользова- телей. Рекомендации сервиса MovieLens основаны именно на этом подходе. Даже если мы абсолютно точно умеем предска- зывать, какие треки нравятся пользователю, все равно остается вопрос, в каком виде и в какой ком- поновке их выдавать. Обычно в качестве метрики используют RMSE предсказанного рейтинга, однако существует мне- ние, что это не совсем правильно и следует учиты- вать характеристики рекомендации как целого, а не точность предсказания конкретного числа. 𝑅𝑀𝑆𝐸 = √ 1 |𝐷| ∑ (𝑟̂ 𝑢𝑖 − 𝑟 𝑢𝑖 ) 2 (𝑢,𝑖)∈𝐷 (1) На сегодняшний день это стандартная метрика для предсказания оценки. Однако она имеет свои недостатки: у каждого пользователя свое представление о шкале оценок. Пользователи, у которых разброс оценок более широкий, будут больше влиять на значение метрики, чем другие; Журнал «Интернаука» № 24 (153), часть 1, 2020 г. 13 ошибка в предсказании высокой оценки име- ет такой же вес, что и ошибка в предсказании низ- кой оценки. При этом предсказать оценку 9 вместо настоящей оценки 7 страшнее, чем предсказать 4 вместо 2 (по десятибалльной шкале); можно иметь почти идеальную метрику RMSE, но иметь очень плохое качество ранжирова- ния, и наоборот. Цель метрики качества ранжирования — опре- делить, насколько полученные алгоритмом оценки релевантности 𝑟(𝑒) и соответствующая им переста- новка 𝜋соответствуют истинным значениям реле- вантности 𝑟 𝑡𝑟𝑢𝑒 . Рассмотрим основные метрики [7]. В качестве метрик качества обычно используют метрики ранжирования, например, MAP@k (5) и nDCG@k (7). Precision at K (p@K) — точность на K элемен- тах — базовая метрика качества ранжирования для одного объекта. Допустим, наш алгоритм ранжиро- вания выдал оценки релевантности для каждого эле- мента {𝑟(𝑒)} 𝑒∈𝐸 . Отобрав среди них первые 𝐾 ≤ 𝑀 элементов с наибольшим 𝑟(𝑒) можно посчитать долю релевантных. Именно это и делает precision at K 𝑝@𝐾 = ∑ 𝑟 𝑡𝑟𝑢𝑒 (𝜋 −1 (𝑘)) 𝑘 𝑖=1 𝐾 = релевантных элементов 𝐾 (2) Precision at K — метрика простая для понима- ния и реализации, но имеет важный недостаток — она не учитывает порядок элементов в «топе». Так, если из десяти элементов мы угадали только один, то не важно на каком месте он был: на первом, или на последнем, — в любом случае 𝑝@10 = 0.1. При этом очевидно, что первый вариант гораздо лучше. Этот недостаток нивелирует метрика ранжиро- вания average precision at K (ap@K), которая равна сумме p@k по индексам k от 1 до K только для релевантных элементов, деленому на K 𝑎𝑝@𝐾 = 1 𝐾 ∑ 𝑟 𝑡𝑟𝑢𝑒 (𝜋 −1 (𝑘))𝑝@𝑘 𝐾 𝑘=1 (3) Так, если из трех элементов мы релевантным оказался только находящийся на последнем месте, то 𝑎𝑝@3 = 1 3 (0 + 0 + 1 3 ) ≈ 0.11 , если угадали лишь тот, что был на первом месте, то 𝑎𝑝@3 = 1 3 ( 1 1 + 0 + 0) ≈ 0.33 , а если угаданы были все, то 𝑎𝑝@3 = 1 3 ( 1 1 + 2 2 + 3 3 ) = 1. Mean average precision at K (map@K) — одна из наиболее часто используемых метрик качества ранжирования. В p@K и ap@K качество ранжиро- вания оценивается для отдельно взятого объекта (пользователя, поискового запроса). На практике объектов множество: мы имеем дело с сотнями тысяч пользователей, миллионами поисковых за- просов и т. д. Идея map@K заключается в том, чтобы посчитать ap@K для каждого объекта и усреднить 𝑚𝑎𝑝@𝐾 = 1 𝑁 ∑ 𝑎𝑝@𝐾 𝑗 𝑁 𝑗=1 Download 4.99 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling