«интернаука» Научный журнал №24(153) Июль 020 г. Часть Издается с ноября 2016 года Москва 2020 ббк 94 И73 Председатель редакционной коллегии: Еникеев Анатолий Анатольевич


Download 4.99 Mb.
Pdf ko'rish
bet11/84
Sana07.11.2023
Hajmi4.99 Mb.
#1753379
1   ...   7   8   9   10   11   12   13   14   ...   84
Bog'liq
Интернаука

 
(4) 
 
Идея эта вполне логична, если предположить, 
что все пользователи одинаково нужны и одинаково 
важны. Если же это не так, то вместо простого 
усреднения можно использовать взвешенное, умно-
жив ap@k каждого объекта на соответствующий 
его «важности» вес. 
Вновь рассмотрим один объект и 𝑟(𝑒) элемен-
тов с наибольшим 𝑟(𝑒). Cumulative gain at K 
(CG@K) — базовая метрика ранжирования, которая 
использует простую идею: чем релевантные эле-
менты в этом топе, тем лучше 
𝐶𝐺@𝐾 = ∑
𝑟
𝑡𝑟𝑢𝑒
(𝜋
−1
(𝑘))
𝐾
𝑘=1
(5) 
Эта метрика обладает очевидными недостатка-
ми: она не нормализована и не учитывает позицию 
релевантных элементов. 
Заметим, что в отличии от p@K, CG@K может 
использоваться и в случае небинарных значений 
эталонной релевантности 𝑟
𝑡𝑟𝑢𝑒

Discounted cumulative gain at K (DCG@K) — 
модификация cumulative gain at K, учитывающая 
порядок элементов в списке путем умножения 
релевантности элемента на вес равный обратному 
логарифму номера позиции: 
𝐷𝐶𝐺@𝑘 = ∑
2
𝑟𝑡𝑟𝑢𝑒(𝜋−1(𝑘))
−1
log(𝑘+1)
𝐾
𝑘=1
(6) 
Замечание: если 𝑟
𝑡𝑟𝑢𝑒
принимает только значе-
ния 0 и 1, то 2
𝑟
𝑡𝑟𝑢𝑒
(𝜋
−1
(𝑘))
− 1 = 𝑟
𝑡𝑟𝑢𝑒
(𝜋
−1
(𝑘)) , и 
формула принимает более простой вид 
𝐷𝐶𝐺@𝑘 = ∑
𝑟
𝑡𝑟𝑢𝑒
(𝜋
−1
(𝑘))
log(𝑘+1)
𝐾
𝑘=1
(7) 
Использование логарифма как функции дисконти-
рования можно объяснить следующими интуитив-
ными соображениями: с точки зрения ранжирова-
ния позиции в начале списка отличаются гораздо 
сильнее, чем позиции в его конце. Так, в случае 
поискового движка между позициями 1 и 11 целая 
пропасть (лишь в нескольких случаях из ста поль-
зователь заходит дальше первой страницы поиско-
вой выдачи), а между позициями 101 и 111 особой 
разницы нет — до них мало кто доходит. Эти субъ-
ективные соображения прекрасно выражаются с 
помощью логарифма 
1
log
2
(1+1)

1
log
2
(1+11)
≈ 0.721, 
а 
1
log
2
(1+101)

1
log
2
(1+111)
≈ 0.003.
Discounted cumulative gain решает проблему 
учета позиции релевантных элементов, но лишь 
усугубляет проблему с отсутствием нормировки: 
если inline_formula варьируется в пределах 
inline_formula, то inline_formula уже принимает 
значения на не совсем понятно отрезке. Решить эту 
проблему призвана следующая метрика. Normalized 
discounted cumulative gain at K (nDCG@K) — не что 
иное, как нормализованная версия DCG@K: 
𝑛𝐷𝐶𝐺@𝑘 =
𝐷𝐶𝐺@𝑘
𝑚𝑎𝑥(𝐷𝐶𝐺@𝑘)
(8) 


Журнал «Интернаука» 
№ 24 (153), часть 1, 2020 г. 
14 
Таким образом, inline_formula наследует от 
inline_formula учет позиции элементов в списке и, 
при этом принимает значения в диапазоне от 0 до 1. 
Relevance в контексте MAP@k — бинарное 
значение, а в контексте nDCG@k — может быть и 
рейтинговая шкала. 
Mean reciprocal rank (MRR) — еще одна часто 
используемая метрика качества ранжирования. 
Задается она следующей формулой 
𝑀𝑅𝑅@𝐾 =
1
𝑁

𝑅𝑅@𝐾
𝑗
𝑁
𝑗=1
(9) 
Где 𝑅𝑅
𝑗
— reciproсal rank для j-го объекта — 
очень простая по своей сути величина, равная об-
ратному ранку первого правильно угаданного эле-
мента. 
𝑅𝑅@𝐾 =
1
𝑚𝑖𝑛{𝑘∈[1…𝐾]:𝑟
𝑡𝑟𝑢𝑒
(𝜋
−1
(𝑘))=1}
(10) 
Mean reciprocal rank изменяется в диапазоне [0,1] 
и учитывает позицию элементов. К сожалению он 
делает это только для одного элемента — 1-го верно 
предсказанного, не обращая внимания на все по-
следующие. 
Но, помимо точности предсказания, нас могут 
интересовать и другие вещи: 
 сoverage — доля товаров, которая выдается 
рекомендателем; 
 personalization — насколько различаются ре-
комендации между пользователями; 
 diversity — насколько разнообразные товары 
находятся внутри рекомендации. 
Похожесть объектов не такая уж очевидная 
вещь. К этой задаче могут быть разные подходы: 
 похожие объекты — это объекты, похожие 
по своим признакам (content-based); 
 похожие объекты — это объекты, которые 
часто используют вместе («клиенты, купившие 𝑖, 
также покупали 𝑗»); 
 похожие объекты — это рекомендации поль-
зователю, которому понравился данный объект; 
 похожие объекты — это просто рекоменда-
ции, в которых данный объект выступает в каче-
стве контекста. 
На восприятие рекомендаций влияет не только 
качество ранжирования, но и другие характеристики. 
Среди них, например, разнообразие (не стоит выда-
вать пользователю фильмы одного жанра и темати-
ки), неожиданность (рекомендовать самые популяр-
ные фильмы и сериалы – банально и бесполезно), 
новизна и многие другие. 
Рекомендательные системы далеко ушли от 
стандартной постановки про заполнение матрицы 
оценок, и в каждой конкретной области будут свои 
нюансы. Это привносит трудности, но и добавляет 
интереса. Кроме того, отделить рекомендательную 
систему от продукта в целом бывает трудно. Ведь 
важен не только список айтемов, но и способ и 
контекст подачи. Что, как, кому и когда рекомендо-
вать. Все это определяет впечатление от взаимо-
действия с сервисом. 

Download 4.99 Mb.

Do'stlaringiz bilan baham:
1   ...   7   8   9   10   11   12   13   14   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling