Интеллектуальная система поддержки принятия решений для формирования схем лечения на основе методов машинного обучения с подкреплением


Download 1.07 Mb.
Pdf ko'rish
bet9/11
Sana14.04.2023
Hajmi1.07 Mb.
#1357560
TuriАвтореферат
1   2   3   4   5   6   7   8   9   10   11
Bog'liq
autoref-intellektualnaya-sistema-podderzhki-prinyatiya-reshenii-dlya-formirovaniya-skhem-lecheniya

Утверждение 1. Для модели, в которой состояние агента на каждом из ша-
гов эпизодов 𝑠
𝑡
∈ 𝑆 ∀𝑡 = 1, 𝑇
𝑗
∀𝑗 = 1, |𝐷| представимо в виде вектора показате-
лей 𝑠
𝑡
= (𝑠
𝑡1
, 𝑠
𝑡2
, . . . , 𝑠
𝑡𝜎
)
, где 𝜎 - число показателей, 𝜎′ = {𝑘
1

, 𝑘
2

, . . . , 𝑘
𝛴′

}, 𝜎′′ =
{𝑘
1
′′
, 𝑘
2
′′
, . . . , 𝑘
𝛴′′
′′
} - подмножества показателей, для которых заданы ограничения 
вида 𝜇
𝑘
= [𝜇′
𝑘
, 𝜇′′
𝑘
] ∈ ℝ
2
:
𝜇′
𝑘
≤ 𝑠
𝑡𝑘
≤ 𝜇′′
𝑘
∀𝑘 ∈ 𝜎′, 𝜈
𝑘
= {𝜈
𝑘1
, 𝜈
𝑘2
, . . . , 𝜈
𝑘𝐿
𝑘
}:
𝑠
𝑡𝑘
∈ 𝜈
𝑘
∀𝑘 ∈ 𝜎′′, существует функция вознаграждения 𝑟(𝑠, 𝜇, 𝜈) : 𝑆 → 
Утверждение 2. Пусть для модели множество состояний 𝑆 получено на 
основе кластерного разбиения, где 𝐶 - набор кластеров, |𝐶| = |𝑆|, 𝑐
𝑖
= {𝑚
𝑡
𝑖
}
𝑡=1
|𝑐
𝑖
|
∀с
𝑖
∈ 𝐶, где 𝑚
𝑡
𝑖
= (𝑚
𝑡1
𝑖
, 𝑚
𝑡2
𝑖
, . . . , 𝑚
𝑡𝜎
𝑖
) - вектор измерений показателей, относя-
щийся к кластеру 𝑐
𝑖

𝜎 - число показателей, 𝜎′ = {𝑘
1

, 𝑘
2

, . . . , 𝑘
𝛴′

}, 𝜎′′ =
{𝑘
1
′′
, 𝑘
2
′′
, . . . , 𝑘
𝛴′′
′′
} - подмножества показателей, для которых заданы ограничения 
вида 𝜇
𝑘
= [𝜇′
𝑘
, 𝜇′′
𝑘
] ∈ ℝ
2
:
𝜇′
𝑘
≤ 𝑠
𝑡𝑘
≤ 𝜇′′
𝑘
∀𝑘 ∈ 𝜎′, 𝜈
𝑘
= {𝜈
𝑘1
, 𝜈
𝑘2
, . . . , 𝜈
𝑘𝐿
𝑘
}:
𝑠
𝑡𝑘
∈ 𝜈
𝑘
∀𝑘 ∈ 𝜎′′. Тогда функция вознаграждения вычисляется на основе оценки 
кластера 𝑟(𝑠, 𝜇, 𝜈) = 𝑟(с, 𝜇, 𝜈) : 𝑆 → 
5. Целевая функция и стратегии. Цель агента в задаче обучения с подкреп-
лением связана с оценкой и поиском оптимальных стратегий на основе функции 
полезности (4): 
𝑉
𝜋
(𝑠) = ∑ 𝜋(𝑎|𝑠) ∑ ∑ 𝑝(𝑠, 𝑟|𝑠, 𝑎)(𝑟 + 𝛾𝑉
𝜋
(𝑠))
𝑟
𝑠
𝑎

(4) 
Данная функция выражает условное математическое ожидание суммы бу-
дущих вознаграждений агента, находящегося в состоянии 𝑠 ∈ 𝑆: 𝐸
𝜋
[𝐺
𝑡
|𝑠
𝑡
= 𝑠], 
где 𝐺
𝑡
- суммарное вознаграждение (доход), которое будет накоплено после шага 
𝑡 (5): 
𝐺
𝑡
= 𝑟
𝑡+1
+ 𝛾𝑟
𝑡+2
+ 𝛾
2
𝑟
𝑡+3
+. . . = 𝑟
𝑡+1
+ 𝛾𝐺
𝑡+1
.
(5) 
6. Метрики. Основное ограничение задачи назначения оптимальных стра-
тегий лечения связано с тем, что в задачах медицинской практики отсутствует 
возможность тестирования разработанных стратегий лечения в клинических 
условиях. Методы с разделенной оценкой ценности стратегий (off-policy) 
предоставляют способ валидации модели обучения с подкреплением без ее ин-
теграции в реальную среду. Для задачи назначения лечения был выбран метод 
выборки по значимости – off-policy метод, позволяющий оценить качество тео-
ретической стратегии 𝜋 на реальных медицинских данных, используя известную 
из исторических данных экспертную стратегию 𝜋̃ , по формулам (6), (7). 
𝑊
𝜋
=
1
|𝐷|

𝑤
𝑗

𝑟
𝑡
𝛾
𝑡−1
𝑇
𝑗
𝑡=1
|𝐷|
𝑗=1
;
(6) 
𝑤
𝑗
= ∏
𝜋(
𝑎
𝑗𝑡|
𝑠
𝑗𝑡)
𝜋
̃(
𝑎
𝑗𝑡|
𝑠
𝑗𝑡)
𝑇
𝑗
𝑡=1

(7) 
7. Предложенный алгоритм обучения с подкреплением.
Предлагаемый алгоритм основан на методе временных различий для 
оценки функции полезности и методе итераций по значениям для оценивания 
оптимальной стратегии. Метод итераций по значениям включает несколько 
этапов. 
1. Инициализировать параметр 
𝜃 > 0 (точность оценки). 
2. Инициализировать 
𝑉(𝑠) ∀𝑠 ∈ 𝑆 
случайными 
значениями, 


14 
𝑉(𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑙) = 0. 
3. Выполнять: 
a) положить 
𝛥 = 0; 
b) для каждого s
S
 : 
положить 
𝑣 = 𝑉(𝑠); 
вычислить 
𝑉(𝑠) = 𝑚𝑎𝑥
𝑎

𝑝(𝑠, 𝑟|𝑠, 𝑎)[𝑟 + 𝛾𝑉(𝑠)]
𝑠,𝑟

положить
𝛥 = 𝑚𝑎𝑥( 𝛥, |𝑣 − 𝑉(𝑠)|); 
c) повторять, пока 
𝛥 < 𝜃. 
4. Вычислить детерминированную стратегию 
𝜋 ≈ 𝜋

по правилу (8): 
𝜋(𝑠) = argmax
𝑎

𝑝(𝑠, 𝑟|𝑠, 𝑎)[𝑟 + 𝛾𝑉(𝑠)]
𝑠,𝑟
.
(8) 
Предлагаемый алгоритм обучения с подкреплением имеет следующий вид. 
1. Вход: выборка 
𝑋
1
= {{(𝑥̃
𝑖
, 𝑎
𝑖
)}
𝑖=0
𝑇
𝑗
}
𝑗=0
|𝐷|
, содержащая векторы измерений 
показателей пациентов 𝑥̃
𝑖
= (𝑥̃
𝑖1
, . . . , 𝑥̃
𝑖𝑚
) в течение госпитализации, а также 
назначенное лечение 𝑎
𝑖
, где |𝐷|- число эпизодов лечения, 𝑇
𝑗
-число шагов эпи-
зода, 𝑚 - число медицинских признаков, по которым проводятся измерения.
2. C помощью кластерного анализа выделить набор кластеров состояния 
здоровья пациентов на основе выборки 𝑋
1
. Получить множество номеров класте-
ров 𝐶 = {1, . . . , 𝐾}, где 𝐾 - число полученных кластеров.
3. Сформировать
𝑋
2
= {{(𝑥̃
𝑖
, 𝑎
𝑖
, 𝑐
𝑖
)}
𝑖=0
𝑇
𝑗
}
𝑗=0
|𝐷|
, где 𝑐
𝑖
- номер кластера для 
𝑖 
-го вектора измерений 
𝑗 -го эпизода. 
4. Сформировать конечное множество терминальных состояний, в кото-
рых завершается эпизод лечения (выписка, перевод в другое отделение госпи-
таля и т.д.). 𝑆̄ = {𝐾 + 1, . . . , 𝐾 + 𝑇}, где 𝑇 -число возможных исходов эпизодов. 
5. Сформировать 
𝑋
3
= {{(𝑥̃
𝑖
, 𝑎
𝑖
, 𝑐
𝑖
, 𝑐
𝑖
)}
𝑖=0
𝑇
𝑗
}
𝑗=0
|𝐷|
, где 𝑐
𝑖
= 0 ∀𝑖 < 𝑇
𝑗
и
𝑐
𝑖
> 𝐾, 
если 𝑖 = 𝑇
𝑗

6. Определить множество вознаграждений для терминальных состояний 
𝑅 ⊂ 
𝑇
= {𝑟̄
1
, . . . , 𝑟̄
𝑇
}. 
7. Сформировать множество состояний: 
𝑆 = С ∪ 𝑆̄. 
8. Сформировать набор данных 
𝑋 = {{𝑠
𝑖
, 𝑎
𝑖
, 𝑟
𝑖
, 𝑠
𝑖+1
}
𝑖=0
𝑇
𝑗
}
𝑗=0
|𝐷|
. Состояния и 
вознаграждения задаются формулами (9) и (10), соответственно: 
𝑠
𝑖
= {
𝑐
𝑖
, 𝑖 < 𝑇
𝑗
𝑐
𝑖
, 𝑖 = 𝑇
𝑗
,
(9) 
𝑟
𝑖
= {
𝑟(𝑐
𝑖
) = 𝑟(𝑐
𝑖
, 𝜇, 𝜈), 𝑖 < 𝑇
𝑗
𝑟̄
𝑐
𝑖
−𝐾
, 𝑖 = 𝑇
𝑗
,
(10) 
где 𝜇, 𝜈 -ограничения входных признаков. 
9. Вычислить вероятности переходов 
𝑝(𝑠′|𝑠, 𝑎) на основе набора данных 𝑋. 
10. Выполнить алгоритм итераций по значениям и получить оптимальную 
стратегию 𝜋

и ее функцию полезности 
𝑉
𝜋

(𝑠).  


15 

Download 1.07 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   11




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling