Интеллектуальная система поддержки принятия решений для формирования схем лечения на основе методов машинного обучения с подкреплением


Download 1.07 Mb.
Pdf ko'rish
bet8/11
Sana14.04.2023
Hajmi1.07 Mb.
#1357560
TuriАвтореферат
1   2   3   4   5   6   7   8   9   10   11
Bog'liq
autoref-intellektualnaya-sistema-podderzhki-prinyatiya-reshenii-dlya-formirovaniya-skhem-lecheniya

Третья глава непосредственно посвящена разработке модели обучения с 
подкреплением для задачи формирования эффективных стратегий лечения. 
1. Постановка задачи обучения с подкреплением. Обучение с подкрепле-
нием представляет собой целенаправленное обучение, которое производится пу-
тем взаимодействия условного агента с некоторой средой, в процессе которого 
направление действий агента корректируется на основе полученного опыта по-
средством вознаграждений при переходе между состояниями (рис. 3).
Рис. 3. Модель обучения с подкреплением. 
Цель заключается в том, чтобы разработать и обучить на исторических дан-
ных агента, который превзойдет имеющуюся стратегию. 
Стратегия 𝜋(𝑎|𝑠)– это вероятность выбора агентом действия 𝑎 ∈ 𝐴(𝑠), 
при этом: ∑
𝜋(
𝑎∈𝐴(𝑠)
𝑎|𝑠) = 1, 𝜋(𝑎|𝑠) ≥ 0. 
В таблице 1 приведены обозначения модели обучения с подкреплением для 
формирования эффективных стратегий лечения.
Таблица 1. Основные обозначения модели обучения с подкреплением. 
Обозначение Описание 
𝑆, 𝑠 
Пространство состояний 𝑆, 𝑠 ∈ 𝑆 отражает номер кластера, соответ-
ствующего состояния здоровья пациента 
𝐴, 𝑎 
Пространство действий 𝐴 ∈ {0,1}
|𝐵|
,
𝑎 ∈ 𝐴, 𝑎
𝑏
∈ {0,1} отражает назна-
чение пациенту варианта лечения 𝑏, |𝐵|-число вариантов лечения 
𝛵 
Матрица переходов между состояниями 𝛵 = (𝜏
𝑠|𝑠,𝑎
)
𝑠∈𝑆,𝑠∈𝑆,𝑎∈𝐴(𝑠)

𝜏
𝑠|𝑠,𝑎
=
|𝜏
𝑠,𝑎→𝑠
|

|𝜏
𝑠,𝑎→𝑠′′
|
𝑠′′∈𝑆
, где |𝜏
𝑠,𝑎→𝑠
| - число переходов из состояния 𝑠 в со-
стояние 𝑠 при воздействии 𝑎 
𝑝(𝑠|𝑠, 𝑎) 
Вероятность изменения состояния пациента 𝑠 ∈ 𝑆 на состояние 𝑠′ ∈ 𝑆 в 
результате применении действия (лечения) 𝑎 : 𝑝(𝑠|𝑠, 𝑎) = 𝜏
𝑠|𝑠,𝑎
𝑟 
Вознаграждение 𝑟 ∈ 𝑆 → ℝ : 𝑟 ≤ 0 в случае неблагоприятных состоя-
ний и исходов лечения, 𝑟 > 0 в случае успешной высписки пациента
𝛾 
Параметр дисконта 𝛾 ∈ (0 ; 1] предназначен для учета значимости воз-
награждений на различных шагах эпизода. Если 𝛾 = 0, то учитывается 
только краткосрочный эффект лечения, если 𝛾 = 1, то более значим ре-
зультат в длительной перспективе 


12 
2. Эпизоды и набор данных. В данной задаче рассматривается оффлайн 
обучение с подкреплением - подход, при котором агент не может взаимодейство-
вать напрямую со средой и должен обучаться только по оффлайн набору данных 
𝑋: 𝑋 = {{(𝑠
𝑖
, 𝑎
𝑖
, 𝑟
𝑖
, 𝑠
𝑖+1
)}
𝑖=0
𝑇
𝑗
}
𝑗=0
|𝐷|
, сформированному на основе множества эпизо-
дов 𝐷. Эпизоды лечения описываются траекторией 𝑑
𝑗
= (𝑠
1
, 𝑎
1
, 𝑟
1
, . . . , 𝑠
𝑇
𝑗
, 𝑎
𝑇
𝑗
, 𝑟
𝑇
𝑗
), 
где 𝑇
𝑗
- конечное число шагов
𝑠
𝑖
- состояние пациента, изменяющееся в ходе 
назначения вариантов лечения 𝑎
𝑖
∈ 𝐴 на состояние 𝑠
𝑖+1
и оцениваемое вознаграж-
дением 𝑟
𝑖

𝑖 = 1, 𝑇
𝑗
∀𝑑
𝑗
∈ 𝐷, 𝑗 = 1, |𝐷|. 
3. Конструирование множества состояний. Эффективным способом реа-
лизации задачи выделения множества состояний модели является кластерный ана-
лиз, где каждый кластер 𝑐 ∈ 𝐶, 𝐶 = {𝑐
1
, . . . , 𝑐
𝑘
} объединяет пациентов со схожим в 
текущий момент состоянием здоровья 𝑠 ∈ 𝑆, 𝑆 = {𝑠
1
, . . . , 𝑠
𝑘
}. Состояние пациента 
в процессе лечения меняется (переходит из кластера в кластер), образуя некото-
рую траекторию. Необходимо, чтобы полученные кластеры были плотными и 
хорошо отделимыми, т.е. каждый кластер включал набор очень схожих состояний 
пациентов, что можно оценить с помощью метрики силуэтного анализа (2): 
𝑆𝑖𝑙ℎ𝑜𝑢𝑒𝑡𝑡𝑒 =
𝑑
𝑒𝑥𝑡
−𝑑
𝑖𝑛𝑡
𝑚𝑎𝑥(𝑑
𝑒𝑥𝑡
,𝑑
𝑖𝑛𝑡
)

(2) 
где 𝑑
𝑒𝑥𝑡

𝑑
𝑖𝑛𝑡
- среднее расстояние между точками из различных кластеров и 
внутри кластеров, соответственно. Выбор и реализация алгоритма кластеризации 
имеет важное значение, поэтому при решении данной задачи был проведен срав-
нительный анализ методов k-средних и k-медоидов, отличие которого от метода 
k-средних заключается в том, что в качестве центров кластеров выбираются ре-
презентативные элементы набора данных, среднее расстояние от которых до всех 
элементов кластера минимально.
4.  Функция оценки вознаграждений. Вознаграждение, которое назнача-
ется при переходе состояния пациента в кластер с при условии, что заданы огра-
ничения для непрерывных и дискретных признаков, оценивается с помощью 
функции (3): 
𝑟(с, 𝜇, 𝜈) =
1
𝑚|𝑐|


𝑟̂
𝑡𝑖
(𝑐, 𝜇, 𝜈)
𝑖∈𝑀
|𝑐|
𝑡=1

(3) 
где 𝑟̂
𝑡𝑖
(𝑐, 𝜇, 𝜈) - штрафная функция: 𝑟̂
𝑡𝑖
(𝑐, 𝜇, 𝜈) < 0, если показатель 𝑖 из множе-
ства медицинских показателей 𝑀 во время наблюдения 𝑡 принимал значения, не 
удовлетворяющие заданным ограничениям, 𝜇 - множество ограничений для не-
прерывных показателей, 𝜈 - для дискретных (категориальных), 𝑚 - число изме-
ряемых показателей, |𝑐| - число измерений в кластере 𝑐 ∈ 𝐶. Вознаграждение 
принимает отрицательные значения, если кластер характеризуется высокой до-
лей значений показателей, отклоняющихся от заданных ограничений. Вычислен-
ные оценки используются в качестве вознаграждений модели обучения с под-
креплением 𝑟(𝑠) = 𝑟(𝑠, 𝜇, 𝜈) = 𝑟(с, 𝜇, 𝜈), с учетом соответствия между состояни-
ями 𝑠 ∈ 𝑆 и кластерами с ∈ С
Выбор данной функции оценки вознаграждений обоснован утверждени-
ями, доказанными в диссертационном исследовании. 


13 

Download 1.07 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   11




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling