Интеллектуальная система поддержки принятия решений для формирования схем лечения на основе методов машинного обучения с подкреплением
Download 1.07 Mb. Pdf ko'rish
|
autoref-intellektualnaya-sistema-podderzhki-prinyatiya-reshenii-dlya-formirovaniya-skhem-lecheniya
Третья глава непосредственно посвящена разработке модели обучения с
подкреплением для задачи формирования эффективных стратегий лечения. 1. Постановка задачи обучения с подкреплением. Обучение с подкрепле- нием представляет собой целенаправленное обучение, которое производится пу- тем взаимодействия условного агента с некоторой средой, в процессе которого направление действий агента корректируется на основе полученного опыта по- средством вознаграждений при переходе между состояниями (рис. 3). Рис. 3. Модель обучения с подкреплением. Цель заключается в том, чтобы разработать и обучить на исторических дан- ных агента, который превзойдет имеющуюся стратегию. Стратегия 𝜋(𝑎|𝑠)– это вероятность выбора агентом действия 𝑎 ∈ 𝐴(𝑠), при этом: ∑ 𝜋( 𝑎∈𝐴(𝑠) 𝑎|𝑠) = 1, 𝜋(𝑎|𝑠) ≥ 0. В таблице 1 приведены обозначения модели обучения с подкреплением для формирования эффективных стратегий лечения. Таблица 1. Основные обозначения модели обучения с подкреплением. Обозначение Описание 𝑆, 𝑠 Пространство состояний 𝑆, 𝑠 ∈ 𝑆 отражает номер кластера, соответ- ствующего состояния здоровья пациента 𝐴, 𝑎 Пространство действий 𝐴 ∈ {0,1} |𝐵| , 𝑎 ∈ 𝐴, 𝑎 𝑏 ∈ {0,1} отражает назна- чение пациенту варианта лечения 𝑏, |𝐵|-число вариантов лечения 𝛵 Матрица переходов между состояниями 𝛵 = (𝜏 𝑠′|𝑠,𝑎 ) 𝑠∈𝑆,𝑠′∈𝑆,𝑎∈𝐴(𝑠) : 𝜏 𝑠′|𝑠,𝑎 = |𝜏 𝑠,𝑎→𝑠′ | ∑ |𝜏 𝑠,𝑎→𝑠′′ | 𝑠′′∈𝑆 , где |𝜏 𝑠,𝑎→𝑠′ | - число переходов из состояния 𝑠 в со- стояние 𝑠′ при воздействии 𝑎 𝑝(𝑠′|𝑠, 𝑎) Вероятность изменения состояния пациента 𝑠 ∈ 𝑆 на состояние 𝑠′ ∈ 𝑆 в результате применении действия (лечения) 𝑎 : 𝑝(𝑠′|𝑠, 𝑎) = 𝜏 𝑠′|𝑠,𝑎 𝑟 Вознаграждение 𝑟 ∈ 𝑆 → ℝ : 𝑟 ≤ 0 в случае неблагоприятных состоя- ний и исходов лечения, 𝑟 > 0 в случае успешной высписки пациента 𝛾 Параметр дисконта 𝛾 ∈ (0 ; 1] предназначен для учета значимости воз- награждений на различных шагах эпизода. Если 𝛾 = 0, то учитывается только краткосрочный эффект лечения, если 𝛾 = 1, то более значим ре- зультат в длительной перспективе 12 2. Эпизоды и набор данных. В данной задаче рассматривается оффлайн обучение с подкреплением - подход, при котором агент не может взаимодейство- вать напрямую со средой и должен обучаться только по оффлайн набору данных 𝑋: 𝑋 = {{(𝑠 𝑖 , 𝑎 𝑖 , 𝑟 𝑖 , 𝑠 𝑖+1 )} 𝑖=0 𝑇 𝑗 } 𝑗=0 |𝐷| , сформированному на основе множества эпизо- дов 𝐷. Эпизоды лечения описываются траекторией 𝑑 𝑗 = (𝑠 1 , 𝑎 1 , 𝑟 1 , . . . , 𝑠 𝑇 𝑗 , 𝑎 𝑇 𝑗 , 𝑟 𝑇 𝑗 ), где 𝑇 𝑗 - конечное число шагов, 𝑠 𝑖 - состояние пациента, изменяющееся в ходе назначения вариантов лечения 𝑎 𝑖 ∈ 𝐴 на состояние 𝑠 𝑖+1 и оцениваемое вознаграж- дением 𝑟 𝑖 , 𝑖 = 1, 𝑇 𝑗 ∀𝑑 𝑗 ∈ 𝐷, 𝑗 = 1, |𝐷|. 3. Конструирование множества состояний. Эффективным способом реа- лизации задачи выделения множества состояний модели является кластерный ана- лиз, где каждый кластер 𝑐 ∈ 𝐶, 𝐶 = {𝑐 1 , . . . , 𝑐 𝑘 } объединяет пациентов со схожим в текущий момент состоянием здоровья 𝑠 ∈ 𝑆, 𝑆 = {𝑠 1 , . . . , 𝑠 𝑘 }. Состояние пациента в процессе лечения меняется (переходит из кластера в кластер), образуя некото- рую траекторию. Необходимо, чтобы полученные кластеры были плотными и хорошо отделимыми, т.е. каждый кластер включал набор очень схожих состояний пациентов, что можно оценить с помощью метрики силуэтного анализа (2): 𝑆𝑖𝑙ℎ𝑜𝑢𝑒𝑡𝑡𝑒 = 𝑑 𝑒𝑥𝑡 −𝑑 𝑖𝑛𝑡 𝑚𝑎𝑥(𝑑 𝑒𝑥𝑡 ,𝑑 𝑖𝑛𝑡 ) , (2) где 𝑑 𝑒𝑥𝑡 , 𝑑 𝑖𝑛𝑡 - среднее расстояние между точками из различных кластеров и внутри кластеров, соответственно. Выбор и реализация алгоритма кластеризации имеет важное значение, поэтому при решении данной задачи был проведен срав- нительный анализ методов k-средних и k-медоидов, отличие которого от метода k-средних заключается в том, что в качестве центров кластеров выбираются ре- презентативные элементы набора данных, среднее расстояние от которых до всех элементов кластера минимально. 4. Функция оценки вознаграждений. Вознаграждение, которое назнача- ется при переходе состояния пациента в кластер с при условии, что заданы огра- ничения для непрерывных и дискретных признаков, оценивается с помощью функции (3): 𝑟(с, 𝜇, 𝜈) = 1 𝑚|𝑐| ∑ ∑ 𝑟̂ 𝑡𝑖 (𝑐, 𝜇, 𝜈) 𝑖∈𝑀 |𝑐| 𝑡=1 , (3) где 𝑟̂ 𝑡𝑖 (𝑐, 𝜇, 𝜈) - штрафная функция: 𝑟̂ 𝑡𝑖 (𝑐, 𝜇, 𝜈) < 0, если показатель 𝑖 из множе- ства медицинских показателей 𝑀 во время наблюдения 𝑡 принимал значения, не удовлетворяющие заданным ограничениям, 𝜇 - множество ограничений для не- прерывных показателей, 𝜈 - для дискретных (категориальных), 𝑚 - число изме- ряемых показателей, |𝑐| - число измерений в кластере 𝑐 ∈ 𝐶. Вознаграждение принимает отрицательные значения, если кластер характеризуется высокой до- лей значений показателей, отклоняющихся от заданных ограничений. Вычислен- ные оценки используются в качестве вознаграждений модели обучения с под- креплением 𝑟(𝑠) = 𝑟(𝑠, 𝜇, 𝜈) = 𝑟(с, 𝜇, 𝜈), с учетом соответствия между состояни- ями 𝑠 ∈ 𝑆 и кластерами с ∈ С. Выбор данной функции оценки вознаграждений обоснован утверждени- ями, доказанными в диссертационном исследовании. |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling