Интеллектуальная система поддержки принятия решений для формирования схем лечения на основе методов машинного обучения с подкреплением
Download 1.07 Mb. Pdf ko'rish
|
autoref-intellektualnaya-sistema-podderzhki-prinyatiya-reshenii-dlya-formirovaniya-skhem-lecheniya
- Bu sahifa navigatsiya:
- Утверждение 2
Утверждение 1. Для модели, в которой состояние агента на каждом из ша-
гов эпизодов 𝑠 𝑡 ∈ 𝑆 ∀𝑡 = 1, 𝑇 𝑗 ∀𝑗 = 1, |𝐷| представимо в виде вектора показате- лей 𝑠 𝑡 = (𝑠 𝑡1 , 𝑠 𝑡2 , . . . , 𝑠 𝑡𝜎 ) , где 𝜎 - число показателей, 𝜎′ = {𝑘 1 ′ , 𝑘 2 ′ , . . . , 𝑘 𝛴′ ′ }, 𝜎′′ = {𝑘 1 ′′ , 𝑘 2 ′′ , . . . , 𝑘 𝛴′′ ′′ } - подмножества показателей, для которых заданы ограничения вида 𝜇 𝑘 = [𝜇′ 𝑘 , 𝜇′′ 𝑘 ] ∈ ℝ 2 : 𝜇′ 𝑘 ≤ 𝑠 𝑡𝑘 ≤ 𝜇′′ 𝑘 ∀𝑘 ∈ 𝜎′, 𝜈 𝑘 = {𝜈 𝑘1 , 𝜈 𝑘2 , . . . , 𝜈 𝑘𝐿 𝑘 }: 𝑠 𝑡𝑘 ∈ 𝜈 𝑘 ∀𝑘 ∈ 𝜎′′, существует функция вознаграждения 𝑟(𝑠, 𝜇, 𝜈) : 𝑆 → ℝ. Утверждение 2. Пусть для модели множество состояний 𝑆 получено на основе кластерного разбиения, где 𝐶 - набор кластеров, |𝐶| = |𝑆|, 𝑐 𝑖 = {𝑚 𝑡 𝑖 } 𝑡=1 |𝑐 𝑖 | ∀с 𝑖 ∈ 𝐶, где 𝑚 𝑡 𝑖 = (𝑚 𝑡1 𝑖 , 𝑚 𝑡2 𝑖 , . . . , 𝑚 𝑡𝜎 𝑖 ) - вектор измерений показателей, относя- щийся к кластеру 𝑐 𝑖 , 𝜎 - число показателей, 𝜎′ = {𝑘 1 ′ , 𝑘 2 ′ , . . . , 𝑘 𝛴′ ′ }, 𝜎′′ = {𝑘 1 ′′ , 𝑘 2 ′′ , . . . , 𝑘 𝛴′′ ′′ } - подмножества показателей, для которых заданы ограничения вида 𝜇 𝑘 = [𝜇′ 𝑘 , 𝜇′′ 𝑘 ] ∈ ℝ 2 : 𝜇′ 𝑘 ≤ 𝑠 𝑡𝑘 ≤ 𝜇′′ 𝑘 ∀𝑘 ∈ 𝜎′, 𝜈 𝑘 = {𝜈 𝑘1 , 𝜈 𝑘2 , . . . , 𝜈 𝑘𝐿 𝑘 }: 𝑠 𝑡𝑘 ∈ 𝜈 𝑘 ∀𝑘 ∈ 𝜎′′. Тогда функция вознаграждения вычисляется на основе оценки кластера 𝑟(𝑠, 𝜇, 𝜈) = 𝑟(с, 𝜇, 𝜈) : 𝑆 → ℝ. 5. Целевая функция и стратегии. Цель агента в задаче обучения с подкреп- лением связана с оценкой и поиском оптимальных стратегий на основе функции полезности (4): 𝑉 𝜋 (𝑠) = ∑ 𝜋(𝑎|𝑠) ∑ ∑ 𝑝(𝑠′, 𝑟|𝑠, 𝑎)(𝑟 + 𝛾𝑉 𝜋 (𝑠′)) 𝑟 𝑠′ 𝑎 . (4) Данная функция выражает условное математическое ожидание суммы бу- дущих вознаграждений агента, находящегося в состоянии 𝑠 ∈ 𝑆: 𝐸 𝜋 [𝐺 𝑡 |𝑠 𝑡 = 𝑠], где 𝐺 𝑡 - суммарное вознаграждение (доход), которое будет накоплено после шага 𝑡 (5): 𝐺 𝑡 = 𝑟 𝑡+1 + 𝛾𝑟 𝑡+2 + 𝛾 2 𝑟 𝑡+3 +. . . = 𝑟 𝑡+1 + 𝛾𝐺 𝑡+1 . (5) 6. Метрики. Основное ограничение задачи назначения оптимальных стра- тегий лечения связано с тем, что в задачах медицинской практики отсутствует возможность тестирования разработанных стратегий лечения в клинических условиях. Методы с разделенной оценкой ценности стратегий (off-policy) предоставляют способ валидации модели обучения с подкреплением без ее ин- теграции в реальную среду. Для задачи назначения лечения был выбран метод выборки по значимости – off-policy метод, позволяющий оценить качество тео- ретической стратегии 𝜋 на реальных медицинских данных, используя известную из исторических данных экспертную стратегию 𝜋̃ , по формулам (6), (7). 𝑊 𝜋 = 1 |𝐷| ∑ 𝑤 𝑗 ∑ 𝑟 𝑡 𝛾 𝑡−1 𝑇 𝑗 𝑡=1 |𝐷| 𝑗=1 ; (6) 𝑤 𝑗 = ∏ 𝜋( 𝑎 𝑗𝑡| 𝑠 𝑗𝑡) 𝜋 ̃( 𝑎 𝑗𝑡| 𝑠 𝑗𝑡) 𝑇 𝑗 𝑡=1 . (7) 7. Предложенный алгоритм обучения с подкреплением. Предлагаемый алгоритм основан на методе временных различий для оценки функции полезности и методе итераций по значениям для оценивания оптимальной стратегии. Метод итераций по значениям включает несколько этапов. 1. Инициализировать параметр 𝜃 > 0 (точность оценки). 2. Инициализировать 𝑉(𝑠) ∀𝑠 ∈ 𝑆 случайными значениями, 14 𝑉(𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑙) = 0. 3. Выполнять: a) положить 𝛥 = 0; b) для каждого s S : положить 𝑣 = 𝑉(𝑠); вычислить 𝑉(𝑠) = 𝑚𝑎𝑥 𝑎 ∑ 𝑝(𝑠′, 𝑟|𝑠, 𝑎)[𝑟 + 𝛾𝑉(𝑠′)] 𝑠′,𝑟 ; положить 𝛥 = 𝑚𝑎𝑥( 𝛥, |𝑣 − 𝑉(𝑠)|); c) повторять, пока 𝛥 < 𝜃. 4. Вычислить детерминированную стратегию 𝜋 ≈ 𝜋 ∗ по правилу (8): 𝜋(𝑠) = argmax 𝑎 ∑ 𝑝(𝑠′, 𝑟|𝑠, 𝑎)[𝑟 + 𝛾𝑉(𝑠′)] 𝑠′,𝑟 . (8) Предлагаемый алгоритм обучения с подкреплением имеет следующий вид. 1. Вход: выборка 𝑋 1 = {{(𝑥̃ 𝑖 , 𝑎 𝑖 )} 𝑖=0 𝑇 𝑗 } 𝑗=0 |𝐷| , содержащая векторы измерений показателей пациентов 𝑥̃ 𝑖 = (𝑥̃ 𝑖1 , . . . , 𝑥̃ 𝑖𝑚 ) в течение госпитализации, а также назначенное лечение 𝑎 𝑖 , где |𝐷|- число эпизодов лечения, 𝑇 𝑗 -число шагов эпи- зода, 𝑚 - число медицинских признаков, по которым проводятся измерения. 2. C помощью кластерного анализа выделить набор кластеров состояния здоровья пациентов на основе выборки 𝑋 1 . Получить множество номеров класте- ров 𝐶 = {1, . . . , 𝐾}, где 𝐾 - число полученных кластеров. 3. Сформировать 𝑋 2 = {{(𝑥̃ 𝑖 , 𝑎 𝑖 , 𝑐 𝑖 )} 𝑖=0 𝑇 𝑗 } 𝑗=0 |𝐷| , где 𝑐 𝑖 - номер кластера для 𝑖 -го вектора измерений 𝑗 -го эпизода. 4. Сформировать конечное множество терминальных состояний, в кото- рых завершается эпизод лечения (выписка, перевод в другое отделение госпи- таля и т.д.). 𝑆̄ = {𝐾 + 1, . . . , 𝐾 + 𝑇}, где 𝑇 -число возможных исходов эпизодов. 5. Сформировать 𝑋 3 = {{(𝑥̃ 𝑖 , 𝑎 𝑖 , 𝑐 𝑖 , 𝑐 𝑖 )} 𝑖=0 𝑇 𝑗 } 𝑗=0 |𝐷| , где 𝑐 𝑖 = 0 ∀𝑖 < 𝑇 𝑗 и 𝑐 𝑖 > 𝐾, если 𝑖 = 𝑇 𝑗 . 6. Определить множество вознаграждений для терминальных состояний 𝑅 ⊂ ℝ 𝑇 = {𝑟̄ 1 , . . . , 𝑟̄ 𝑇 }. 7. Сформировать множество состояний: 𝑆 = С ∪ 𝑆̄. 8. Сформировать набор данных 𝑋 = {{𝑠 𝑖 , 𝑎 𝑖 , 𝑟 𝑖 , 𝑠 𝑖+1 } 𝑖=0 𝑇 𝑗 } 𝑗=0 |𝐷| . Состояния и вознаграждения задаются формулами (9) и (10), соответственно: 𝑠 𝑖 = { 𝑐 𝑖 , 𝑖 < 𝑇 𝑗 𝑐 𝑖 , 𝑖 = 𝑇 𝑗 , (9) 𝑟 𝑖 = { 𝑟(𝑐 𝑖 ) = 𝑟(𝑐 𝑖 , 𝜇, 𝜈), 𝑖 < 𝑇 𝑗 𝑟̄ 𝑐 𝑖 −𝐾 , 𝑖 = 𝑇 𝑗 , (10) где 𝜇, 𝜈 -ограничения входных признаков. 9. Вычислить вероятности переходов 𝑝(𝑠′|𝑠, 𝑎) на основе набора данных 𝑋. 10. Выполнить алгоритм итераций по значениям и получить оптимальную стратегию 𝜋 ∗ и ее функцию полезности 𝑉 𝜋 ∗ (𝑠). |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling