Kirish bob. Tibbiy biologik ma'lumotlarni tahlil qilish va qayta ishlash usullari, algoritmlari va tizimlarini tahlil qilish

Avtomatlashtirilgan tibbiy-biologik tajriba

bet	12/15
Sana	31.03.2023
Hajmi	0,53 Mb.
	#1313295

1 ... 7 8 9 10 11 12 13 14 15

Bog'liq
2 5462995905688901647

Avtomatlashtirilgan tibbiy-biologik tajriba.
Avtomatlashtirilgan tajribada tibbiy-biologik ma'lumotlarini qayta ishlash uchun shaxsiy kompyuterdan foydalanish eng samarali hisoblanadi (3.1 rasm).

3.1-rasm. Avtomatlashtirilgan tajribada tibbiy-biologik ma'lumotlarini olish sxemasi.
O'rganilayotgan ob'ektning turli xarakteristikalari u yoki bu parametrning o'zgarishiga javob beradigan sensorlar yordamida elektr signaliga aylantirish orqali yagona fizikaviy tashuvchiga keltiriladi va sensorlar nafaqat o'rganilayotgan ob'ektdan, balki ma'lum sharoitlarda tadqiq qilish uchun zarur bo'lgan ob'ekt joylashgan muhitdan ham ma'lumot oladi. Ba'zi hollarda ushbu shartlarni berilgan rejaga muvofiq o'zgartirish mumkin bo'lishi kerak - bunday tajriba boshqariladigan deb ataladi. Ushbu yondashuv istiqbolli hisoblanadi, chunki u printsipial jihatdan yangi metodologik imkoniyatlarni ochib beradi. Biroq, hozirgi vaqtda, ko'p hollarda, tadqiqotchi passiv kuzatuvchi rolida qolib, boshqaruvsiz tajriba bilan cheklanishiga to’g’ri kelmoqda.
Ma'lumotlarni uzatish tizimi masofadan uzatish uchun zarur bo'lgan ma'lumotlarni o’zgartirishni amalga oshiradi (kodlash, zichlash, modulyatsiya-demodulyatsiya turidagi o’zgartirishlar va boshqalar). Avtomatik o'lchash mumkin bo'lmagan sifat ko'rsatkichlari mutaxassis tomonidan kiritiladi.
Biz тibbiy va biologik ma'lumotlarini qayta ishlashning ikkita asosiy yo'nalishini qayd etamiz:
1. Shifokorni kompyuter tizimiga almashtirish - intellektual tizimlarni yaratish.
Ushbu yo'nalish kompyuter yordamida tibbiy-biologik ma'lumotlar asosida tashxis qo'yish imkonini beradigan dasturiy ta'minotni ishlab chiqishda ifodalanadi. Bunday tizimlardan aholini profilaktik ko‘rikdan o‘tkazish jarayonida ularni “kasal – sog‘lom” kabi qaror qabul qilish holatlari uchun foydalanish mumkin. Tashxis qo'yilgan kasalliklarda yuzaga kelish ehtimoli turlicha bo'lgan xususiyatlarning katta to'plami bilan tavsiflangan kasalliklarni farqlash uchun yanada murakkab urinishlar qilinmoqda.
2. Kompyuter olingan ma'lumotlarni qayta ishlash va taqdim etish bo'yicha rasmiylashtirilgan, ko'p vaqt talab qiladigan ishni bajaradi va shifokor (tadqiqotchi) zimmasiga tashxis qo’yishning ijodiy jarayoni - interaktiv tizimlar yuklanadi. Axborotni qayta ishlash, mutaxassislarning fikriga ko'ra, ish vaqtining 20-30 foizini oladi. Bunday tizimlar axborotni qayta ishlash uchun ham, ma'lumotlarni taqdim etish uchun ham kutilmagan imkoniyatlar yaratadi.
Tibbiy - biologik ma'lumotlarni qayta ishlash uchun kompyuterlardan foydalanish, tashxis qo’yish yoki davolash jarayonida hech qanday tizim, hatto eng mukammali ham shifokorning o'rnini bosa olmaydi va bosa o'lmasligi kerakligidan kelib chiqadi. Avtomatlashtirilgan ma'lumotlarni qayta ishlash natijalarini yakuniy talqin qilish va muayyan terapevtik tadbirlarni amalga oshirish bo'yicha qaror qabul qilishda yakuniy so'zni shifokor aytadi. Ma'lumotlarni qayta ishlashning avtomatlashtirilgan tizimlari shifokorning ijodiy salohiyatini maksimal darajada oshkor qilishni ta'minlashi kerak.
3.2. Tibbiy - biologik ma'lumotlarini statistik qayta ishlash usullari
Turli kasalliklarni tashxislashning avtomatlashtirilgan tizimlarining markazida turli jins va yoshdagi sog'lom va kasal bemorlarni o'rganish natijasida olingan ko'rsatkichlar ma'lumotlar bazalari - ushbu kasalliklarning tibbiy-biologik tuzilmalari (TBT)lari mavjud. Bunday tadqiqotlar epidemiologik tadqiqotlar deb ataladi.
Patologik jarayonlarning stoxastikligi tufayli fiziologik ko'rsatkichlar sezilarli o'zgaruvchanlikka ega. Bu turli xil tashxis qo’yish usullari, algoritmlari va qurilmalarini yaratishga olib keldi, ularni qo'llash va o'rganish qiyinchiliklar paydo qildi. Shu bilan birga, TBT ning stoxastik tabiati bizga TBT ga ishlov berish tizimlarini ishlab chiqishda tasodifiy jarayonni uzatish, o'zgartirish va amalga oshirishni, statistik xususiyatlarni baholashni ifodalash tizimlari sifatida yondashish imkonini beradi.
Tasodifiy miqdor x(k) ixtiyoriy tanlangan makonning k nuqtalarida aniqlangan to‘plamning funksiyasidir. Bu har bir to‘plamning nuqtasiga ko'rsatilgan haqiqiy raqam. To‘plam makoni deganda o'lchovlarning mumkin bo'lgan natijalarini tasvirlovchi nuqtalar to'plami tushuniladi.
Tasodifiy miqdorning eng oddiy bahosi uning o'rtacha qiymatidir (birinchi moment). Agar X = (x₁, x₂, ...,x_k,…,x_N)y qiymatlari tanlovi mavjud bo'lsa, bu fiziologik ko'rsatkich X uchun o'rtacha qiymatni мю_х quyidagi formula bo'yicha hisoblash mumkin.

Masalan, taniqli fiziologik ko'rsatkich - bu Yoshi kattalar tanasining ichki bo'shliqlarining normal harorati T; мю_T= 36,6°S o'rtacha qiymatiga ega. Haroratning oshishi yoki pasayishi T, aniqrog'i, farq мю_T - T turli kasalliklarning boshlang’ich tashxis ko'rsatkichidir.
Biroq, kasallikni aniqlash uchun bitta diagnostika ko'rsatkichi etarli emas va shuning uchun fiziologik ko'rsatkichlar to'plami yoki vektori qo'llaniladi, masalan, klaster tahlili.
Klaster tahlili. Hozirgi vaqtda TBT ko'plab usullar yordamida ro'yxatga olinadi va tahlil qilinadi, ularni shartli ravishda uchta katta guruhga bo'lish mumkin.
1. Vizual (sifat). Shifokor TBT ni kuzatadi va oldingi kuzatishlar va tajriba bilan olingan bilimlar asosida qandaydir xulosalar chiqaradi. Kam aniqlikka qaramasdan (matematik tavsif bo'yicha), bu usul eng keng tarqalgan va shifokor etarli tajribaga ega bo'lsa, yaxshi natijalar beradi.
2. Matematik (miqdoriy). TBT ni qayta ishlashda uning turli parametrlari hisoblab chiqiladi, tahlillar asosida shifokor tashxis qo'yadi. Matematik tavsif nuqtai nazaridan, bu usullar ancha aniqroq, ammo ehtimollik nazariyasi va matematik statistika sohasidagi shifokorning etarlicha yuqori bilimini talab qiladi, buning natijasida ular har doim ham qo'llanilmaydi.
Tashxis qo’yish vazifasini hal qilish (ob'ektni me'yorga yoki patologiyaga ajratish) noto'g'ri aniqlash (birinchi turdagi xato) yoki maqsadni yo'qotish (ikkinchi turdagi xato) xavfi bilan bog'liq. Aniq qaror qabul qilish uchun statistik qarorlar qabul qilish nazariyasi usullari qo'llaniladi.
3. Aralash usullar birinchi ikki usulning birikmasidir. Bu guruhga klaster va konturli tahlil usullari kiradi. Ushbu yo'nalish eng istiqbolli hisoblanadi, chunki u shifokordan matematika sohasida sezilarli aniq bilimlarni talab qilmaydi. Tahlil qilingan ma'lumotlar grafik tarzda ko'rsatiladi, bu shifokor uchun eng tanish va qulaydir. Kontur va klaster tahlil usullaridan foydalanish, ayniqsa, fiziologik nuqtai nazardan samaralidir.
Rasmiy ravishda, berilgan ob'ektlar to'plamini klasterli tahlil qilish muammosi deganda, ushbu to'plamni kesishmaidigan kichik to'plamlarga (klasterlarga) bo'lish tushuniladi, shunda bitta kichik to'plamga tegishli elementlar turli kichik to'plamlardagi elementlarga nisbatan bir-biridan ancha kamroq darajada farqlanadi.
Tashxis ko'rsatkichlarining ko'p o'lchovli makonida me'yorlar va kasalliklar klasterlari ushbu makonning turli qismlarida, "oddiy bulut" dan turli masofalarda joylashgan nuqtalarning "bulutlari" orqali ko'rsatiladi.
Geometrik jihatdan, klasterlar ma'lum kasalliklarning makoniy tasvirlari hisoblanadi. Ushbu tasvirlarni tanib olish tashxis qo’yishni avtomatlashtirish imkonini beradi.
Tasvirlarni tanib olishning umumiy nazariyasi tibbiy va texnik tashxis qo’yishning asosiy muammosini hal qilishni nazariy asosidir. Bu nazariya har qanday tabiatdagi (geometrik, tovush, matn va boshqalar) tasvirlarni tanib olish bilan shug'ullanadi va boshqaruv nazariyasi bo'limini ifodalaydi. Tibbiy-texnik tashxis qo’yish tashxis qo’yishni muammolarini tanib olish algoritmlarini ishlab chiqadi, ular odatda tasniflash muammolari sifatida qaraladi.
Tibbiy va texnik tashxis qo’yishda tanib olish algoritmlari biologik ob'ektning holatlari va ularning aks etishi - TBT makonidagi klasterlar o'rtasidagi aloqani o'rnatadigan tashxis qo’yish modellariga asoslanadi. Tanib olish muammosining muhim qismi qaror qabul qilish qoidalaridir.
Masofaviy funksiyalardan foydalangan holda tasvirlar tasnifi tasvirlarni avtomatik aniqlashning birinchi g'oyalaridan biridir. Ushbu oddiy tasniflash usuli o'zgaruvchanlik darajasi bilan tavsiflangan sinflar oqilona chegaralar bilan cheklanganda bunday muammolarni hal qilish juda samaralidir. Keyinchalik, minimal masofa mezoniga asoslangan tasniflagichlarni amalga oshirish xususiyatlari va usullari batafsil ko'rib chiqiladi. Masalan, sinfdan bitta namunaviy tasvirini tanlash orqali tavsiflanishi mumkin bo'lgan sinflar uchrab turadi. Bunday hollarda, ko'rib chiqilayotgan har qanday sinfning tasvirlari tegishli sinfga xos yoki vakili bo'lgan ba'zi bir tasvir atrofida to'planishga moyildir. Tasvirlarning o'zgaruvchanlik darajasi kichik bo'lsa va xatolik osongina hisobga olinadigan bo'lsa, shunga o'xshash vaziyatlar yuzaga keladi. Ba'zan sinflar sinfdan bir nechta namunaviy tasvirlarini tanlash bilan tavsiflanadi.
Faraz qilaylik, har bir sinfni bitta emas, balki bir nechta namunaviy tasvirlari bilan tasvirlash mumkin, ya’ni A sinfga tegishli har qanday tasvir Z₁, Z₂,..., Z_Ni namunaviy tasvirlaridan biri atrofida guruhlanishga intiladi. Bu erda Ni - i-sinfni belgilaydigan namunaviy tasvirlari soni. Bunday holda, boshqa tasniflagichdan foydalanish kerak. Tasniflash vositasi sifatida masofaviy funksiyalarni tanlash biz evklid makonidagi nuqtalar bilan bir xil tarzda izohlaydigan tasvirlar vektorlari uchun o'xshashlik o'lchovini kiritishning eng aniq usuli ularning yaqinligini aniqlashning tabiiy natijasidir.

3.2-rasm. "Yaqinlik" tushunchasi yordamida tasniflanishi
mumkin bo'lgan tasvirlar
Xususan, 3.2- rasmni o'rganish orqali X vektor faqat C₂ sinfiga qaraganda C₁ sinf tasvirining vektorlariga yaqinroq degan mulohazalardan kelib chiqib, X vektori C₁ sinfiga tegishli degan xulosaga kelish mumkin.
Tasvirlarni masofaviy funksiyalardan foydalangan holda tasniflashda qoniqarli amaliy natijalarga faqat tasvirlar sinflarini klasterlash xususiyatlarini namoyon qilish tendentsiyasini ko'rsatadigan hollarda ishonish mumkin.
Intuitiv g'oyalar umumiy shaklga ega bo'lishi va tegishli matematik qat'iylik darajasiga qadar ishlab chiqilishi kerak.
Berilgan tasvirning ma'lum sinfdagi tasvirlarga yaqinligi uni tasniflash mezoni sifatida qo'llanilishi sababli, bunday yondashuv tasvirlarni minimal masofa mezoniga ko'ra tasniflash deb ataladi. Klasterlash xususiyatlari minimal masofa mezoniga asoslangan avtomatik tasniflagichlarning ishlashiga sezilarli ta'sir ko'rsatganligi sababli, klasterlarni topish uchun bir nechta algoritmlar taklif qilingan.
Shuni ta'kidlash kerakki, klasterlarni aniqlash ko'p jihatdan juda empirik "san'at". Muayyan algoritmning ishlashi nafaqat tahlil qilinadigan ma'lumotlarning tabiatiga, balki tasvirlarning o'xshashligining tanlangan o'lchoviga va ma'lumotlar tizimidagi klasterlarni aniqlash uchun ishlatiladigan usulga ham bog'liq. Quyida muhokama qilinadigan tegishli tushunchalar o’qituvchisiz tanib olish tizimlarini yaratish uchun asos bo'lib xizmat qiladi.
Ma'lumotlar to'plamida klasterni aniqlash uchun, birinchi navbatda, ma'lum bir klaster markazi bilan tavsiflangan hududga tasvirlarni belgilash qoidasi uchun asos bo'lishi mumkin bo'lgan o'xshashlik o'lchovini kiritish kerak.
Tana harorati misolida x va z tasvirlarni orasidagi evklid masofasi quyidagicha aniqlanadi:
3.1
Bu xarakteristika tasvirlarning o'xshashligi o'lchovi sifatida ishlatiladi: ular orasidagi masofa qanchalik kichik bo'lsa, o'xshashlik shunchalik katta bo'ladi. Quyidagi algoritmlar ushbu tushunchaga asoslanadi.
Biroq, o'xshashlik ko'rsatkichlari masofalar bilan cheklanmaydi. Misol tariqasida x va z vektorlari hosil qilgan burchakning kosinusu boʻlgan va ularning yoʻnalishlari mos kelganda maksimal darajaga yetadigan metrik boʻlmagan oʻxshashlik funksiyasini keltirish mumkin.

Ushbu o'xshashlik o'lchovi klasterlar asosiy o'qlar bo'ylab joylashish tendentsiyasini ko'rsatadigan hollarda foydalanish uchun qulaydir. Shuni ta'kidlash kerakki, ushbu chorani qo'llash, masalan, klasterlarning bir-biridan va koordinat boshidan etarlicha masofada ekanligi kabi o'ziga xos cheklovlar bilan bog'liq.
Tahlil qilingan ma'lumotlarni klasterlarga bo'lish tartibini aniqlash muammosi tasvirlarning o'xshashligi o'lchovini tanlagandan keyin ham ochiq qolmoqda. Klasterlash mezoni ba'zi evristik mulohazalarni takrorlashi yoki ba'zi sifat ko'rsatkichlarini minimallashtirishga (yoki maksimallashtirishga) asoslangan bo'lishi mumkin.
Evristik yondashuvda sezgi va tajriba hal qiluvchi rol o'ynaydi. Ushbu yondashuv klasterlardan biriga tasvirlarni belgilash uchun tanlangan o'xshashlik o'lchovidan foydalanishni ta'minlaydigan qoidalar to'plamini o'rnatishni nazarda tutadi. Evklid masofasi bunday yondashuv uchun juda mos keladi, bu uning yaqinlik o'lchovi sifatida talqin qilinishining tabiiyligi bilan bog'liq.
Ikki tasvirning yaqinligi ularning o'xshashligining nisbiy o'lchovi bo'lganligi sababli, klasterlarni topish jarayoni uchun maqbul o'xshashlik darajasini belgilash uchun odatda chegarani kiritish kerak.
Klasterlash uchun sifat ko’rsatkichining yondashuvi tanlangan sifat ko’rsatkichini minimallashtiradigan yoki maksimal darajada oshiradigan protseduralarni ishlab chiqishni o'z ichiga oladi.
Eng zaruriy ko'rsatkichlardan biri kvadrat og'ishlar yig'indisi:
3.2
bu erda N_d - klasterlar soni; S_j - j-chi klasterga tegishli tasvirlar to'plami; m_j - S_jto'plam uchun namuna vositalarining vektori, N_j - S_j to'plamga kiritilgan tasvirlar soni.
m_j=(1/N_j)SSx; x_eSj x_eSj
Sifat ko'rsatkichi (10.2) klaster uchun mos keladigan o'rtacha qiymatlardan ma'lum bir klasterga kiritilgan barcha tasvirlar xususiyatlarining kvadratik og'ishlarining umumiy yig'indisini aniqlaydi. Ushbu sifat reytingiga asoslangan algoritm quyida muhokama qilinadi.
Tabiiyki, sifatning boshqa ko'rsatkichlari ham mavjud: klasterdagi tasvirlar orasidagi kvadratik masofalarning o'rtacha qiymati; turli klasterlarga kiritilgan tasvirlar orasidagi kvadratik masofalarning o'rtacha qiymati; tarqalish matritsasi kontseptsiyasiga asoslangan ko'rsatkichlar; minimal va maksimal dispersiya va boshqalar.
Ko'pincha evristik yondashuv va sifat ko'rsatkichidan birgalikda foydalanishga asoslangan klasterlarni topish algoritmlari qo'llaniladi. Shunga o'xshash kombinatsiya ISOMAD algoritmidir (Iterativ Self-Organizing Data Analysis Techniques).
Klasterlash sohasidagi ishlarning holati to'g'risida oldingi fikr-mulohazalar nuqtai nazaridan, bu holatni kutilmagan deb atash mumkin emas, chunki klasterlarni topish uchun individual algoritmlarning sifati asosan uning mualliflarining tahlil qilingan ma'lumotlardan foydali ma'lumotlarni olish qobiliyati bilan belgilanadi. .
Quyidagi algoritmlar bunga yaxshi misoldir.
3.3. Klasterni aniqlashning oddiy algoritmi.
N ta tasvirlar toʻplami {x_{1 ,}x₂,..., x_N} berilsin, birinchi klasterning markazi r, berilgan tasvirlarning istalganiga toʻgʻri keladi, ixtiyoriy manfiy boʻlmagan chegara qiymati R aniqlanadi; qulaylik uchun z_i= x_i deb faraz qilishimiz mumkin.
D_2i masofasi (3.1) formula bo'yicha x₂ tasviri va z_i klasterining markazi o'rtasida hisoblanadi. Agar bu masofa TD_2i > T chegara qiymatining qiymatidan katta bo'lsa, u holda yangi klaster markazi z₂ = x₂ o'rnatiladi. Aks holda, x₂ tasvir markazi z_ibo'lgan klasterga kiritiladi.
D_2i > T sharti qanoatlansin, ya'ni z₂ yangi klasterning markazi. Keyingi bosqichda D₃₁ va D₃₂masofalari x₃ tasviridan z₁ va z₂ klaster markazlarigacha hisoblab chiqiladi. Agar ikkala masofa T chegara qiymatidan katta bo'lsa, u holda klasterning yangi markazi z₃ = x₃ o'rnatiladi. Aks holda, x₃ tasviri markazi unga yaqinroq bo'lgan klasterga kiritiladi.
Xuddi shunday, har bir yangi tasvirdan klasterning ma'lum markazigacha bo'lgan masofalar topiladi va chegara qiymati bilan taqqoslanadi. Agar bu masofalarning barchasi T chegara qiymatidan oshsa, u holda yangi klaster markazi tashkil etiladi. Aks holda, tasvir markazga eng yaqin joylashgan klasterga kiritiladi.
Ta'riflangan protsedura natijalari klasterning birinchi markazini tanlash, tasvirlarni ko'rib chiqish tartibi, T chegara qiymatining qiymati va, albatta, ma'lumotlarning geometrik xususiyatlari bilan belgilanadi. 3.3 rasmda bir xil ma'lumotlar uchun klaster markazlarini tanlashning uchta varianti ko'rsatilgan, ular faqat T chegara miqdorning qiymatini va boshlang'ich klasterlash nuqtasi joylashuvini o'zgartirish natijasida paydo bo'lgan.

3.3-rasm. Chegara miqdorining qiymati va boshlang'ich nuqtasi joylashuvining o'zgarishi natijasida bir xil ma'lumotlar uchun klaster markazlarini tanlash variantlari (a - в).
Klasterni aniqlashning oddiy algoritmi bir qator kamchiliklarga ega, biroq u berilgan ma’lumotlar to‘plamining asosiy xarakteristikalari bo‘yicha taxminiy baholarni tez va oson olish imkonini beradi. Bundan tashqari, ushbu algoritm hisoblash nuqtai nazaridan jozibali, chunki T chegara qiymatining ma'lum bir qiymatiga mos keladigan klasterlarning markazlarini topish uchun namunani faqat bitta skanerlash talab qilinadi.
Bunday protsedura yordamida tasvirlarni taqsimoti geometriyasini yaxshi tushunish uchun turli chegara qiymatlari va dastlabki klasterlash nuqtalari bilan ko'plab tajribalar o'tkaziladi. O'rganilayotgan tasvirlar odatda yuqori o'lchamga ega bo'lganligi sababli, natijalarni vizual talqin qilish istisno qilinadi. Shu munosabat bilan zarur ma'lumotlar, asosan, har bir ma'lumotlarni ko'rish tsiklidan keyin klaster markazlarini ajratib turadigan masofalar va turli klasterlarga kiritilgan tasvirlar sonini taqqoslash yo'li bilan olinadi.
Foydali xarakteristikalar, shuningdek, klasterning markazdan eng yaqin va eng uzoq nuqtalarini va alohida klasterlarning o'lchamlaridagi farqni o'z ichiga oladi. Ma'lumotlarni qayta ishlashning har bir tsiklidan keyingi ma'lumotlar T chegara qiymatining yangi qiymatlarini va keyingi tsikldagi dastlabki klasterlash nuqtasini tanlashni tuzatish uchun ishlatilishi mumkin. Foydali natijalarga bunday tartib yordamida erishish mumkin bo'lgan hollarda, ma'lumotlarda xarakterli "uyalar" mavjud bo'lib, ular chegara qiymatining tegishli tanlovi bilan etarlicha yaxshi ajratiladi.
3.4. Guruh ichidagi o'rtacha ko'rsatkichlar algoritmi.
Klasterni aniqlashning oddiy algoritmi mohiyatan evristik yondashuvdir. Algoritm K guruh ichidagi vositalar klaster maydoniga kiritilgan barcha nuqtalarning klaster markazigacha bo'lgan kvadratik masofalarining yig'indisi sifatida aniqlangan sifat indeksini minimallashtiradi. Ko'pincha K guruh ichidagi vositalar algoritmi deb ataladigan ushbu protsedura quyidagi bosqichlardan iborat.
1-qadam. z₁(l), z₂( 1),…, z_k( 1) klasterlarning K boshlang‘ich markazlarini tanlash. Tanlov o'zboshimchalik bilan amalga oshiriladi, dastlabki markazlar sifatida berilgan tasvirlar to'plamidan namunaning birinchi K natijalari ishlatiladi.
2-qadam. Berilgan tasvirlar to‘plamining K klasterlar bo‘yicha takrorlash bosqichida taqsimlanishi:
3.3
Bu erda S_j(k) - markaz z_j(k) bo'lgan klasterga kiritilgan tasvirlar to'plami. (10.3) da tenglik bo'lsa, qaror ixtiyoriy ravishda qabul qilinadi.
3-bosqich. 2-bosqich natijalari asosida yangi klaster markazlari z_j(k + 1 ),j =1,2,..., K ni aniqlash. S_j (k) to'plamga tegishli barcha tasvirlar va klasterning yangi markazi orasidagi kvadratik masofalar yig'indisi minimal bo'lishi sharti asosida aniqlanadi.
Boshqacha qilib aytganda, yangi klaster markazlari z_j(k + 1) sifat omilini minimallashtiradigan tarzda tanlanadi:

Sifat indeksini minimallashtirishni ta'minlaydigan z_j (k + 1) markazi S_j(k) to'plamidan aniqlangan namunaviy o'rtacha hisoblanadi. Shunday qilib, yangi klaster markazlari quyidagicha aniqlanadi:

Bu erda N_j- S_j(k) to'plamiga kiritilgan namunali tasvirlar soni.
Ko'rinib turibdiki, guruh ichidagi o'rtacha ko'rsatkichlar uchun algoritm nomi klaster markazlarini belgilashni ketma-ket tuzatish uchun qabul qilingan usul bilan aniqlanadi.
4-qadam. z_j(k+1)=z_j(k) tenglik j = 1,2,..., K uchun algoritmning yaqinlashuvining shartidir, unga erishilganda algoritm tugaydi. Aks holda, algoritm 2-bosqichdan boshlab takrorlanishi kerak bo’ladi.
K ning guruh ichidagi o'rtacha ko'rsatkichlarini hisoblash asosidagi algoritmlarning ishlashi tanlangan klaster markazlari soniga, dastlabki klaster markazlarini tanlashga, tasvirni tekshirish ketma-ketligiga va ma'lumotlarning geometrik xususiyatlariga bog'liq. Ushbu algoritm uchun umumiy yaqinlashuvni isbotlash ma'lum bo'lmasa-da, ma'lumotlar bir-biridan etarlicha uzoqda joylashgan xarakterli "uyalarni" hosil qilgan hollarda maqbul natijalarni kutish mumkin. Ko'pgina hollarda, ushbu algoritmni amaliy qo'llash K parametrining turli qiymatlarini tanlash va klaster markazlarining dastlabki joylashuvi bilan bog'liq tajribalarni talab qiladi.
3.5. Tibbiyotda statistik ma'lumotlarning turlari.
Statistik ma'lumotlar ham miqdoriy (raqamli uzluksiz yoki diskret) va sifat (toifa tartibli yoki nominal) o'zgaruvchilar sifatida taqdim etilishi mumkin.
Ma'lumotlar bazasini to'ldirishda o'zgaruvchining turini aniq ko'rsatish va tanlangan ma'lumotlar turiga qat'iy rioya qilish kerak, chunki hozirda foydalaniladigan 5 ta statistik dasturlarda o'zgaruvchilarni keyingi qayta ishlashi bunga bog'liq bo'lishi mumkin. Masalan, o'zgaruvchan ustunga bir vaqtning o'zida raqamli va matnli, hatto o'xshash ma'lumotlarni kirita olmaysiz: bunday xolda "ha / yo'q"ni to'ldirish uchun “1” yoki “0” bilan tasvirlash mumkin.
Miqdoriy (raqamli) ma'lumotlar o'zgaruvchining qandaydir raqamli qiymat olishini nazarda tutadi. Ulardan qat'iy belgilangan qiymatlarni olishi mumkin bo'lgan diskret ma'lumotlar ajralib turadi, uzluksizlar esa har qanday qiymatlar bilan ifodalanishi mumkin.
Miqdoriy ma'lumotlarning o'ziga xos namunasi yoshni ikki turda ko'rsatishdir: doimiy o'zgaruvchi sifatida - bemorning aniq yoshi ko'rsatiladi va diskret o'zgaruvchi sifatida - faqat tugallangan yillar soni ko'rsatiladi (50,3 yil va 50 yosh; 50,9 va 51 yosh). Toifalilik sifat o'zgaruvchilarni semantik tushunish uchun asosdir. Toifalik ma'lumotlar ob'ektga tegishli bo'lgan toifaga mos keladigan raqamni berish orqali ob'ekt holatini tavsiflash uchun ishlatiladi.
Toifalik ma'lumotlardan foydalanishning muhim sharti bitta tadqiqot ob'ektining bir mezon bo'yicha faqat bitta mumkin bo'lgan toifaga tegishli bo'lishidir. Sifatli nominal ma'lumotlar toifalar tartiblanmagan hollarda qo'llaniladi. Bu holda raqamlar faqat ob'ektning holati uchun belgi bo'lib, bu holatni tartibga solmaydi. Masalan, jinsi bo'yicha: 1 - erkak, 2 - ayol. Sifatli tartib (darajali, oddiy) ma'lumotlar – bu ma'lumotlar uchun toifalar tartibga solinishi mumkin bo'lgan ma'lumotlar. Masalan, yomon sog'likdan yaxshilikka: 1 - yaxshi, 2 - qoniqarli, 3 - yomon.
Amalda, miqdoriy ma'lumotlarni sifatli toifali tartiblangan ko'rinishga aylantirish ko'pincha qo'llaniladi, ayniqsa kesishuv jadvalidan foydalangan holda xavf xususiyatlarini yoki bashoratli ahamiyatini keyingi hisob-kitoblar uchun chegara qiymatlarini (kesish) hisoblashda. Misol uchun, 1 - umumiy xolesterin konsentratsiyasi 5,2 mmol / l dan kam yoki unga teng (koronar arteriya kasalligini rivojlanish xavfi 6,1 dan kam, ijobiy natijaning bashoratli qiymati 80% dan kam), 2 - umumiy xolesterin kontsentratsiyasi 5,2 mmol / l dan ortiq (koronar arteriya kasalligini rivojlanish xavfi 1 dan ortiq, ijobiy natijaning prognozli qiymati 80% dan ortiq).
Statistik ma'lumotlarni tahlil turlari. O'tkazilgan tadqiqot natijalarini qayta ishlash amaliyotida statistik ma'lumotlarni tahlil qilishning ikki turi qo'llaniladi - birlamchi (rejalashtirilgan) va ikkilamchi (rejadan tashqari).
Birlamchi ma'lumotlarni tahlil qilish - tadqiqotchi tomonidan mavjud bo'lgan va tadqiqotning haqiqiy gipotezasi bo'lgan qonuniyatlarni o'rganish va tavsiflash uchun ishlatiladi. Bunday holda, o'rganishni rejalashtirishda hisobga olingan xususiyatlar tahlil qilinadi va oldindan tuzilgan farazlar tekshiriladi.
Ikkilamchi ma'lumotlarni tahlil qilish - o'rganish, qidirish, kerakli qonuniyatlarni va gipotezalarni o'rganish istiqbollarini shakllantirish uchun ishlatiladi. Bunday holda, ma'lum bir ishda rejalashtirilmagan ma'lumotlarni "elakdan o'tkazish" amalga oshiriladi, bu ko'pincha ma'lumotlar bilan tanishishning birinchi bosqichida maqsadga muvofiqdir.

Download 0,53 Mb.

Do'stlaringiz bilan baham:

1 ... 7 8 9 10 11 12 13 14 15