Mavzu: filogenetik daraxtlar va klasterlash metodlari


Download 97.46 Kb.
bet2/5
Sana11.11.2023
Hajmi97.46 Kb.
#1766418
1   2   3   4   5
Bog'liq
FILOGENETIK DARAXTLAR VA KLASTERLASH METODLARI

II ASOSIY QISM
1.1. Filogenetik daraxtlarni rekonstruktsiya qilishda genetik algoritm qanday qo'llaniladi
GA ko'p yillar davomida muhandislikning turli xil murakkab muammolariga qo'llanilgan, garchi ulardan biologik ma'lumotlar bilan bog'liq muammolarda qo'llanilishi bir necha yil oldin o'rganilgan bo'lsa-da, GA ning murakkab ma'lumotlar holatida tezda deyarli optimal echimlarni topish qobiliyati ularni qiladi. Filogenetik xulosa chiqarish muammosiga ideal nomzodlar, ayniqsa, ko'plab soliqlar kiritilganida yoki murakkab evolyutsion modellar (maksimal ehtimollik kabi kompyuter intensiv xulosa chiqarish usullarini qo'llashni talab qiladigan) qo'llanilganda. Filogeniya rekonstruksiya qilingan taqdirda, har bir shaxsning yagona xromosomasi bitta filogenetik daraxtni, uning shoxlari uzunligi va ishlatiladigan almashtirish modelini o'z ichiga olgan boshqa parametrlarning qiymatlari bilan kodlash uchun mo'ljallangan bo'lishi mumkin. Mutogenlik va rekombinatsiya operatorlari filogenetik daraxtlar uchun aniqlanishi mumkin va odamning jismoniy tayyorgarligi uning tabiiy balliga teng bo'lishi mumkin. LnL qiymatlari yuqori bo'lgan daraxtlar keyingi avlodga ko'proq avlod qoldirishga moyildirlar va tabiiy tanlanish simulyatsiya qilingan populyatsiyadagi odamlarning o'rtacha miqdorini oshiradi. Aholining jismoniy holati yaxshilanishni to'xtatgandan keyin eng yuqori lNLga ega bo'lgan daraxt, ehtimollik ehtimoli yuqori bo'lgan daraxtning eng yaxshi bahosi hisoblanadi [8].
Genetik algoritmga asoslangan filogenetik daraxtlarni rekonstruksiya qilish
Hideo Matsuda [5] (1996) aminokislotalar ketma -ketligidan filogenetik daraxtlar yaratishni taklif qildi, bu genetik algoritmdan farq qiladi, bu kodlash sxemasi, o'zaro faoliyat va mutatsion operatori asosida oddiy genetik algoritmdan [2] farq qiladi. Dastlabki bosqichda, mavjudlar orasida
muqobil daraxtlar, ularning yaroqliligiga qarab rulet tanlash orqali belgilangan miqdordagi daraxtlar tanlangan. Shundan so'ng daraxtlarning sifatini yaxshilash uchun avloddan -avlodga krossover va mutatsion operatsiyalar qo'llanildi. Har bir avloddagi daraxtlar soni aniqlanganligi sababli, eng yaxshi ball to'plagan daraxtlar ushbu operatorlar tomonidan olib tashlanadi. Algoritm shuningdek, eng yaxshi ball bilan qurilgan daraxt har bir avlod uchun omon qolishi kerakligini tekshiradi. Algoritmning asosiy afzalligi uning tasodifiy hosil bo'lgan daraxtlardan krossover va mutatsiya operatorlari yordamida ko'proq ehtimoliy daraxt qurish qobiliyatidir. Eksperimental natijalar shuni ko'rsatadiki, taklif qilingan algoritmning ishlashi boshqa Maksimal Parsimon Maksimal ehtimoli, UPGMA usullari kabi turli xil daraxt qidirish algoritmlari bilan solishtirish mumkin2.
Filogeniyani rekonstruktsiya qilish - bu qiyin hisoblash muammosi, chunki ko'p miqdordagi soliqlar (ob'ektlar) ni o'z ichiga olgan holda, mumkin bo'lgan echimlar ham ko'payadi, bu esa optimal bo'lmagan daraxtlarni baholashga sarflanadigan vaqtni oshiradi. Bu muammoni bartaraf etish uchun Paul.et.al [8] (1998) nukleotidlar ketma-ketligi ma'lumotlaridan foydalanib, maksimal ehtimollik filogenezi xulosasi uchun genetik algoritmni taklif qildi. Pavlus genetik algoritmga asoslangan evristik qidiruvni taqdim etadi, bu ko'p sonli taksonlarni o'z ichiga olgan ma'lumotlar to'plamida maksimal ehtimollik filogenetik xulosa qilish uchun zarur bo'lgan vaqtni kamaytiradi. Algoritm quyidagicha ishlaydi: Birinchidan, har bir shaxs tasodifiy daraxt topologiyasi bilan ishga tushiriladi, unda har bir filialga tasodifiy qiymat beriladi. InL ball asosida har bir zarrachaning yaroqlilik qiymati hisoblanadi. InL balining eng yuqori qiymatiga ega bo'lgan shaxs keyingi avlod uchun nasl berish uchun ishlatiladi. Nihoyat, rekombinatsiya operatsiyasi amalga oshiriladi. Bu rekombinatsiya operatsiyasi GAni boshqa an'anaviy echimlardan kamroq vaqt ichida yechim olishdan ajratib turadi. Eksperimental natijalar shuni ko'rsatadiki, bir xil Maksimal ehtimollik topologiyasini olish uchun daraxtning ikkiga bo'linishi (TBR) novdalarini almashtirishdan foydalangan holda an'anaviy evristik qidiruv uchun talab qilinadigan hisoblash harakatlarining atigi 6%.
2002 yilda Clare et. al [10] taklif qilgan "Gaphyl: organizmlar o'rtasidagi evolyutsion munosabatlarni o'rganish uchun evolyutsion algoritmlar yondashuvi". Mavjud filogenetik dasturiy paketlar optimal filogenetik daraxtni topish uchun evristik qidiruv usullaridan foydalanadi, Graphyl esa evolyutsion mexanizmlardan foydalanadi, shuning uchun qisqa vaqt ichida to'liqroq yechim topadi. Grafildagi GA qidirish jarayoni filogenetika uchun xuddi shu ish vaqtida Phylip [3] ga qaraganda bir xil darajada ishonchli daraxtlarni topishda katta foyda keltiradi. Bundan tashqari, ma'lumotlar to'plami turlar va atributlar sonining ko'payishi hisobiga kattalashib borgan sari, Gafilning Filip ustidan samaradorligi oshadi, chunki Gafil qidirish jarayoni atributlar (va atributlar-qiymatlar) soniga va qidirishning murakkabligiga bog'liq emas. daraxtdagi barg tugunlari sonini aniqlaydigan turlar soniga qarab o'zgaradi.

Gafil Kler. va boshqalar. al [12] (2003) Gafilning yangi versiyasini taklif qildi, unda Gafil genetik ma'lumotlar bilan ishlash uchun kengaytirilgan. Taklif etilgan algoritmda Gafilning DNK versiyasi tuzilgan va DNK ma'lumotlari asosida Gafil va Filipni qidirish jarayoni solishtirilgan. Eksperimental natijalar shuni ko'rsatadiki, Gafilning ishlashi, ba'zi hollarda, Filipga qaraganda yaxshiroq.


3. Chumolilar koloniyasini optimallashtirish
Chumolilar koloniyasini optimallashtirish (ACO) M. Dorigo tomonidan ishlab chiqilgan evolyutsiya algoritmidir.
va boshqalar. al [6] (1996), haqiqiy chumolilarning ovchilik xatti -harakatlaridan ilhomlangan. Chumoli ovqatni qidirganda, chumoli dastlab uyasi bilan qoplangan joyni tasodifiy ravishda siljitadi. Chumoli oziq -ovqat manbasini topgach, uning sifati va miqdorini tahlil qilib, uning bir qismini uyasiga qaytaradi. Kimyoviy feromon izi chumoli qaytib kelganida erga tushiriladi. Bu boshqa chumolilarga oziq -ovqat manbalariga etib borishiga yordam beradi. Feromon yo'llari orqali chumolilar o'rtasidagi bilvosita aloqa yordamida uya va oziq-ovqat manbai o'rtasidagi eng qisqa yo'lni topishga yordam beradi. Chumolilar koloniyalarining bu xususiyati sun'iy chumolilar koloniyalarida kombinativ optimallashtirish (CO) muammolarini hal qilish uchun ishlatiladi. Umuman olganda, ACO optimallashtirish muammolarini hal qilish uchun ikki bosqichni takrorlaydi.
1) Nomzodlik eritmasi feromonli model yordamida quriladi, ya'ni eritma maydonida ehtimollik taqsimotini parametrlangan holda ishlatish.
2) Nomzod echimlar yaxshi sifatli eritma olishda filtrlash uchun ferom qiymatlarini yangilash yoki o'zgartirish uchun ishlatiladi.
B bo'limida biz filogenetik daraxtlarni rekonstruksiya qilishda chumolilar koloniyasini optimallashtirish (ACO) qanday qo'llanilishini muhokama qilamiz, so'ngra C bo'limida bir qancha tadqiqotchilar chumolilar koloniyasini optimallashtirish orqali filogenetik daraxtni qurish uchun qilgan ishlarini tasvirlab beramiz.
Filogenetik daraxt qurilishi muammosi standart TSP (sayohatchi sotuvchi muammosi) ga juda o'xshash. Har bir taksiga bitta xayoliy shaharni bog'lash mumkin va bu mos keladigan taksilar juftligi uchun ma'lumotlar matritsasidan olingan ma'lumotlar ikki shahar orasidagi masofa sifatida belgilanadi. Muammoning bunday tuzilishi ACO kabi evristik algoritmlarni qo'llashga yo'l ochadi, vositachi tugun chumolilar tizimi tomonidan ilgari tanlangan ikkitasi orasidan tanlanadi. Vositachilik tuguniga asoslanib, qolgan tugunlarga (turlarga) bo'lgan masofalar qayta hisoblab chiqiladi. Ushbu protsedura, tashrif buyurilgan tugunlarga tegishli bo'lmagan barcha tugunlar yo'l qurilgunga qadar takrorlanadi. Yo'lning qo'shni tugunlarining o'tish ehtimoli yig'indisi feromon izini yangilashda foydalanilgan yo'lning balli deb ataladi. Amalga oshirish tsikli davomida hech bo'lmaganda bitta yo'lga tegishli bo'lgan barcha tugunlar feromon izini oshirishga yordam beradi. Bu asosiy nuqta mahalliy maksimal tuzoqqa tushmaslikka yordam beradi. Shunday qilib, TSPni echish uchun chumolilar koloniyasi algoritmiga ruhiy jihatdan yaqin bo'lgan algoritmga amal qilib, filogenetik daraxtlarni samarali rekonstruksiya qilish mumkin.
Filogenetik xulosa chiqarish uchun mavjud bo'lgan yondashuvlarning aksariyati bir nechta hizalama ketma -ketligidan foydalanadi. Ammo genlarni qayta tartibga solish, subversiya darajasida inversiya, transpozitsiya va translokatsiya, ketma -ketliklarning teng bo'lmagan uzunligi va boshqalar tufayli ko'p ketma -ketlik hizalanishi samarasiz. To'liq genomga asoslangan filogenetik tahlil jozibador, chunki bitta genlar ketma -ketligi organizmlarning evolyutsion tarixini tuzish uchun etarli ma'lumotga ega emas. Hasan bunday muammoni hal qilish uchun. va boshqalar. al [13] (2003) filogenetik daraxt qurilishi uchun yangi ketma -ketlik masofa o'lchovini taklif qildi, bunda filogenetik daraxt LZ murakkabligi [1] yordamida cheklangan ketma -ketliklar orasidagi o'lchangan masofaga asoslangan holda quriladi. S sonli ketma -ketlikning LZ murakkabligi S ni qurgan ishlab chiqarish jarayoni uchun zarur bo'lgan qadamlar soni sifatida aniqlanadi. Olingan masofa matritsasi filogenetik daraxtlarni qurish uchun ishlatiladi. Taklif etilayotgan yondashuvning asosiy afzalligi shundaki, u hech qanday ketma-ketlikni tekislash strategiyasini talab qilmaydi va butunlay avtomatikdir. Eksperiment natijalari shuni ko'rsatadiki, taklif qilingan algoritm real va simulyatsiya qilingan ma'lumotlar to'plamlari uchun samarali va izchil filogenezni muvaffaqiyatli qurdi.
Hui-Ying. va boshqalar. al [14] (2004) Filogenetik daraxtni qayta tiklash uchun yangi algoritmni taklif qildi, unda populyatsiyadan eng yaxshi daraxtni tanlash uchun Diskret zarrachalar to'dasini optimallashtirish (DPSO) qo'llaniladi. Taklif etilgan algoritmda dastlab har bir zarrachaning yaroqlilik qiymati populyatsiyada hisoblab chiqiladi va undan keyin filogenetik daraxt qurilishida maksimal yaroqlilik qiymatiga ega bo'lgan odam ishlatiladi. Daraxt qurilgandan so'ng, populyatsiyani yangilash va filiallarni sozlash amalga oshiriladi. Populyatsiyani yangilashda pozitsiya va tezlik DPSO [4] pozitsiyasi va tezligini yangilash tenglamalari yordamida yangilanadi. Daraxt shoxini sozlashning keyingi bosqichida taqqoslash amalga oshiriladi. Agar ikkita tugun orasidagi masofa 2D dan katta yoki teng bo'lsa (D ikki ketma -ketlik orasidagi masofani bildiradi), shoxni ajratib oling, aks holda filialni birlashtiring. Ushbu yangilanish filogenetik daraxt optimallashtirilmaguncha davom etadi. DPSO algoritmi boshlang'ich populyatsiya o'zgartirilsa ham optimallashtirilgan natijalar beradi. DPSO algoritmi turli xil yashil o'simliklardan rbcL xloroplast genining ketma-ketligini o'z ichiga olgan 25 ta ketma-ketlik masalasida qo'llaniladi va Eksperimental natijalar boshqa an'anaviy algoritmlarga nisbatan qoniqarli natijani ko'rsatadi.
Ushbu maqolada biz bir necha tadqiqotchilar tomonidan Filogenetik daraxtni yaratish bo'yicha yaqinda qilingan ba'zi sa'y-harakatlarni ko'rib chiqdik. Daraxtlarni filogenetik rekonstruksiya qilish muammosiga qisqacha ma'lumot berganimizdan so'ng, biz GA, PSO va ACO tomonidan filogenetik daraxtlarni qayta tiklash uchun bir nechta tadqiqotchilar tomonidan qo'llanilishi va qilgan ishlarini muhokama qildik. An'anaviy usullarning bir nechtasi e'tiroz va e'tibor bilan ko'rib chiqiladi, lekin ular eng maqbul echimga erisha olmaydi va katta hisob -kitob xarajatlaridan aziyat chekadi. Ushbu muammolarni bartaraf etish uchun GA boshqa usullar bilan birlashtirilgan. Natijalar an'anaviy usullarga qaraganda qoniqarli natijalarni ko'rsatmoqda. Biroq, SI vositalari ham istiqbolli ko'rinadi, chunki bioinformatikaning bir nechta vazifalari turli mezonlarni optimallashtirishni o'z ichiga oladi va shu bilan SI vositalarini (ACO va PSO kabi) filogenetik daraxtlarni qayta tiklash muammosini hal qilishda yanada aniqroq va mos ravishda qo'llashni o'z ichiga oladi. GA bilan solishtirganda, turli tadqiqotchilar tomonidan taklif qilingan SI asosidagi algoritm yaxshi natijalar beradi. Shu nuqtai nazardan chop etilgan maqolalar kichik hajmda bo'lishi mumkin, lekin ertangi kun tadqiqotchilari uchun juda katta ahamiyatga ega, chunki bu soha keng va hali ko'p tadqiqotlar olib borilishi kerak.
Mualliflar anonim sharhlovchilarga batafsil, qimmatli sharhlari va konstruktiv takliflari uchun minnatdorchilik bildiradilar.
Chumolilar bir-biriga duch kelganda yoki o'z hamkasblarini qidirish jarayonida feromon deb ataladigan kimyoviy hidni uchitishi mumkin. Bunday hidga asoslanib, chumolilar o'ziga xos xususiyatlarga ega bo'lganlarni o'ziga jalb qiladi va boshqasini qaytaradi. Ushbu maqolada sun'iy chumolilar grafika bo'ylab sayohat qilishlari va ular o'tayotgan chekkalarga feromon yotqizishgan. ​ -rasmda ko'rsatilgandek. 1 -rasmda va 2 -rasmda, 2 -rasmda, sun'iy chumoli digagrafdagi qabul og'irligiga va ba'zi evristik ma'lumotlarga ko'ra keyingi tepalikni tanlaydi. Digrafning har bir chetidagi feromon sun'iy chumolilarning moslashuvchan harakatlari bilan yangilanadi, shuningdek, klasterlash jarayonini tezlashtirish uchun ba'zi adaptiv strategiyalar taqdim etiladi.

Download 97.46 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling