Fan va innovatsiyalar vazirligi farg‘ona davlat universiteti sirtqi bo’lim

Download 30.85 Kb.

Sana	12.10.2023
Hajmi	30.85 Kb.
	#1700622

Bog'liq
Fan va innovatsiyalar vazirligi farg‘ona davlat universiteti sir

1. Malumotlarni qidirish. Asosiy tushunchalar va tariflar

O‘ZBEKISTON RESPUBLIKASI OLIY TA’LIM

FAN VA INNOVATSIYALAR VAZIRLIGI FARG‘ONA DAVLAT UNIVERSITETI SIRTQI BO’LIM

Amaliy matematika va informatika yo‘nalishi Big data va malumotlar taxlili fanidan
4- Kurs 19.71-guruh talabasi
ASSOTSIATIV QOIDALARNI IZLASH
mavzusida
MUSTAQIL ISHI
BAJARDI: Izzatillayeva M.
QABUL QILDI: Tojimamatov I

FARG‘ONA 2023

Reja:

1. Ma'lumotlarni qidirish. Asosiy tushunchalar va ta'riflar

Kon tizimlarining tarkibiy qismlari
Data Mining-da ma'lumotlarni qidirish usullari
Assotsiativ qoidalarning xulosasi
Neyron tarmoq algoritmlari

1.1 Ma'lumotlarni qidirish jarayonining bosqichlari
An'anaviy ravishda ma'lumotlarni qidirish jarayonida quyidagi bosqichlar ajralib turadi:

Mavzuni o'rganish, natijada tahlilning asosiy maqsadlari shakllantiriladi.
Ma'lumot to'plash.Ma'lumotni qayta ishlash:

Ma'lumotlarni tozalash - manbadagi ma'lumotlarning nomuvofiqligi va tasodifiy

"shovqin" ni yo'q qilish

Ma'lumotni integratsiyalash - bir nechta mumkin bo'lgan manbalardanma'lumotlarni bitta saqlashda birlashtirish. Ma'lumotni o'zgartirish. Ushbu bosqichda ma'lumotlar tahlil qilish uchun mos shaklga o'tkaziladi. Ko'pincha ma'lumotlarni yig'ish, atributlarni diskretizatsiya qilish, ma'lumotlarni siqish va o'lchovlarni kamaytirish qo'llaniladi.

Ma'lumotlarni tahlil qilish. Ushbu bosqichning bir qismi sifatida naqshlarni olishuchun kon algoritmlari qo'llaniladi.
Topilgan naqshlarni sharhlash. Ushbu qadam ajratib olingan naqshlarni vizualravishda ko'rsatishni, ba'zi foydali dasturlar asosida haqiqatan ham foydali naqshlarni aniqlashni o'z ichiga olishi mumkin.

Yangi bilimlardan foydalanish.
1.2 Kon tizimlarining tarkibiy qismlari
Ma'lumotlar qidirish tizimlarida odatda quyidagi asosiy tarkibiy qismlar ajratiladi:

Ma'lumotlar bazasi, ma'lumotlar ombori yoki boshqa ma'lumotlar ombori. Bu biryoki bir nechta ma'lumotlar bazasi, ma'lumotlarni saqlash, jadvallar, tozalash va integratsiyalash mumkin bo'lgan boshqa omborxonalar bo'lishi mumkin.
Ma'lumotlar bazasi serveri yoki ma'lumotlar ombori. Ko'rsatilgan serverfoydalanuvchi so'roviga binoan material ma'lumotlarini olish uchun javobgardir.

Ma'lumotlar bazasi. Bu domen ma'lumotlari, natijada olingan naqshlarning foydali tomonini qanday qidirish va baholashni ko'rsatib beradi.
Bilimlarni yig'ish xizmati. Bu ma'lumotlar qidirish tizimining ajralmas qismi bo'lib, xarakterlash, assotsiatsiyani qidirish, tasniflash, klasterli tahlil va chetga chiqish tahlili kabi vazifalar uchun funktsional modullarni o'z ichiga oladi.
Naqshni baholash moduli. Ushbu komponent qiziqish yoki foydali modellarni o'lchaydi.
Grafik foydalanuvchi interfeysi. Ushbu modul foydalanuvchi va ma'lumotlar qidirish tizimi o'rtasidagi aloqa, turli shakllardagi naqshlarni vizualizatsiya qilish uchun javobgardir.
1.3 Data Mining-da ma'lumotlarni qidirish usullari
Data Mining texnologiyasida qo'llaniladigan tahliliy usullarning aksariyati taniqli matematik algoritmlar va usullardir. Ularning qo'llanilishida yangi narsa - bu dasturiy ta'minot va dasturiy ta'minotlarning paydo bo'lishi imkoniyatlari tufayli muayyan muammolarni hal qilishda ulardan foydalanish imkoniyati. Shuni ta'kidlash kerakki, Data Mining usullarining aksariyati sun'iy intellekt nazariyasi doirasida ishlab chiqilgan. Eng ko'p ishlatiladigan usullarni ko'rib chiqing:
Assotsiativ qoidalarning derivatsiyasi.
2. Neyron tarmoq algoritmlari, g'oyasi asab to'qimalarining ishlashiga o'xshash va dastlabki parametrlar "neyronlar" o'rtasidagi mavjud ulanishlarga muvofiq o'zgartirilgan signallar sifatida ko'rib chiqiladi va butun tarmoqning javobi tahlil natijasi sifatida qabul qilinadi. manba ma'lumotlariga.
Mavjud tarixiy ma'lumotlardan dastlabki ma'lumotlarning yaqin analogini tanlash.
Shuningdek, "eng yaqin qo'shni" usuli ham deyiladi.
Qaror daraxtlari - "Ha" yoki "Yo'q" javobini nazarda tutuvchi savollar to'plamiga asoslangan ierarxik tuzilma.
Klaster modellari ma'lumotlar to'plamidagi bir nechta maydonlarning o'xshash qiymatlari asosida shunga o'xshash hodisalarni guruhlarga birlashtirish uchun ishlatiladi.
Keyingi bobda biz yuqorida keltirilgan usullarni batafsil bayon qilamiz.

Ma'lumotlarni qidirish usullari

2.1 Assotsiativ qoidalarning xulosasi
Assotsiatsion qoidalar - "agar ... keyin ..." shaklidagi qoidalar. Ma'lumotlar bazasida bunday qoidalarni qidirish bir-biriga bog'liq bo'lmagan ko'rinishda yashirin aloqalarni ochib beradi. Assotsiativ qoida bo'yicha qidiruvlarning eng ko'p keltirilgan misollaridan biri bu xarid qilish savatida barqaror aloqalarni topish muammosi. Ushbu muammo marketing bo'yicha mutaxassislar sotishni ko'paytirish uchun ushbu mahsulotlarni do'konga mos ravishda joylashtirishlari uchun mijozlar birgalikda qaysi mahsulotlarni sotib olishlarini aniqlashdir.
Assotsiativ qoidalar (X1, X2, ..., Xn) bir xil operatsiyada X1, X2, ..., Xn ishtirok etgan taqdirda, Y bitimda qatnashishi mumkinligi tushunilgan shakl (X1, X2, ..., Xn) -\u003e Y kabi ifodalanadi. Shuni ta'kidlash kerakki, "mumkin" so'zi qoida shaxs emasligini anglatadi, lekin faqat ba'zi ehtimollik bilan mumkin. Bundan tashqari, elementlar to'plami bitta element emas, balki Y vazifasini bajarishi mumkin. X1, X2, ..., Xn elementlari bo'lgan bitimda Y ni topish ehtimoli ishonch deb ataladi. Bitimlar umumiy sonining qoidasini o'z ichiga olgan tranzaktsiyalar ulushi qo'llab-quvvatlash deb ataladi. Qoida ishonchliligidan oshib ketadigan ishonchlilik darajasi qiziqish deyiladi.
Assotsiativ qoidalarning har xil turlari mavjud. Oddiy shaklda assotsiativ qoidalar faqat birlashmaning mavjudligi yoki yo'qligi haqida xabar beradi. Bunday qoidalar Boolean Association qoida deb nomlanadi. Ushbu qoidaga misol: "qatiqni sotib oluvchilar, shuningdek, kam yog'li sariyog 'sotib olishadi".
Birlashmalarning bir nechta qoidalarini birgalikda to'playdigan qoidalarga ko'p darajali yoki umumlashtirilgan uyushma qoidalari deyiladi. Bunday qoidalarni qurishda, elementlar odatda ierarxiya bo'yicha guruhlanadi va izlash eng yuqori kontseptual darajada amalga oshiriladi. Masalan, "sut sotib oluvchilar ham non sotib olishadi". Ushbu misolda sut va non turli xil va brendlarning ierarxiyasini o'z ichiga oladi, ammo pastki darajadagi qidirish sizga qiziqarli qoidalarni topishga imkon bermaydi.
Qoidalarning yanada murakkab turi bu miqdoriy assotsiatsiya qoidalari. Ushbu turdagi qoida miqdoriy (masalan, narx) yoki kategoriya (masalan, jins) atributlaridan foydalangan holda qidiriladi va quyidagicha aniqlanadi: , ,…,} -> . Masalan, "yoshi 30 dan 35 yoshgacha bo'lgan xaridorlari yiliga 75000 dollardan ko'proq daromad oladigan xaridorlari 20000 dan oshiq avtomobil sotib olishadi."
Yuqoridagi qoidalar bitimlar o'zlarining vaqtiga bog'liq bo'lishiga ta'sir qilmaydi. Masalan, mahsulot sotuvga qo'yilgunga qadar yoki bozordan g'oyib bo'lganidan so'ng qidiruv qo'llab-quvvatlash ostonasiga salbiy ta'sir ko'rsatishi mumkin. Shuni yodda tutgan holda, vaqtinchalik assotsiatsiya qoidalarini qidirish algoritmlarida atributlarning yashash muddati tushunchasi joriy etilgan.
Assotsiativ qoidalarni izlash muammosi odatda ikki qismga bo'linishi mumkin: tez-tez uchraydigan elementlarning to'plamlarini qidirish va tez-tez topiladigan to'plamlarga asoslangan qoidalar generatsiyasi. Oldingi tadqiqotlar, aksariyat hollarda ushbu yo'nalishlarga rioya qildi va ularni turli yo'nalishlarda kengaytirdi.
Apriori algoritmi paydo bo'lganligi sababli, birinchi bosqichda ushbu algoritm eng ko'p qo'llaniladi. Masalan, tezligi va kengaytirilishi mumkin bo'lgan ko'pgina yaxshilanishlar Apriori algoritmini takomillashtirishga, uning elementlarning eng keng tarqalgan to'plamlari uchun juda ko'p sonli nomzodlarni yaratish qobiliyatiga tuzatishga qaratilgan. Apriori oldingi bosqichda topilgan faqat katta to'plamlardan foydalangan holda elementlarni to'plamlarini qayta ko'rib chiqmasdan yaratadi. O'zgartirilgan AprioriTid algoritmi ma'lumotlar bazasidan foydalanib Apriori-ni faqat birinchi o'tish paytida yaxshilaydi. Keyingi bosqichlarda hisob-kitoblarda faqat birinchi o'tish paytida yaratilgan va dastlabki ma'lumotlar bazasiga nisbatan ancha kichikroq bo'lgan ma'lumotlardan foydalaniladi. Bu hosildorlikning juda ko'payishiga olib keladi. AprioriHybrid deb nomlangan algoritmning yana bir yaxshilangan versiyasini olish mumkin, agar agar Apriori birinchi bir nechta paslar bilan ishlatilsa va keyinroq, keyingi bosqichlarda kth nomzod to'plamlari to'liq kompyuter xotirasida saqlanib qolsa, AprioriTid-ga o'ting.
Apriori algoritmini takomillashtirish bo'yicha keyingi harakatlar algoritmni parallellashtirish (sonlarni taqsimlash, ma'lumotlarni taqsimlash, nomzodlarni taqsimlash va boshqalar), uni miqyoslash (ma'lumotlarni aqlli tarqatish, gibrid tarqatish), tez-tez uchraydigan elementlarning daraxtlari (FP-o'sish) kabi yangi tuzilmalarni joriy etish bilan bog'liq. )
Ikkinchi bosqich asosan ishonchlilik va qiziqish bilan tavsiflanadi. Yangi modifikatsiyalarda yuqorida tavsiflangan o'lchov, sifat va vaqtni qo'llab-quvvatlash an'anaviy Boolean qoidalariga qo'shiladi. Evolyutsion algoritm ko'pincha qoidalarni qidirishda ishlatiladi.
2.2 Neyron tarmoq algoritmlari
Sun'iy neyron tarmoqlar matematik apparatni insonning asab tizimini ko'paytirish uchun uning ishlashini o'rganishga qo'llash natijasida paydo bo'ldi. Aynan: asab tizimining xatolarni o'rganish va tuzatish qobiliyati, bu bizga inson miyasining ishlashini taqlid qilishga imkon beradi. Neyron tarmog'ining asosiy tarkibiy va funktsional qismi shaklda ko'rsatilgan rasmiy neyron. 1, bu erda x0, x1, ..., xn kirish signallari vektorining tarkibiy qismlari, w0, w1, ..., wn neyronning kirish signallarining og'irligi, y esa neyronning chiqish signalidir.
Anjir. 1. Formal neyron: sinapslar (1), biriktiruvchi (2), transduser (3).
Rasmiy neyron 3 turdagi elementlardan iborat: sinapslar, biriktiruvchi va transduser. Sinaps ikkita neyronlar orasidagi aloqaning mustahkamligini tavsiflaydi.
Qo'shimcha moslama ilgari mos keladigan og'irliklarga ko'paytiriladigan kirish signallarini qo'shishni amalga oshiradi. Konverter bitta argumentning vazifasini bajaradi - adapterning chiqishi. Ushbu funktsiya aktivizatsiya funktsiyasi yoki neyronning uzatish funktsiyasi deb ataladi.
Yuqorida tavsiflangan rasmiy neyronlar shunday birlashtirilishi mumkinki, ba'zi neyronlarning chiqish signallari boshqalarga kiradi. Olingan o'zaro bog'liq neyronlar to'plami sun'iy neyron tarmoqlari (ANN) yoki qisqasi neyron tarmoqlar deb ataladi.
Neyronning uchta umumiy turi, ularning neyron tarmog'idagi holatiga qarab ajratiladi.
Kirish neyronlari (kirish tugunlari), ular kirish signallari bilan ta'minlanadi. Bunday neyronlar, neyronlar, qoida tariqasida, birlik vazniga ega bo'lgan bitta kirishga ega, noaniqlik yo'q va neyronning chiqish qiymati kirish signaliga teng;
Chiqish neyronlari (chiqish tugunlari), chiqish qiymatlari neyron tarmoqning chiqish signallarini namoyish etadi;
Kirish signallari bilan to'g'ridan-to'g'ri aloqasi bo'lmagan yashirin neyronlar (yashirin tugunlar), yashirin neyronlarning chiqish signallarining qiymatlari ANN ning chiqish signallari emas.
Xalqaro aloqalarning tuzilishiga ko'ra ANN ning ikkita klassi ajralib turadi:
To'g'ridan-to'g'ri tarqalish ANN, unda signal faqat kirish neyronlaridan chiqish signallariga tarqaladi.
Qayta aloqa bilan ANN - ANN. Bunday ANNlarda signallar ANNda joylashganligidan qat'i nazar, har qanday neyronlar o'rtasida uzatilishi mumkin.
ANN-larni o'qitishning ikkita umumiy usuli mavjud:
O'qituvchi bilan mashg'ulot.
O'qituvchisiz o'rganish.
O'qituvchi bilan dars o'tkazish (nazorat ostida o'rganish) oldindan tayyorlangan o'quv misollaridan foydalanishni o'z ichiga oladi. Har bir misol kirish signallarining vektorini va vazifaga bog'liq bo'lgan mos keladigan chiqish signallarining vektorini o'z ichiga oladi. Ushbu to'plam mashg'ulotlar to'plami yoki mashg'ulotlar to'plami deb nomlanadi. Neyron tarmog'ini o'qitish ANN ulanishlarining og'irliklarini shunday o'zgartirishga qaratilgan, bunda ANN chiqish signallarining qiymati kirish signallarining berilgan vektori uchun chiqish signallarining zaruriy qiymatlaridan imkon qadar kam farq qiladi.
O'qituvchisiz o'qiyotganda (nazoratsiz o'rganish) ulanishlarning og'irligini sozlash neyronlar o'rtasidagi raqobat natijasida yoki o'zaro bog'liq bo'lgan neyronlarning chiqish signallarining o'zaro bog'liqligini hisobga olgan holda amalga oshiriladi. O'qituvchisiz o'qitish holatida, o'quv namunasi ishlatilmaydi.
Neyron tarmoqlar keng vazifalarni hal qilish uchun ishlatiladi, masalan, kosmik kemalar uchun yuklarni rejalashtirish va valyuta kurslarini bashorat qilish. Shu bilan birga, ular modelning murakkabligi (bir necha yuz interneuron ulanishlarining og'irligi sifatida qayd etilgan bilimlar inson tahlili va talqinidan mutlaqo farq qiladi) va katta o'quv majmuasida uzoq o'rganish vaqti tufayli ma'lumotlar qidirish tizimlarida tez-tez ishlatilmaydi. Boshqa tomondan, neyron tarmoqlari ma'lumotlarni tahlil qilish vazifalarida foydalanish uchun shovqinli ma'lumotlarga qarshilik va yuqori aniqlik kabi afzalliklarga ega.
2.3. Yaqin va k-yaqin qo'shnilarning usullari
Yaqin qo'shnilar algoritmi va k-yaqin qo'shnilar algoritmi (KNN) ob'ektlarning o'xshashligiga asoslanadi. Yaqin qo'shnilar algoritmi ma'lum bo'lgan barcha ob'ektlar orasida ob'ektni (masalan, Evklidlar orasidagi masofani o'lchash vositasidan foydalangan holda) oldindan noma'lum bo'lgan yangi ob'ekt bilan ajratib turadi. Yaqin qo'shnilar usulining asosiy muammosi uning ma'lumotlarini etkazib beruvchilarga nisbatan sezgirligidir.
Ta'riflangan muammoni KNN algoritmi yordamida oldini olish mumkin, bu esa kyaqin qo'shnilarni yangi ob'ektga o'xshash barcha kuzatuvlar orasida ajratib turadi. Yaqin qo'shnilarning darslari asosida yangi ob'ekt to'g'risida qaror qabul qilinadi. Ushbu algoritmning muhim vazifasi k koeffitsientini tanlashdir - shunga o'xshash hisobga olinadigan yozuvlar soni. Qo'shnining hissasi yangi ob'ektgacha bo'lgan masofaga mutanosib bo'lgan algoritmni o'zgartirish (eng yaqin qo'shnilarning ko'lchov usuli) ko'proq tasniflash aniqligiga erishishga imkon beradi. Yaqin atrofdagi qo'shnilar k usuli ham prognozning to'g'riligini taxmin qilishimizga imkon beradi. Masalan, barcha k yaqin qo'shnilar bir xil sinfga ega, keyin tekshirilayotgan ob'ektning bir xil klassga ega bo'lish ehtimoli juda katta.
Algoritmning xususiyatlari orasida g'ayritabiiy sotuvchilardan qarshilikni ta'kidlash kerak, chunki bunday kirish k-ga yaqin qo'shnilar soniga tushish ehtimoli kichikdir. Agar bu ro'y bergan bo'lsa, unda ovozga (ayniqsa, muvozanatli) ta'sir (k\ u003e 2 uchun) ham ahamiyatsiz bo'lishi mumkin va shuning uchun tasniflash natijalariga ta'siri unchalik katta bo'lmaydi. Shuningdek, afzalliklari oddiy amalga oshirish, algoritm natijasini sharhlash qulayligi, eng mos keladigan kombinatsiya funktsiyalari va o'lchovlaridan foydalanib algoritmni o'zgartirish imkoniyati, bu sizga algoritmni ma'lum bir vazifaga moslashtirish imkonini beradi. KNN algoritmi ham bir qator kamchiliklarga ega. Birinchidan, algoritm uchun ishlatiladigan ma'lumotlar to'plami vakili bo'lishi kerak. Ikkinchidan, modelni ma'lumotlardan ajratib bo'lmaydi: yangi misolni tasniflash uchun siz barcha misollardan foydalanishingiz kerak. Ushbu xususiyat algoritmdan foydalanishni keskin cheklaydi.
2.4 Qaror daraxti
"Qaror daraxtlari" atamasi ierarxik, izchil tuzilishda tasniflash qoidalarini taqdim etishga asoslangan algoritmlar oilasini anglatadi. Bu ma'lumotlar qidirish muammolarini hal qilish uchun eng mashhur algoritmlar sinfi.
Qaror daraxtlarini qurish algoritmlari oilasi, boshqa shunga o'xshash holatlar to'g'risidagi ma'lumotlarning katta hajmiga asoslanib, ushbu ish uchun parametr qiymatini taxmin qilish imkonini beradi. Odatda, ushbu turkumning algoritmlari barcha manbali ma'lumotlarni bir nechta diskret guruhlarga bo'lish imkonini beradigan muammolarni hal qilish uchun ishlatiladi.
Ma'lumotlar to'plamiga qaror daraxtlarini qurish algoritmlarini qo'llashda natija daraxt shaklida ko'rsatiladi. Bunday algoritmlar bunday bo'linishning bir necha darajalarini amalga oshirishga imkon beradi, natijada paydo bo'lgan guruhlarni (daraxt shoxlari) boshqa xususiyatlarga asoslanib kichik qismlarga ajratadi. Ajratish bashorat qilinishi kerak bo'lgan qiymatlar barcha olingan guruhlar (daraxt barglari) uchun bir xil bo'lgunga qadar davom etadi (yoki taxmin qilingan parametrning doimiy qiymati bo'lsa, yoping). Ushbu model asosida bashorat qilish uchun foydalaniladigan qiymatlar.
Qaror daraxtlarini qurish algoritmlarining harakati regressiya va korrelyatsion tahlil usullarini qo'llashga asoslangan. Ushbu oilaning eng mashhur algoritmlaridan biri - daraxt novdasidagi ma'lumotlarni ikkita bola shoxlariga bo'lishiga asoslangan KART (Tasniflash va regressiya daraxtlari); Bu yoki boshqa filialning keyingi bo'linishi ushbu filialning tavsiflangan dastlabki ma'lumotlariga bog'liq. Shunga o'xshash ba'zi boshqa algoritmlar sizga filialni ko'p sonli bolalar filiallariga bo'lish imkonini beradi. Bunday holda, ajratish parametr bilan tavsiflangan ma'lumotlar tarmog'i uchun eng yuqori korrelyatsiya koeffitsientiga asoslanadi, unga ko'ra bo'linish sodir bo'ladi va kelajakda prognoz qilinishi kerak bo'lgan parametr.
Yondashuvning mashhurligi aniqlik va tushunish bilan bog'liq. Ammo qaror daraxtlari ma'lumotlardan «eng yaxshi» (eng to'liq va aniq) qoidalarni topolmaydilar. Ular belgilarni ketma-ket ko'rishning soddaligi printsipini tatbiq etadilar va aslida ushbu naqshlarning qismlarini topadilar va bu mantiqiy xulosaning xayolotiga sabab bo'ladi.
2.5 Klasterlash algoritmlari
Klasterlashtirish bu bir nechta ob'ektlarni klaster deb nomlangan guruhlarga bo'lish vazifasidir. Klasterlash va tasniflash o'rtasidagi asosiy farq shundaki, guruhlar ro'yxati aniq belgilanmagan va algoritm ishlash jarayonida aniqlanadi.

Download 30.85 Kb.

Do'stlaringiz bilan baham: