Ta’limda axborot texnologiyalari” mutaxasissligi Ahmedov Abdulaziz Mashrabovich


-§ Intelektual tahli qilish metodlaridan ta’lim jarayonida foydalanish


Download 1.7 Mb.
bet11/21
Sana14.03.2023
Hajmi1.7 Mb.
#1268119
1   ...   7   8   9   10   11   12   13   14   ...   21
Bog'liq
Intelektual tahlil metodlarini ta\'lim jarayonida qo\'llash

2.2-§ Intelektual tahli qilish metodlaridan ta’lim jarayonida foydalanish
Ta’lim jarayonida o’qitishning intellektual tizimi sun’iy intellekt metodlari va vositalarining avtomatlashtirilgan o’qitish sohasida qo’llanishining amaliy natijasi bo’lib, u ta’lim tizimlarining yangi avlodi hisoblanadi. O’qitishning an’anaviy avtomatlashtirilgan tizimlarida bu bilimlarning ko’pgina qismlari tanlangan o’qitish metodikasiga mos ravishda o’quv fanining alohida bo’limlariga qat’iy ravishda kiritilgan.
O’qitishning intellektual tizimida zarur bo’lgan bilimlar ajratib olinadi va sun’iy intellektning turli metodlari va texnologiyalaridan foydalangan holda ko’rsatiladi.
O’qitishning intellektual tizimida o’quv materialini taqdim etishda, bu bilimlardan foydalanib va talabaning psixofiziologik va intellektual imkoniyatlaridan kelib chiqqan holda, eng samarali o’qitish metodlari, usullari va sur’atlarini, fanning mazmuni, hajmi va topshiriqlarning murakkablik darajasini aniqlash va tartibga solish mumkin bo’ladi.
Tasniflash - bu ba'zi bir printsipga ko'ra, ushbu ob'ektlar orasidagi o'xshashlik yoki farqni belgilash uchun belgilarga ega bo'lgan ob'ektlar to'plami. Sinflarni tavsiflaydigan va ajratib turadigan modellar yoki funktsiyalarni topish ma'lum atributlarga ega bo'lgan o'zboshimchalik bilan berilgan ob'ekt sinfini taxmin qilish imkonini beradi, ammo sinf yorlig'i noma'lum bo'ladi.
Tasniflash quyidagi qoidalarga rioya qilishni talab qiladi:

  • bo'linishning har bir aktida faqat bitta asosni qo'llash kerak;

  • bo'linish mutanosib bo'lishi kerak, ya'ni. tur g'oyalarining umumiy hajmi bo'linadigan umumiy kontseptsiya hajmiga teng bo'lishi kerak;

  • bo'linma a'zolari bir-birini istisno qilishi kerak, ularning hajmi bir-biriga zid bo'lmasligi kerak;

  • bo'linish izchil bo'lishi kerak.

Tasniflash bu ma'lum bir guruhning xususiyatlarini aniqlash to'g'risida xulosa chiqarishimizga imkon beradigan muntazamlik. Shunday qilib, tasniflash u yoki bu hodisa yoki ob'ektga tegishli bo'lgan guruhni tavsiflovchi belgilar mavjudligini talab qiladi (odatda, allaqachon tasniflangan hodisalarni tahlil qilish asosida muayyan qoidalar shakllantiriladi).
Tasniflash o'qituvchi bilan birgalikda olib boriladigan yoki boshqariladigan ta'lim deb atalgan o'quv strategiyasini anglatadi. Tasniflash vazifasi ko'pincha doimiy va / yoki kategoriyali o'zgaruvchilarni tanlash asosida kategoriyaga bog'liq bo'lgan o'zgaruvchini (ya'ni toifaga bog'liq bo'lgan o'zgaruvchini) taxmin qilish deb ataladi.
Masalan, kompaniyaning qaysi mijozlari ma'lum bir mahsulotni potentsial xaridor ekanligini va kim yo'q, kim bo'lishini taxmin qilishingiz mumkin.
Ushbu turdagi vazifalar ikkilik tasniflash muammosiga tegishli, ularda bog'liq o'zgaruvchi faqat ikkita qiymatni olishi mumkin (masalan, ha yoki yo'q, 0 yoki 1). Boshqa tasniflash varianti, agar bog'liq bo'lgan o'zgaruvchi oldindan belgilangan sinflar to'plamidan qiymatlarni olishi mumkin bo'lsa, masalan, mijoz qaysi markani sotib olishni xohlashini oldindan belgilash zarur bo'lganda yuzaga keladi. Ushbu holatlarda ko'plab o'zgaruvchilar bog'liq bo'lgan o'zgaruvchiga qarab ko'rib chiqiladi.
Tasnif bir o'lchovli (bitta xususiyat bo'yicha) va ko'p o'lchovli (ikki yoki undan ko'p funktsiyalar bo'yicha) bo'lishi mumkin.
Tasniflash muammosini oddiy misol bilan ko'rib chiqing. Aytaylik, turistik agentliklarning mijozlari uchun oyning yoshi va daromadi to'g'risidagi ma'lumotlar bazasi mavjud. Reklama materiallarining ikki turi mavjud: qimmatroq, qulay ta'til va arzonroq, yosh ta'til. Shunga ko'ra, mijozlarning ikkita klassi aniqlanadi: 1-sinf va 2-sinf. Yangi mijoz qaysi sinfga tegishli ekanligini va unga reklama materiallarining ikki turidan qaysi birini yuborish kerakligini aniqlanadi.
Manba ma'lumotlari to'plami ikkita to'plamga bo'lingan: o'quv va sinov. O'quv to'plami - bu modelni tayyorlash (qurish) uchun ishlatiladigan ma'lumotlarni o'z ichiga olgan to'plam. Bunday to'plam misollar kirish va chiqish (maqsad) qiymatlarini o'z ichiga oladi. Chiqish qiymatlari modelni o'qitish uchun mo'ljallangan. Sinov to'plamida, shuningdek, misollar kirish va chiqish qiymatlari mavjud. Bu erda, chiqish qiymatlari modelning sog'lig'ini sinash uchun ishlatiladi.
Tasniflash jarayoni ikki bosqichdan iborat: modelni loyihalash va undan foydalanish. Modeldan foydalanish yangi yoki noma'lum qiymatlarni tasniflashdan iborat. Sinov misolidagi ma'lum qiymatlar olingan modeldan foydalanish natijalari bilan taqqoslanadi.
Aniqlik darajasi - testlar to'plamidagi to'g'ri tasniflangan misollar foizi. Agar modeldagi aniqlik maqbul bo'lsa, klassi noma'lum bo'lgan tasniflash misollari uchun modeldan foydalanish mumkin.
Tasniflashning to'g'riligi o'zaro faoliyat tasdiqlash yordamida baholanishi mumkin. Xos-tekshirish - bu testlar to'plamidagi ma'lumotlarni tasniflashning to'g'riligini baholash protsedurasi bo'lib, uni o'zaro tekshirish to'plami deb ham atashadi. Test to'plamini tasniflashning aniqligi o'quv to'plamini tasniflashning aniqligi bilan taqqoslanadi. Agar testlar to'plamini tasniflash o'quv to'plamini tasniflash bilan bir xil aniqlik natijalarini beradigan bo'lsa, ushbu model o'zaro sinovdan o'tgan deb hisoblanadi. O'quv va test to'plamlariga bo'linish namunani muayyan nisbatda bo'lish orqali amalga oshiriladi, masalan: o'quv to'plami - ma'lumotlarning uchdan ikki qismi va test - ma'lumotlarning uchdan biri. Ushbu usul ko'p sonli misollar mavjud bo'lgan namunalar uchun ishlatilishi kerak.
Agar namuna kichik hajmga ega bo'lsa, unda maxsus usullardan foydalanish tavsiya etiladi, ulardan foydalanish paytida o'quv va sinov namunalari qisman bir-biriga mos kelishi mumkin. Quyida keltiriladigan turli xil usullarning ba’zilarini ko’rib chiqamiz.
Tasniflash uchun turli xil usullar qo'llaniladi:

  • qaror daraxtlari yordamida tasniflash;

  • Bayesian (sodda) tasnifi;

  • qo'llab-quvvatlash vektorlari usuli bo'yicha tasniflash;

  • eng yaqin qo'shni usuli yordamida tasniflash;

  • statistik usullar, xususan, chiziqli regressiya;

  • sun'iy neyron tarmoqlari yordamida tasniflash;

  • genetik algoritmlardan foydalangan holda tasniflash.

Usullarni quyidagi xususiyatlarga qarab baholash kerak: tezlik, barqarorlik, tushunarli, ishonchlilik.
Tezlik modelni yaratish va undan foydalanish vaqtini tavsiflaydi. Mustahkamlik, ya'ni dastlabki taxminlarning har qanday buzilishlariga qarshilik shovqinli ma'lumotlar va ma'lumotlarning yetishmayotgan qiymatlari bilan ishlash qobiliyatini anglatadi.
Tasniflash usullarining ishonchliligi ushbu usullarning ma'lumotlar to'plamida shovqin va chiqindilar mavjudligida foydalanish imkoniyatini ta'minlaydi.
Bashorat (tahmin) - bog’liq va mustaqil o'zgaruvchilar o'rtasida funktsional aloqani o'rnatish. Prognozlashning maqsadi kelajakdagi voqealarni bashorat qilishdir. Prognozlash muammosini hal qilish uchun o'quv ma'lumotlari namunalarini talab qiladi.
Prognozlash muammolari fan, iqtisodiyot, ishlab chiqarish va boshqa ko'plab sohalarda inson faoliyatining eng xilma-xil sohalarida hal qilinadi. Prognozlash usullarini ishlab chiqish axborot texnologiyalarining rivojlanishi bilan, xususan, saqlanadigan ma'lumotlar hajmining ko'payishi va Data Mining vositalarida amalga oshirilayotgan prognozlash usullari va algoritmlarining murakkablashishi bilan bog'liq.
Bunday vazifalarga misollar: pul oqimi prognozi, qishloq xo'jaligi ekinlari hosildorligini prognozlash, korxonaning moliyaviy barqarorligini prognozlash. Marketingning tipik turi bozorlarni bashorat qilish vazifasidir.
Odatda ushbu sohada quyidagi amaliy vazifalar hal qilinadi: - tovarlarni sotish prognozi (masalan, inventarizatsiya stavkasini aniqlash maqsadida); - tashqi omillarga bog'liq holda sotish prognozi.
Tasniflash va prognozlash muammolari o'rtasidagi farq shundaki, birinchi vazifada bog'liq o'zgaruvchining klassi bashorat qilinadi, ikkinchisida - bog'liq bo'lgan o'zgaruvchan, yetishmayotgan yoki noma'lum (kelajak bilan bog'liq) ning raqamli qiymatlari.
Prognozlash uchun asos vaqt bazalari shaklida ma'lumotlar bazasida saqlanadigan tarixiy ma'lumotlardir.
Vaqt ketma-ketligi - bu tasodifiy bo'lmagan vaqt doimiylariga buyurtma qilingan xususiyatning kuzatilgan qiymatlari ketma-ketligi.
Oddiy kuzatuvlar ketma-ketligidan vaqt seriyasining ikkita tub farqini beramiz: Vaqt seriyasining a'zolari tasodifiy tanlab olingan elementlardan farqli o'laroq, statistik jihatdan mustaqil emaslar; vaqt seriyasining a'zolari teng taqsimlanmagan.
Vaqt ketma-ketligini tahlil qilish va tasodifiy namunalarni tahlil qilish o'rtasidagi farq shundaki, kuzatuvlar va ularning xronologik tartiblari o'rtasidagi vaqt oralig'ining tengligi taxmin qilinadi. Bu erda kuzatuvlarni vaqt bilan bog'lash muhim rol o'ynaydi, tasodifiy tanlab olishni tahlil qilishda bu muhim emas. Vaqt seriyalarining odatiy misoli bu aktsiyalar savdosi ma'lumotlari.
Vaqt ketma-ketligining tuzilishi va ma’lumotini aniqlash jarayonida quyidagilar aniqlanishi kerak: shovqin va chiqindilar, tendentsiya, mavsumiy komponent, tsiklik komponent. Vaqt seriyasining asosiy tarkibiy qismlari tendentsiya va mavsumiy tarkibiy qismdir.
Vaqt o'zgarishi mumkin bo'lgan vaqt seriyasining tizimli tarkibiy qismi. Trend - bu vaqt ketma-ketligiga ta'sir qiladigan umumiy yoki uzoq muddatli tendentsiyalar ta'siri ostida shakllanadigan noan'anaviy funktsiya. Masalan, o'rganilayotgan bozorning o'sish omili tendentsiyaga misol bo'lishi mumkin. Vaqt seriyasidagi tendentsiyalarni aniqlashning avtomatik usuli yo'q.
Vaqt seriyasining mavsumiy tarkibiy qismi vaqt ketma-ketligining davriy takrorlanadigan tarkibiy qismidir. Mavsumiylik xususiyati, vaqtning taxminan teng vaqt oralig'ida, bog'liq bo'lgan o'zgaruvchining xatti-harakatlarini tavsiflovchi egri shakli uning xarakterli konturlarini takrorlashini anglatadi. Mavsumiy tarkibiy qismlarning mavjudligini aniqlash kirish ma'lumotlari vakili bo'lishi uchun zarurdir.
Tsikl tarkibiy qismi va mavsumiy o'rtasidagi farq: tsikl davomiyligi odatda bitta mavsumiy davrdan uzunroq; tsikllar, mavsumiy davrlardan farqli o'laroq, ma'lum bir vaqtga ega emas.
Prognoz davri prognoz qilinadigan vaqtning asosiy birligidir. Masalan, biz bir oyda kompaniyaning daromadini bilishni xohlaymiz. Ushbu vazifani bashorat qilish davri - bir oy. Prognozlash gorizonti - bu prognozni qamrab oladigan kelajakdagi davrlar soni. Agar biz har oy uchun ma'lumot bilan oldindan 12 oylik prognozni bilishni istasak, unda ushbu topshiriqdagi prognoz davri bir oy va prognoz gorizonti 12 oyni tashkil qiladi. Prognoz oralig'i yangi prognoz qilinadigan chastotadir. Taxmin qilish vaqti taxmin davriga to'g'ri kelishi mumkin.
Prognoz parametrlarini tanlash bo'yicha tavsiyalar: parametrlarni tanlashda taxmin qilish davri ushbu prognoz asosida qabul qilingan qarorni amalga oshirish uchun zarur bo'lgan vaqtdan kam bo'lmasligi kerakligini hisobga olish kerak.
Muayyan muammoni hal qilish uchun talab qilinadigan prognoz aniqligi prognoz tizimiga katta ta'sir ko'rsatadi. Prognoz xatosi ishlatilayotgan prognoz tizimiga bog'liq.
Xatolarning eng keng tarqalgan turlari:
1. O'rtacha xato (SD). U har bir qadamda xatolarning o'rtacha hisobiga hisoblab chiqiladi. Ushbu turdagi xatoning kamchiliklari shundaki, ijobiy va salbiy xatolar bir-birini bekor qiladi;
2. O'rtacha mutlaq xato (CAO). Mutlaq xatolarning o'rtacha qiymati sifatida hisoblanadi. Oddiy xato bilan taqqoslaganda, bu chora sotuvchilarga "unchalik katta ahamiyat bermaydi";
3. Kvadratik xatolar yig'indisi (SSE), standart xato. U kvadratik xatolar yig'indisi (yoki o'rtacha) sifatida hisoblanadi. Bu eng ko'p ishlatiladigan prognoz aniqligini taxmin qilish;
4. Nisbiy xato (OO). Oldingi o'lchovlarda xato qiymatlari to'g'ri ishlatilgan. Nisbiy xato nisbiy xatolar nuqtai nazaridan moslashuv sifatini bildiradi.
Prognoz qisqa muddatli, o'rta muddatli va uzoq muddatli bo'lishi mumkin. Qisqa muddatli prognoz bu bir necha qadam oldinroq bo'lgan prognoz, ya'ni. taxminiy kuzatish hajmining 3% dan ko'p bo'lmagan yoki oldinga 1-3 qadam qo'yiladi.
O'rta muddatli prognoz - bu kuzatish hajmining 3-5 foizini tashkil etadigan bashorat, ammo oldinga 7-12 qadamdan oshmaydi; Shuningdek, ushbu turdagi prognoz mavsumiy tsiklning bir yoki yarmini bashorat qilish tushuniladi.
Qisqa va o'rta muddatli prognozlarni tuzish uchun statistik usullar juda mos keladi.
Uzoq muddatli prognoz - bu kuzatuv hajmining 5% dan ko'prog'ini bashorat qilish. Ushbu turdagi prognozlarni tuzishda statistik usullardan deyarli foydalanilmaydi.
Prognozlash asosida amalga oshiriladigan ma'lumotlarning mavjudligi bashorat qilingan modelni yaratishda muhim omil hisoblanadi. Yaxshi prognoz qilish uchun ma'lumotlar ishonchli, aniq va ishonchli bo'lishi kerak.
Prognozlashda ishlatiladigan keng tarqalgan ma'lumotlar ishlab chiqarish usullari orasida biz neyron tarmoqlari, qaror daraxtlari va chiziqli regressiyani ta'kidlaymiz.
Klasterlashtirish vazifasi:
Klasterlash muammosi - klassifikatsiya muammosiga o'xshaydi, uning mantiqiy davomi, ammo farqi shundaki, o'rganilayotgan ma'lumotlar to'plamining sinflari oldindan aniqlanmagan (1-jadval).
"Klaster" atamasining sinonimlari "avtomatik tasniflash", "o'qituvchisiz dars berish" va "taksonomiya" dir. Klasterlash ob'ektlar to'plamini bir hil guruhlarga (klasterlar yoki sinflar) ajratish uchun mo'ljallangan. Agar namunadagi ma'lumotlar atributlar bo'shlig'ida nuqta sifatida berilgan bo'lsa, unda klasterlash muammosi "nuqta klasterlari" ta'rifiga qadar qisqartiriladi.
Klasterlashning maqsadi mavjud tuzilmalarni izlashdir. Klasterlash bu tavsiflash protsedurasi bo'lib, u hech qanday statistik xulosalar chiqarmaydi, ammo tadqiqotlarni tahlil qilish va ma'lumotlar tuzilishini o'rganishga imkon beradi.
Klasterni umumiy xususiyatlarga ega ob'ektlar guruhi sifatida tavsiflash mumkin. Klasterning xususiyatlarini ikkita belgi deb atash mumkin:

  • ichki bir xillik;

  • tashqi izolyatsiya.

1-jadval
Tasniflash va klasterlarni taqqoslash

Xususiyat

Tasniflash

Klasterlash

Nazorat ostidagi ta'lim

Nazorat ostidagi ta'lim

Nazoratsiz o'rganish

Strategiya

O'qituvchi bilan o'rganish

O'qituvchisiz o'rganish

Sinf yorlig'i

Trening to'plamiga kuzatuv sinfini ko'rsatadigan yorliq beriladi.

Sinf yorliqlarini o'rganish noma'lum

Tasniflash uchun asos

Yangi ma'lumotlar o'quv to'plamiga qarab tasniflanadi.

Klasterlarning mavjudligini aniqlash uchun ko'plab ma'lumotlar keltirilgan

Klasterlash uchun ko'plab yondashuvlar mavjud:



  • Ma'lumotni qismlarga bo'lish asosida algoritmlar (Partitioning algoritmlari), shu jumladan iterativ: ob'ektlarni klasterlarga ajratish;

Klasterlashni yaxshilash uchun ob'ektlarni takroran qayta taqsimlash;

  • ierarxik algoritmlar (ierarxiya algoritmlari);

  • ob'ektlarning kontsentratsiyasiga asoslangan usullar (Zichlikka asoslangan usullar);

  • tarmoqqa asoslangan usullar;

  • model usullari (Modelga asoslangan).

Shuni ta'kidlash kerakki, klaster tahlilining turli usullarini qo'llash natijasida turli shakllardagi klasterlarni olish mumkin. Turli klasterlash usullarini qo'llash natijasida teng bo'lmagan natijalarga erishish mumkin, bu ma'lum bir algoritmning ishlash xususiyatidir. Ammo shunga o'xshash klasterlarni turli usullar bilan yaratish to'g'ri klasterlashni ko'rsatadi.
Klasterlash sifatini baholash quyidagi protseduralar asosida amalga oshirilishi mumkin: qo'lda tekshirish; nazorat punktlarini o'rnatish va natijada paydo bo'lgan klasterlarni tekshirish;
Modelga yangi o'zgaruvchilar qo'shish orqali klaster barqarorligini aniqlash; turli usullar yordamida klasterlarni yaratish va taqqoslash.
Klaster tahlili turli sohalarda qo'llaniladi. Marketingda bu raqobatchilar va iste'molchilarni segmentlashtirish vazifasi bo'lishi mumkin. Menejmentda klasterlash muammosiga misol sifatida xodimlarni turli guruhlarga bo'lish, iste'molchilar va etkazib beruvchilarni tasniflash.
Tasniflash vazifalaridan farqli o'laroq, klasterli tahlil ma'lumotlarning to'plami haqida taxminlarni talab qilmaydi, o'rganilayotgan ob'ektlarning vakili uchun cheklovlar qo'ymaydi va har xil turdagi ma'lumotlarning ko'rsatkichlarini (interval ma'lumotlari, chastotalar, ikkilik ma'lumotlar) tahlil qilishga imkon beradi.
Shuni esda tutish kerakki, o'zgaruvchilarni taqqoslanadigan o'lchovlarda o'lchash kerak. Klaster tahlili ma'lumotlar hajmini kamaytirish va uni ixchamlaydi. Klaster tahlili vaqt ketma-ketliklari to'plamiga qo'llanilishi mumkin, bu erda ba'zi ko'rsatkichlarning o'xshashlik davrlarini ajratish mumkin va shunga o'xshash dinamikaga ega vaqt seriyalari guruhlarini aniqlash mumkin.
Klaster tahlilining vazifalari quyidagi guruhlarga birlashtirilishi mumkin:
1. Tipologiyani yoki tasnifni ishlab chiqish;
2. Ob'ektlarni guruhlash uchun foydali kontseptual sxemalarni o'rganish;
3. Ma'lumotni o'rganish asosida gipotezalarni topshirish;
4. Mavjud ma'lumotlarda biron-bir tarzda aniqlangan turlar (guruhlar) mavjudligini aniqlash uchun farazlar yoki tadqiqotlarni sinab ko'rish.
Qoida tariqasida, klaster tahlilidan amaliy foydalanishda ushbu muammolarning bir nechtasi bir vaqtning o'zida hal qilinadi.
Klasterni tahlil qilish tartibining misolini ko'rib chiqamiz. Aytaylik, bizda ikkita xususiyat mavjud bo'lgan A ma'lumotlar to'plami bor - X va Y (2-jadval).
2-jadval
Manba ma'lumotlari

Tartib raqami

X belgisi

Y belgisi

1

27

19

2

11

46

3

25

15

4

36

27

5

35

25

6

10

43

7

11

44

8

36

24

Jadvalning oxiri



Tartib raqami

X belgisi

Y belgisi

9

26

14

10

26

14

11

9

45

12

33

23

13

27

16

14

10

47

Jadval shaklidagi ma'lumotlar informatsion emas. Biz X va Y o'zgaruvchilarni 6-shaklda ko'rsatilgan tarqoq diagramma shaklida ifodalaymiz.



6-Shakl X va Y o'zgaruvchilarning tarqoq diagrammasi
Shaklda biz "o'xshash" misollarning bir nechta guruhlarini ko'ramiz. X va K qiymatlarida bir-biriga "o'xshash" bo'lgan misollar (ob'ektlar) bir xil guruhga tegishli (klaster); turli klasterlardagi ob'ektlar bir-biriga o'xshamaydi. Klasterlarning o'xshashligi va farqini aniqlash mezoni - tarqoq diagrammadagi nuqtalar orasidagi masofa.
Klaster quyidagi matematik xususiyatlarga ega: markaz, radius, standart og'ish, klaster hajmi. Klaster markazi - o'zgaruvchilar fazosidagi nuqtalarning geometrik o'rtacha qiymati. Klaster radiusi - klaster markazidan maksimal masofa. Qarama-qarshi ob'ekt - bu o'xshashlikni bir nechta klasterlarga kiritish mumkin bo'lgan ob'ekt.
Klaster hajmini klaster radiusi bilan yoki ushbu klaster uchun moslamalarning standart og'ish bilan aniqlash mumkin. Ob'ekt klaster markaziga masofa klaster radiusidan kamroq bo'lsa, ob'ekt klasterga tegishli. Agar ushbu shart ikki yoki undan ortiq klaster uchun qoniqtirilsa, ob'ekt munozarali. Ushbu vazifaning noaniqligi mutaxassis yoki tahlilchi tomonidan hal qilinishi mumkin.
Klaster tahlili ikkita taxminga asoslanadi. Birinchi taxmin: ob'ektning ko'rib chiqilayotgan xususiyatlari printsipial ravishda ob'ektlar hovuzini (to'plamini) klasterlarga bo'lishini tan oladi. Ikkinchi taxmin: atributlarni o'lchash yoki o'lchov birliklari to'g'ri tanlangan. Klaster tahlilida masshtab tanlash katta ahamiyatga ega.
Bir misolni ko'rib chiqaylik. Tasavvur qiling-a, A ma'lumotlar to'plamidagi X atributining kattaligi ikkita o'zgaruvchidir, X o'zgaruvchisining qiymatlari uchun atribut ma'lumotlaridan 100 dan 700 gacha, Y o'zgaruvchisining qiymatlari 0 dan 1 gacha. So'ngra ular orasidagi masofani hisoblashda. Xususiyatlari grafigida ob'ektlarning joylashuvini aks ettiruvchi nuqtalar, katta qiymatlarga ega bo'lgan o'zgaruvchi, ya'ni X o'zgaruvchisi deyarli o'zgaruvchini kichik qiymatlar bilan to'liq boshqaradi, ya'ni o'zgaruvchan Y. Shunday qilib, xususiyatlarni o'lchash birliklarining har-xilligi tufayli, nuqtalar orasidagi masofani to'g'ri hisoblash imkonsiz bo'ladi.
Ushbu muammo o'zgaruvchilarni oldindan standartlashtirish orqali hal qilinadi. Standartlashtirish yoki ratsionlashtirish barcha konvertatsiya qilinadigan o'zgaruvchilar qiymatlarini ma'lum qiymatlarning ma'lum bir xususiyatlariga aks ettiruvchi ma'lum qiymatlarga nisbati orqali ifodalash orqali qiymatlarning yagona diapazoniga olib keladi.
Manba ma'lumotlarini normalizatsiya qilishning turli usullari mavjud:

  • Z-shkalalar (Z-Scores) (o'zgaruvchilar qiymatlaridan ularning o'rtacha qiymati olinadi va bu qiymatlar standart og'ishlarga bo'linadi);

  • manba ma'lumotlarini tegishli parametrlarning standart og'ishlariga bo'lish;

  • maksimal 1 (o'zgaruvchilar qiymatlari ularning maksimal qiymatiga bo'linadi);

  • o'rtacha 1 (o'zgaruvchilar qiymatlari ularning o'rtacha qiymatiga bo'linadi);

  • -1 dan 1 gacha bo'lgan tarqalish (o'zgaruvchilarning chiziqli o'zgarishi qiymatlarning tarqalishiga -1 dan 1 gacha etadi);

  • 0 dan 1 gacha bo'lgan tarqalish (o'zgaruvchilarning chiziqli o'zgarishi 0 dan 1 gacha bo'lgan qiymatlarning tarqalishiga erishadi).

O'zgaruvchilarni standartlashtirish bilan bir qatorda, ularning har biriga tegishli o'zgaruvchining ahamiyatini aks ettiradigan ma'lum bir muhimlik koeffitsienti yoki og'irlik berish imkoniyati mavjud. Vaznga ko'ra, ushbu sohadagi mutaxassislar - mutaxassislarning so'rovi davomida olingan ekspert baholari ta'sir qilishi mumkin.
Klaster tahlil usullarini ikki guruhga bo'lish mumkin:
- ierarxik;
- ierarxik bo'lmagan.
Ierarxik klasterlashning mohiyati kichik klasterlarni yiriklarga birlashtirish yoki katta klasterlarni kichiklarga bo'lishdan iborat.
Ierarxik aglomerativ usullar (Agglomerative Nesting, AGNES) manba elementlarining izchil kombinatsiyasi va klasterlar sonining tegishli pasayishi bilan tavsiflanadi. Algoritm boshida barcha ob'ektlar alohida klasterlardir. Birinchi bosqichda eng o'xshash ob'ektlar klasterga birlashtirilgan. Keyingi bosqichlarda, barcha ob'ektlar bitta klaster hosil bo'lguncha birlashma davom etadi.
Ierarxikka bo'linadigan usullar (Divisive ANAlysis, DIANA) aglomerativ usullarning mantiqiy teskari tomonidir. Algoritm boshida barcha ob'ektlar bitta klasterga tegishli bo'lib, keyingi bosqichlarda kichik guruhlarga bo'linadi va natijada bo'linish guruhlari ketma-ketligi yuzaga keladi.
Yuqoridagi usullar guruhini dendrogram shaklida (daraxt shaklidagi chizma) ishlash printsipi 7-shaklda keltirilgan.
0 qadam 1 qadam 2 qadam 3 qadam 4 qadam
Aglomerativ usullari

bo'linadigan usullar
4-qadam 3-qadam 2-qadam 1-qadam 0-qadam
7-shakl. Aglomerativ va bo'linuvchi usullarning dendrogrammasi

Usullari: Ierarxik klasterlash usullari klasterlarni qurish qoidalarida farq qiladi. Qoidalar ob'ektlarni guruhga birlashganda (aglomerativ usullar) yoki guruhlarga bo'linganida (bo'linadigan usullar) ob'ektlarning "o'xshashligi" to'g'risida qaror qabul qilishda foydalaniladigan mezonlardir. Kichik hajmdagi ma'lumotlar to'plami uchun klaster tahlilining ierarxik usullari qo'llaniladi.


Ierarxik klasterlash usullarining afzalligi ularning ko'rinishi.
Ierarxik algoritmlar dendrogramma (yunoncha dendrondan - "daraxt" dan) qurilishi bilan bog'liq bo'lib, ular ierarxik klaster tahlili natijasidir. Dendrogram individual nuqtalar va klasterlarning bir-biriga yaqinligini tavsiflaydi va klasterlarni birlashtirish (ajratish) ketma-ketligini grafik ravishda ifodalaydi. Dendrogram - bu n darajalarini o'z ichiga olgan daraxt diagrammasi, ularning har biri ketma-ket klasterni kattalashtirish bosqichlarining biriga to'g'ri keladi.
Dendrogram - bu ierarxiyaning turli darajalarida o'zgarib turadigan ob'ektlar guruhidir. Dendrogramlarni yaratishning ko'plab usullari mavjud. Dendrogramda ob'ektlar vertikal yoki gorizontal ravishda joylashtirilishi mumkin. Vertikal dendrogramma namunasi 8-shaklda keltirilgan.

8-shakl. Dendrogramga misol
11, 10, 3 raqamlari va boshqalar, ob'ektlarning soniga yoki asl namunadagi kuzatuvlarga mos keladi. Birinchi bosqichda har bir kuzatuv bitta klasterni (vertikal chiziq) anglatadi, ikkinchi bosqichda bunday kuzatuvlar yangi klasterlarga birlashtirilgan: 11 va 10; 3, 4 va 5; 8 va 9; 2 va 6. Ikkinchi bosqichda klasterlash davom etmoqda: 11, 10, 3, 4, 5 va 7, 8, 9-sonli kuzatishlar.
6 Iyerarxiya (yun. hierarchia, hieros — avliyo va arche — hukmronlik, hokimiyat) — bir butun narsa yoki hodisalar ayrim qismlari yoki elementlarining yuqoridan quyiga tomon bir tartibda joy olishi. Fanga I. tushunchasi 19-asrning 2-yarmida kirib keldi. Dastlab I. jamiyatning sinfiy tabaqalanishini va hokimiyat tuzilishini tavsif etish maqsadida qoʻllanilgan. 20-asrdan boshlab esa har qanday obʼyekt sistemasini tavsif etishda qoʻllanila boshlandi.
Bu jarayon barcha kuzatuvlar bitta klasterga birlashmaguncha davom etadi.
Ob'ektlar orasidagi masofani hisoblash uchun turli xil o'lchovlar (o'xshashlik o'lchovlari) ishlatiladi, ular masofa o'lchovlari yoki funktsiyalari deb ham ataladi.
Eng keng tarqalgan usul - Evklid masofasini tekislikdagi ikki nuqta, i va j koordinatalari ma'lum bo'lganda hisoblash - X va Y:

Bir-biridan ancha uzoqroq bo'lgan narsalarga katta og'irliklar berish uchun biz Evklid masofasini standart Evklid masofasini kvadrati yordamida ishlatamiz.
Manxetten masofasi (shahar bloklari orasidagi masofa) koordinatalar farqi sifatida hisoblanadi:

Ko'pgina hollarda, bu masofa o'lchovi Evklid masofasini hisoblash bilan o'xshash natijalarga olib keladi. Ammo, bu o'lchov uchun, evaklid masofasidan foydalanganda individual chiqindilarning ta'siri kamroq, chunki bu erda koordinatalar kvadratlarga teng kelmaydi.


Chebishev masofasidan ikkita ob'ektni har xil o'lchamda farq qilsa, ularni "boshqacha" deb belgilash zarur bo'lganda foydalanish kerak.
Agar ma'lumotlar kategoriya bo'lsa, kelishmovchilik foizi hisoblanadi.
Birlashtirish yoki bog'lash usullari: Har bir ob'ekt alohida klaster bo'lsa, ushbu ob'ektlar orasidagi masofa tanlangan o'lchov bilan belgilanadi. Ikki klaster uchun birlashtirish yoki bog'lash usullari deb nomlangan turli xil qoidalar mavjud.
Qo'shni usul yoki bitta aloqa. Bu yerda ikkita klaster orasidagi masofa turli xil klasterlardagi ikkita yaqin ob'ekt (yaqin qo'shnilar) orasidagi masofaga qarab belgilanadi. Ushbu usul sizga o'z-o'zidan murakkab shakldagi klasterlarni tanlash imkonini beradi, agar bunday klasterlarning turli qismlari bir-biriga yaqin elementlar zanjiri bilan bog'langan bo'lsa.
Ushbu usulning ishlashi natijasida klasterlar faqat bir-birlariga yaqinroq bo'lib qolgan individual elementlar tomonidan "bir-biriga bog'langan" uzun "zanjirlar" yoki "tolali" klasterlar bilan ifodalanadi.
Eng uzoq qo'shnilar usuli yoki to'liq aloqa. Bu erda klasterlar orasidagi masofalar har xil klasterlardagi har qanday ikki ob'ekt orasidagi eng katta masofaga (masalan, "eng uzoq qo'shnilar") aniqlanadi. Agar klasterlar biron bir tarzda cho'zilgan bo'lsa yoki ularning tabiiy turi "zanjir" bo'lsa, unda bu usul ishlatilmasligi kerak.
Wardning (Uordning ) usuli. Klasterlar orasidagi masofa sifatida biz jismlarning birlashishi natijasida olingan jismlarning klaster markazlariga bo'lgan masofalari sonining ko'payishini olamiz. Klasterlar orasidagi masofani baholash uchun klaster tahlilining boshqa usullaridan farqli o'laroq, bu yerda dispersion tahlil usullari qo'llaniladi. Algoritmning har bir bosqichida ikkita klaster birlashtirilib, bu ob'ektiv funktsiyaning minimal o'sishiga olib keladi, ya'ni. kvadratlararo guruh yig'indisi. Ushbu usul yaqin joylashgan klasterlarni birlashtirishga qaratilgan va kichik klasterlarni yaratishga "intilmoqda".
Og'irligi yo'q Pairwise o'rtacha usuli. Ikki klaster orasidagi masofa sifatida, ulardagi barcha juftliklar orasidagi o'rtacha masofa olinadi. Agar ushbu ob'ektlar haqiqatan ham turli "bog'lar" dan kelib chiqsa, "zanjir" turidagi klasterlar mavjud bo'lsa, teng bo'lmagan klaster o'lchamlari taxmin qilinsa, ushbu usuldan foydalanish kerak.
Og'irlikni juftlik bo'yicha o'rtacha usul. Ushbu usul taqqoslanmagan juft yo'nalish bo'yicha o'rtacha usulga o'xshaydi, yagona farq shundaki, bu yerda klaster hajmi (klaster tarkibidagi ob'ektlar soni) og'irlik koeffitsienti sifatida ishlatiladi. Ushbu usul har xil o'lchamdagi klasterlar haqida taxminlar mavjud bo'lganda aniq qo'llanilishi tavsiya etiladi.
Klasterlar sonini aniqlash muammosi mavjud. Ba'zan siz ushbu raqamni qiymatlarini belgilashingiz mumkin. Ammo, aksariyat hollarda, ko'plab ob'ektlarni aglomeratsiya / ajratish paytida klasterlar soni aniqlanadi. Ierarxik klaster tahlilida ob'ektlarni guruhlarga ajratish jarayoni E. mezoni deb nomlangan koeffitsientning bosqichma-bosqich o'sishiga mos keladi. E mezoni qiymatining sakrash kabi o'sishini o'rganilayotgan ma'lumotlarda haqiqatan ham mavjud bo'lgan klasterlar sonining xarakteristikasi sifatida aniqlash mumkin. Shunday qilib, ushbu usul ob'ektlarning kuchli bog'langan holatidan zaif bog'langan holatiga o'tishni tavsiflovchi ma'lum bir koeffitsientning bosqichma-bosqich o'sishini aniqlash uchun kamayadi.
Klasterlarning maqbul soni kuzatishlar soni va koeffitsientning keskin ko'tarilish bosqichlari sonining farqiga teng deb hisoblanadi. Shunday qilib, ikkita klaster yaratilgandan so'ng, qo'shilish endi amalga oshirilmaydi, vizual ravishda uchta klaster paydo bo'lishini kutgan edik. Ma'lumotlar to'plamini dendrogram sifatida grafik shaklida ko'rsatish mumkin.
Iterativ usullar. Kuzatuvlarning ko'pligi bilan klaster tahlilining ierarxik usullari mos emas. Bunday hollarda, ajralib chiqishga asoslangan ierarxik bo'lmagan usullar qo'llaniladi, ular asl populyatsiyani parchalashning iterativ usullari hisoblanadi. Iteratsion klasterlash usullari quyidagi parametrlarni tanlash bilan ajralib turadi: boshlang'ich nuqtasi; yangi klasterlarni shakllantirish qoidasi; qoida to'xtatish.
Taqsimlash jarayonida to'xtash qoidasi bajarilgunga qadar yangi klasterlar hosil bo'ladi. Bunday ierarxik bo'lmagan klasterlash ma'lum ma'lumotni alohida klasterlarga bo'lishdan iborat. Ikkita yondashuv mavjud. Birinchisi, manba ma'lumotlarining ko'p o'lchovli maydonidagi eng zich bo'limlar sifatida klasterlarning chegaralarini aniqlash, ya'ni. katta "nuqta kontsentratsiyasi" mavjud bo'lgan klasterning ta'rifi. Ikkinchi yondashuv - bu ob'ektlarni farqlash o'lchovini minimallashtirish.
Ierarxik va ierarxik bo'lmagan usullarni tanlashda quyidagi xususiyatlarni hisobga olish kerak. Ierarxik bo'lmagan usullar shovqin va chiqindilarga nisbatan yuqori barqarorlikni, metrikani noto'g'ri tanlashni, klasterlashda qatnashadigan to'plamga ahamiyatsiz o'zgaruvchilarni kiritishni aniqlaydi. Tahlilchi klasterlar sonini, iteratsiyalar sonini yoki to'xtash qoidalarini, shuningdek boshqa klasterlash parametrlarini oldindan aniqlashi kerak.
Agar klasterlar soni bo'yicha taxminlar bo'lmasa, ierarxik algoritmlar tavsiya etiladi. Ammo, agar namunaviy o'lcham bunga imkon bermasa, turli xil klasterlar bilan bir qator tajribalar o'tkazish, masalan, ikki guruhdan olingan ma'lumotlar to'plamini yig'ishni boshlash va asta-sekin ularning sonini ko'paytirish, natijalarni taqqoslash.
Ierarxik usullar, ierarxik bo'lmagan usullardan farqli o'laroq, klasterlar sonini aniqlashdan bosh tortadilar va o'rnatilgan klasterlarning to'liq daraxtini quradilar. Ierarxik klasterlash usullarining qiyinchiliklari: ma'lumotlar to'plamining hajmini cheklash; yaqinlik o'lchovini tanlash; olingan tasniflarning moslashuvchan emasligi. Ierarxik bo'lmagan usullar bilan taqqoslaganda ushbu usullar guruhining ustunligi ularning ko'rinishi va ma'lumotlar tuzilishi haqida batafsil tasavvurga ega bo'lishdir.
Ierarxik usullardan foydalanganda ma'lumotlar to'plamidagi tashuvchilarni osongina aniqlash va natijada ma'lumotlar sifatini yaxshilash mumkin. Ushbu protsedura ikki bosqichli klasterlash algoritmiga asoslanadi. Bunday ma'lumotlar to'plamidan keyin ierarxik bo'lmagan klasterlash uchun foydalanish mumkin. Bu butun ma'lumotlar to'plamini yig'ish yoki uni tanlash masalasi. Nomlangan jihat ko'rib chiqilayotgan usullarning ikkala guruhiga ham xosdir, ammo ierarxik usullar uchun bu juda muhimdir. Ierarxik usullar katta ma'lumotlar to'plamlari bilan ishlay olmaydi, ammo ba'zi tanlovlardan foydalanish, ya'ni. ma'lumotlarning qismlari ushbu usullarni qo'llashga imkon beradi. Klasterlash natijalari yetarli statistik asosga ega bo'lmasligi mumkin.
Boshqa tomondan, klasterlash muammolarini hal qilishda natijalarning statistik bo'lmagan talqini, shuningdek klaster tushunchasining yetarlicha katta xilma-xilligi maqbuldir. Bunday statistik bo'lmagan talqin, tahlilchiga boshqa usullarni qo'llashda ko'pincha qiyin bo'lgan, qoniqarli klasterlash natijalarini olishga imkon beradi.
Klaster tahlilini qo'llash: Umumiy holda, klaster tahlilining barcha bosqichlari bir-biri bilan uzviy bog'liq bo'lib, ulardan bittasida qabul qilingan qarorlar keyingi bosqichlardagi harakatlarni belgilaydi:

  • barcha kuzatuvlardan foydalanish yoki ba'zi ma'lumotlar yoki namunalarni ma'lumotlar to'plamidan chiqarib tashlash to'g'risida qaror qabul qilish;

  • manba ma'lumotlarini o'lchash va standartlashtirish usulini tanlash;

  • klasterlar sonini aniqlash (iterativ klaster tahlili uchun);

  • klasterlash usulini aniqlash (birlashtirish yoki bog'lanish qoidalari; klaster usulini tanlash klasterlarning shakli va o'ziga xosligini aniqlashda hal qiluvchi ahamiyatga ega;

  • Klasterlash natijalarini tahlil qilish quyidagi masalalarni hal qilishni nazarda tutadi: olingan klasterlash tasodifiymi? ma'lumotlarning pastki qismlarida bo'lim ishonchli va barqaror bo'ladimi; Klasterlash natijalari va klasterlash jarayonida qatnashmagan o'zgaruvchilar o'rtasida o'zaro bog'liqlik bormi? klasterlash natijalarini talqin qilish mumkinmi;

  • Klasterlash natijalarini tekshirish rasmiy va norasmiy usullar bilan amalga oshiriladi. Rasmiy usullar klasterlash uchun ishlatiladigan usulga bog'liq. Norasmiy tartiblarga klasterlash sifatini tekshirishning quyidagi tartiblari kiradi: ma'lumotlar to'plamining aniq namunalarida olingan klasterlash natijalarini tahlil qilish; o'zaro faoliyat tekshirish; ma'lumotlar to'plamidagi kuzatuvlar tartibini o'zgartirganda klasterlash; ba'zi kuzatuvlarni olib tashlashda klaster; kichik namunalarda klasterlash.

Klasterlash sifatini tekshirish variantlaridan biri bir nechta usullardan foydalanish va natijalarni taqqoslashdir. O'xshashlikning yo'qligi noto'g'ri natijalarni anglatmaydi, ammo shunga o'xshash guruhlarning mavjudligi sifatli klasterlashning belgisi hisoblanadi.
Boshqa har qanday usul singari, klaster tahlil usullari ma'lum kamchiliklarga ega, ya'ni ba'zi qiyinchiliklar, muammolar va cheklovlar. Klaster tahlilini o'tkazishda shuni yodda tutish kerakki, klasterlash natijalari dastlabki ma'lumotlarning umumiy sonini bo'lish mezonlariga bog'liq. Ma'lumotlar o'lchamining pasayishi bilan ma'lum buzilishlar paydo bo'lishi mumkin, umumlashtirish natijasida ob'ektlarning ayrim individual xususiyatlari yo'qolishi mumkin.
Klasterlashdan oldin ko'rib chiqilishi kerak bo'lgan bir qator qiyinchiliklar mavjud:
1. Klasterlash asosida amalga oshiriladigan xususiyatlarni tanlash qiyinligi. Shoshqaloqlik tanlovni klasterlarga noto'g'ri ajratish va natijada muammoning noto'g'ri echimiga olib keladi;
2. Klaster usulini tanlash qiyinligi. Ushbu tanlov ularni qo'llash usullari va shartlarini yaxshi bilishni talab qiladi. Muayyan usulning ma'lum bir sohada samaradorligini tekshirish uchun quyidagi tartibni qo'llash tavsiya etiladi: bir nechta priori turli guruhlarni o'zlari orasida ko'rib chiqing va ularning vakillarini tasodifiy aralashtiring. Keyinchalik, original klasterlashni tiklash uchun klasterlash amalga oshiriladi. Belgilangan va boshlang'ich guruhlardagi ob'ektlarning mos kelishi nisbati bu usul samaradorligining ko'rsatkichidir;
3. Klasterlar sonini tanlash muammosi. Agar mumkin bo'lgan klasterlar soni to'g'risida ma'lumot bo'lmasa, bir qator tajribalar o'tkazish kerak va turli xil klasterlarni sanab chiqish natijasida ularning maqbul sonini tanlash kerak;
4. Klasterlash natijalarini sharhlash muammosi. Klasterlar shakli ko'p hollarda birlashtirish usulini tanlash bilan belgilanadi. Shuni yodda tutish kerakki, aniq usullar o'rganilayotgan ma'lumotlar to'plamida deyarli klasterlar bo'lmasa ham, ma'lum shakllarning klasterlarini yaratishga moyildir.
Klaster tahlili algoritmlarining yangi algoritmlari va ba'zi o'zgartirishlari.
Yaqin vaqtgacha klasterlash algoritmi baholanadigan asosiy mezon klasterlash sifati edi: barcha ma'lumotlar to'plami RAMga to'g'ri keladi deb taxmin qilingan. Ammo hozirda juda katta ma'lumotlar bazalarining paydo bo'lishi munosabati bilan klasterlash algoritmi qondirilishi kerak bo'lgan yangi talablar paydo bo'ldi.
Asosiysi algoritmning ko'lamliligi. Shuningdek, klasterlash algoritmi qanoatlantirishi kerak bo'lgan boshqa xususiyatlarni ham qayd etamiz: natijalarni kirish ma'lumotlari tartibidan mustaqilligi; algoritm parametrlarining kirish ma'lumotlaridan mustaqilligi.
So'nggi paytlarda ultra katta ma'lumotlar bazalarini qayta ishlashga qodir yangi klasterlash algoritmlarini faol rivojlantirish ishlari olib borilmoqda. Ular miqyosi kengayishiga e'tibor qaratadilar.
Bunday algoritmlarga yig'ilgan klaster vakili, shuningdek ma'lumotlar bazasini boshqarish bilan qo'llab-quvvatlanadigan ma'lumotlar tuzilmalarini tanlash va foydalanish kiradi. Ierarxik klasterlash usullari boshqa usullar bilan birlashtirilgan algoritmlar ishlab chiqilgan.
Bunday algoritmlarga quyidagilar kiradi: BIRCH, CURE, CHAMELEON, ROCK.
BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) algoritmi (Ierarxiyalar yordamida muvozanatli iterativ qisqartirish va klasterlash) klasterlarning umumlashtirilgan namoyishlari tufayli klasterlash tezligi oshadi, algoritm esa katta miqyosga ega. Ushbu algoritm ikki bosqichli klasterlash jarayonini amalga oshiradi. Birinchi bosqichda dastlabki klasterlar to'plami shakllantiriladi. Ikkinchi bosqichda asosiy xotirada ishlash uchun mos bo'lgan boshqa klasterlash algoritmlari aniqlangan klasterlarga qo'llaniladi.
Agar har bir ma'lumotlar elementi stol yuzasida joylashgan to’p kabi tasavvur qilinsa, unda to’plar klasterlarini tennis to'plari bilan "almashtirish" mumkin va tennis to'plari klasterlarini batafsil o'rganishga o'tish mumkin. To’pchalar soni juda katta bo'lishi mumkin, ammo tennis to'plarining diametri shunday tanlanishi mumkinki, ikkinchi bosqichda an'anaviy klasterlash algoritmlari yordamida klasterlarning haqiqiy murakkab shaklini aniqlash mumkin.
WaveCluster algoritmi to'lqinli konvertatsiya transformatsiyasiga asoslangan klasterlash algoritmi. Algoritm boshida ma'lumotlar keng maydonga ko'p o'lchovli panjara o'rnatish orqali ma'lumotlar umumlashtiriladi. Algoritmning keyingi bosqichlarida tahlil qilinadigan individual fikrlar emas, balki panjaraning bitta hujayrasiga tushadigan nuqtalarning umumlashtirilgan xususiyatlari. Ushbu umumlashtirish natijasida kerakli ma'lumotlar RAMga to'g'ri keladi. Keyingi bosqichlarda klasterlarni aniqlash uchun algoritm umumlashtirilgan ma'lumotlarga to'lqin o'zgarishini qo'llaydi.
WaveCluster-ning asosiy xususiyatlari: amalga oshirishning murakkabligi; algoritm o'zboshimchalik shaklidagi klasterlarni aniqlay oladi; algoritm shovqinga sezgir emas; algoritm faqat past o'lchovli ma'lumotlarga nisbatan qo'llaniladi.
CLARA (Clustering LARge Applications) algoritmi ma'lumotlar bazasidan ko'plab namunalarni oladi. Namunalarning har biriga klasterlash qo'llaniladi, algoritm chiqqanda eng yaxshi klasterlash taklif etiladi. Katta ma'lumotlar bazalari uchun ushbu algoritm yanada samaralidir. Algoritmning samaradorligi namuna sifatida tanlangan ma'lumotlar to'plamiga bog'liq. Tanlangan to'plamda yaxshi klasterlash butun ma'lumotlar to'plamida yaxshi klasterlashka olib kelmasligi mumkin.



Download 1.7 Mb.

Do'stlaringiz bilan baham:
1   ...   7   8   9   10   11   12   13   14   ...   21




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling