1-variant 1, Fanning maqsad va vazifalari, predmeti va metodlari
Download 312.5 Kb.
|
1-15
12-variant
1. Hadoop Hadoop tarqatilgan fayl tizimini amalga oshirishni o'z ichiga oladi (HDFS), bu avtomatik ravishda ma'lumotlarni ortiqcha qilishni ta'minlaydi va MapReduce dasturlari uchun optimallashtirilgan. Asosiy vazifa shundaki, ishlarni samarali rejalashtirish uchun har bir fayl tizimi o'z joylashishini, ishchi tuguni joylashgan raf nomini (aniqrog'i, tugmachani) bilishi va ta'minlashi kerak. Hadoop dasturlari ushbu ma'lumotlardan ma'lumotlar joylashgan tugun ustida ishlash uchun foydalanishi mumkin va agar u ishlamasa, xuddi shu tokchada / kalitda ishlaydi va shu bilan tarmoq trafigini kamaytiradi. Ma'lumotlarga kirishni soddalashtirish uchun Hadoop omborida, HBase ma'lumotlar bazasi va SQL-ga o'xshash cho'chqa tili ishlab chiqilgan, bu MapReduce uchun SQL turi bo'lib, uning so'rovlari har xil Hadoop platformalari bilan parallellashtirilishi va qayta ishlanishi mumkin.Definition Hive - bu Apache Hadoop ustiga qurilgan ulkan ma'lumotlar to'plamlarini so'rash va tahlil qilish uchun ma'lumotlar ilovasi interfeysi. U boshqa dasturlar, vositalar va dasturlardan professionallar tomonidan afzal ko'riladi, chunki u birinchi navbatda Hive-ning boy ma'lumotlari uchun mo'ljallangan va ulardan foydalanish oson. Umid qilamanki, ushbu qo'llanma bizga Apache Hive-ni ishga tushirishga va ish jarayonlaringizni yanada samaraliroq qilishga yordam beradi. Apache Hive HiveQL (SQL-ga o'xshash) tilida yozilgan kiritish dasturini bir yoki bir nechta Java MapReduce, Tez yoki Spark vazifalariga aylantiradi. (Ushbu ijro mexanizmlarining barchasi Hadoop YARN bilan mos keladi.) Shundan so'ng, Apache Hive ma'lumotlarni Hadoop Distributed File System HDFS uchun jadvallarga joylashtiradi) va javob olish uchun klasterdagi vazifalarni bajaradi. 2 kengayish katta ma'lumotlarni qayta ishlashning asosiy prinsipidir. Ma'lumotlar hisoblash tugunlariga taqsimlanadi va ishlov berish ishlashning yomonlashuvisiz amalga oshiriladi. McKinsey shuningdek qo'llaniladigan kontekstda aloqalarni boshqarish tizimlari va Business Intelligence ni o'z ichiga oldi.-Texnologiya:- noSQL;- MapReduce;- Hadoop;- Uskuna echimlari.Zamonaviy axborot tizimlarida foydalaniladigan axborot (ayniqsa video, audio multimediali ma'lumotlar) hajmini jadal o'sishi mutaxassislar oldiga ularni saqlash va boshqarishning yangi murakkab masalalarini qo'yadi. Hozirgi kunda katta hajmli ma'lumotlar bilan ishlaydigan axborot tizimlarining apparat platformasi sifatida, ma'lumotlarga parallel ishlov berish va istalgancha axborot saqlash hajmini kengaytirish xususiyatiga ega bo'lgan, ko'p protsessorlik meynfreym serverlar klassteridan foydalaniladi. SHuningdek, katta hajmli ma'lumotlarni kichik masalalarga taqsimlash orqali ishlashga mo'ljallangan MapReduce kabi apparat dasturiy texnologiyalar ham mavjud. MapReduce taqsimlangan ma'lumotlar modeli 3. O‘zbekiston Respublikasi axborot texnologiyalari va kommunikatsiyalarini rivojlantirish vazirligida Jahon bankining O‘zbekistonda xususiy sektor faoliyatini o‘rganayotgan maxsus guruh vakillari bilan uchrashuv bo‘lib o‘tgan edi. Uchrashuvda O‘zbekiston tomoni Jahon banki bilan hamkorlikda mamlakatda «elektron tijorat», «salmoqli ma’lumot» («Big Data»), shuningdek, axborot-kommunikatsiya texnologiyalarining boshqa zamonaviy tendensiyalarini joriy qilish bo‘yicha taklif bilan chiqdi.Xo‘sh, biz uchun yangi atama bo‘lgan «Big Data» o‘zi nima?Ma’lumotlar 100 gb.dan ko‘p bo‘lsaMutaxassislar fikriga ko‘ra, «Big Data», ya’ni salmoqli ma’lumot atamasi kuniga 100 gb.dan ko‘p ma’lumot tushadigan oqimlarga nisbatan qo‘llanilgan ekan. Keyinchalik ma’lumotlarning keskin ko‘payishi oqibatida bu tushuncha keng qamrov kasb eta boshlagan. Ushbu atama odatda (terabayt, ekzabayt va petabaytlar darajasidagi) katta hajmdagi ma’lumotlarga nisbatan qo‘llaniladi. Salmoqli ma’lumot atamasi ilk bor matbuotda 2008 yili paydo bo‘lgan, o‘shanda «Nature» jurnali bosh muharriri Klifford Linch o‘z jurnalida katta hajmdagi ma’lumotlar bilan ishlovchi texnologiyalar yordamida ilm-fan kelajagini rivojlantirish mavzusida maqola chop etgan. 2009 yilgacha bu atamaga faqat ilmiy tahlil nuqtai nazaridan yondashilar edi, ammo matbuotda shu mavzuda yana bir necha maqolalar chop etilganidan so‘ng «Big Data» tushunchasidan keng foydalana boshlandi.2010-yilda salmoqli ma’lumotlarning o‘sib borayotgan muammolarini hal etish uchun dastlabki urinishlar boshlandi. Ulkan axborotlar oqimidan foydalanganda xavflarni kamaytirish uchun mo‘ljallangan dasturiy mahsulotlar ishlab chiqishga kirishildi.2011-yilda «Microsoft», «Oracle», EMC va IBM singari yirik kompaniyalar salmoqli ma’lumotlarga qiziqib qolishdi – ular o‘z rivojlanish strategiyalarida yetarlicha muvaffaqiyatga erishish uchun «Big Data» ishlanmalaridan birinchi bo‘lib foydalanishni boshlashdi. Oliy ta’lim muassasalari salmoqli ma’lumotlarni alohida fan sifatida o‘rgatishga 2013-yildayoq kirishdi – endi ushbu soha muammolari bilan nafaqat ma’lumotlar haqidagi fan, balki hisoblash ob’yektlari bilan birlashgan muhandislik ham shug‘ullanadi.Salmoqli ma’lumot tushunchasi katta o‘lchamdagi ishlarni bajara oladigan operatorlarga nisbatan ishlatiladi. Misol uchun hozirda «Google» kompaniyasi bir kunda bir petabaytdan ortiq ma’lumotlarni qayta 12.2 ishlaydi. Ushbu ko‘rsatkich AQSh Kongressi kutubxonasidagi materiallardan 100 barobar ko‘proq degani.VVV – hajm, tezlik, xilma-xillik Salmoqli ma’lumot atamasi orqali tom ma’noda har qanday axborot tashuvchida saqlanayotgan katta miqdordagi ma’lumotlar tushuniladi. Bundan tashqari, bu miqdor juda katta bo‘lib, uni odatiy dasturiy yoki apparat ta’minotlari yordamida qayta ishlash mumkin emas, ayrim hollarda esa umuman imkonsiz.«Big Data» — bu faqat ma’lumotlarning o‘zi emas, balki ularni qayta ishlash va foydalanish texnologiyasi, juda katta oqim ichidan kerakli axborotni izlash uslubidir.Salmoqli ma’lumotlar bilan ishlovchi tamoyillar – «Volume» (hajm), «Velocity» (tezlik), «Variety» (xilma-xillik) ifodalari ushbu atama bilan chambarchas bog‘langan. Bu bevosita saqlanayotgan axborot miqdori, ularni qayta ishlash tezligi va xilma-xilligiga bog‘liq jarayondir. So‘nggi paytlarda ushbu uchta bazaviy tamoyilga yana biri – axborot qiymatini anglatuvchi «Value» tushunchasi ham qo‘shildi. Ya’ni, ma’lumotni saqlash va qayta ishlash xarajatlarini oqlash uchun u nazariy yoki amaliy jihatdan foydali va kerakli bo‘lishi shart. 5. To'g'ridan-to'g'ri tarqalish tarmoqlari Qayta aloqa tarmoqlari Takroriy neyron tarmoqlari sun'iy neyron tarmoqlar bo'lib, unda neyronning chiqishi uning kirishiga qaytarilishi mumkin. Umumiy holda, bu chiqishdan kirishlarga signalning tarqalishi imkoniyatini anglatadi. Guruch. 19. Teskari aloqaga ega tarmoqlar Bu tamoyil keng imkoniyatlarni ochib beradi, uning yordamida signallarni tiklaydigan va to'ldiruvchi, ya'ni odam kabi qisqa muddatli xotiraga ega bo'lgan tarmoqlarni yaratish mumkin. Neyron tarmoqlari qanday ishlashini tushunishning eng muhim jihatlaridan biri bu neyronlar to'plami berilgan vazifani to'g'ri bajarish uchun nima kerakligini tushunishdir. Buning uchun tarmoqni o'rganish jarayoni mavjud. ANN odamlar kabi o'rganadi. Neyron tarmoqni o'rgatish (trening) - bu tarmoqdan o'tgandan keyin kirish signali bizga kerak bo'lgan chiqishga aylantiriladigan bunday og'irlik koeffitsientlarini qidirish. "Neyron tarmoqlarni o'qitish" atamasiga bunday yondashuv biologik neyron tarmoqlariga ham mos keladi. Bizning miyamiz juda ko'p sonli o'zaro bog'langan neyron tarmoqlardan iborat. Ularning har biri alohida-alohida bir xil turdagi neyronlardan iborat (faollashtirish funktsiyasi bir xil). Biz sinapslarni, kirish signalini kuchaytiradigan / zaiflashtiradigan elementlarni o'zgartirish orqali o'rganamiz. Agar siz tarmoq kiritishiga faqat bitta signalni bir necha marta qo'llasangiz, u odam uchun oz miqdordagi ma'lumotni eslab qolish osonroq bo'lgani kabi, uni eslab qoladi. Bizga kerak bo'lgan narsa belgilarni tasniflash va umumlashtirish, ya'ni to'g'ri javob berish qobiliyatidir. Trening to'plami aynan shu maqsadda. Trening to'plami - tarmoq o'qitilgan kirish signallarining cheklangan to'plami (ba'zan to'g'ri chiqish signallari bilan birga). Tarmoqni o'qitgandan so'ng, siz uni amalda qo'llashga harakat qilishingiz va trening namunasida bo'lmagan kirishlarga signallarni qo'llashingiz mumkin. Ammo buni amalga oshirishdan oldin, natijalarning to'g'riligi uchun tarmoqni tekshirishingiz kerak, buning uchun sinov namunasi mavjud. Sinov to'plami - tarmoq sifatini baholash uchun ishlatiladigan kirish signallarining cheklangan to'plami (ba'zan to'g'ri chiqish signallari bilan birga). Shunday qilib, ANN treningi har bir sun'iy neyron uchun to'g'ri og'irliklarni tanlashdir. Buning uchun ikkita usuldan foydalanish mumkin: O'qituvchi bilan mashg'ulot. Amaliyotning ma'nosi shundan iboratki, ANN kirishiga signal beriladi, unga to'g'ri javob oldindan ma'lum. Agar tarmoq to'g'ri javob bersa, og'irliklar o'zgarmaydi. Agar tarmoq tomonidan berilgan javob noto'g'ri bo'lib chiqsa, chiqishlardan kirishlarga qadar, maxsus algoritmlarga muvofiq, ANN og'irliklari sozlanadi va o'quv namunasi tugaguniga qadar mashg'ulotlar davom etadi. Nazorat ostida o'qitish - tarmoqli o'rganishning bir turi bo'lib, uning vaznlari tarmoqning javoblari allaqachon tayyorlangan to'g'ri javoblardan minimal farq qiladigan tarzda o'zgaradi. Kirish signallari sifatida siz ma'lum kunlarni, bozorning umumiy holatini va boshqa parametrlarni olishingiz mumkin. Va to'g'ri javoblar sifatida - o'sha kunlarda narxning ko'tarilishi va tushishi. O'qituvchisiz o'rganish. Nazoratsiz o'rganish kirish signallariga to'g'ri javob noma'lum bo'lganda qo'llaniladi. Bunday holda, butun o'quv majmuasi faqat kirish signallaridan iborat. Bunday trening bilan tarmoq unga kiritilgan signallardan sinflarni ajratishni boshlaydi, ya'ni klasterlashni amalga oshiradi. Misol uchun, biz avtobus, trolleybus va tramvayga mos keladigan ob'ektlar va ularning xususiyatlarini tarmoqqa kiritamiz. Vaqt o'tishi bilan INS ushbu ob'ektlarga mos keladigan uch xil signalni ishlab chiqaradi. Nazoratsiz o'qitish - tarmoq kirish signallarini mustaqil ravishda tasniflaydigan tarmoq o'rganish turi. To'g'ri (mos yozuvlar) chiqish signallari ko'rsatilmaydi. Ushbu ma'lumot neyron tarmoqlarga asoslangan tasvirlarda ob'ektni aniqlash tizimlarining turli prototiplarini yaratish uchun zarurdir. 4.Ma'lumotlar kublarini loyihalash. Microsoft Query yordamida OLAP kubini yaratish Oflayn kub (.cub) fayli ma'lumotlarni onlayn tahliliy ishlov berish (OLAP) kubidagi shaklda saqlaydi. Ushbu ma'lumotla?r OLAP serveridagi OLAP ma'lumotlar bazasining bir qismini ifodalashi mumkin 12.3 yoki u har qanday OLAP ma'lumotlar bazasidan mustaqil ravishda yaratilishi mumkin. Server mavjud bo'lmaganda yoki oflayn kub fayli yordamida tarmoqdan uzilganda PivotTable va PivotChart hisobotlari bilan ishlashni davom ettirish uchun. Oflayn kublar haqida ko'proq bilib oling Agar siz OLAP serveridagi ma'lumotlar manbasiga asoslangan Pivot Table yoki PivotChart hisoboti bilan ishlayotgan bo'lsangiz, asl ma'lumotlarni kompyuteringizdagi alohida oflayn kub faylga nusxalash uchun Oflayn kub ustasidan foydalanasiz. Ushbu oflayn fayllarni yaratish uchun kompyuteringizda o'rnatilgan Microsoft SQL Server Analysis Services kompaniyasining MSOLAP kabi ushbu imkoniyatlarni qo'llab-quvvatlaydigan OLAP ma'lumotlar provayderi bo'lishi kerak. Eslatma: Microsoft SQL Server Analysis Services-dan mustaqil kub fayllarni yaratish va ulardan foydalanish Microsoft SQL Server o'rnatish muddati va litsenziyalanishiga bog'liq. SQL Server versiyangiz uchun tegishli litsenziya ma'lumotlarini ko'rib chiqing.Oflayn kub ustasidan foydalanish Oflayn kub faylini yaratish uchun OLAP maʼlumotlar bazasidagi maʼlumotlarning quyi toʻplamini tanlash uchun oflayn kub ustasidan foydalaning va keyin ushbu toʻplamni saqlang. Hisobot barcha maydonlarni o'z ichiga olishi, faylga kiritilishi shart emas va siz OLAP ma'lumotlar bazasida mavjud bo'lgan har qanday o'lcham va ma'lumotlar maydonlarini tanlashingiz mumkin. Fayl hajmini minimallashtirish uchun siz faqat hisobotda ko'rsatmoqchi bo'lgan ma'lumotlarni kiritishingiz mumkin. Siz barcha o'lchamlarni o'tkazib yuborishingiz mumkin va o'lchamlarning ko'p turlari uchun siz ko'rsatishni istamaydigan quyi darajadagi tafsilotlarni va yuqori darajadagi elementlarni ham o'tkazib yuborishingiz mumkin. Barcha elementlar oflayn fayl uchun ham saqlanadi, ular ushbu elementlar uchun ma'lumotlar bazasida mavjud xususiyat maydonlariga kiritilishi mumkin. Maʼlumotni oflaynga olib, keyin maʼlumotlarni qayta onlayn koʻchiring Buni amalga oshirish uchun siz avval server ma'lumotlar bazasiga asoslangan PivotTable hisobotini yoki PivotChart hisobotini yaratishingiz kerak, so'ngra hisobotdan oflayn kub faylini yaratishingiz kerak. Keyinchalik, hisobot bilan ishlashda siz istalgan vaqtda server ma'lumotlar bazasi va oflayn fayl o'rtasida almashishingiz mumkin (masalan, uyda yoki yo'lda noutbukda ishlash va keyin kompyuterni tarmoqqa qayta ulashda).Maʼlumotlarni oflayn rejimga oʻtkazish va ularni onlayn tarzda qaytarish boʻyicha asosiy qadamlar quyida tasvirlangan. Download 312.5 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling