Mavzu: biologiyada “ulkan ma’lumotlar” (big data)


Download 23.07 Kb.
Sana20.12.2022
Hajmi23.07 Kb.
#1039358
Bog'liq
14MARUZA

MAVZU: BIOLOGIYADA “ULKAN MA’LUMOTLAR” (BIG DATA).


“Ulkan ma’lumotlar” (Big data) haqida tushuncha. Ulkan ma’lumotlarni aniqlash. Ulkan ma’lumotlarni saqlash va taxlil qilish texnologiyalari. Ulkan ma’lumotlar sohasidagi ilmiy muammolar


Mavzu rejasi:

  1. “Ulkan ma’lumotlar” (Big data) haqida tushuncha. Ulkan ma’lumotlarni aniqlash

  2. Ulkan ma’lumotlarni saqlash va taxlil qilish texnologiyalari

  3. Ulkan ma’lumotlar sohasidagi ilmiy muammolar

Dunyoda raqamlangan ma’lumotlar hajmi ekponent bo‘yicha o‘sib bormoqda. IBS kompaniyasining ma’lumotlariga qaraganda, 2003-yilda 5 eksabayt(1 eksabayt - 1 milliard gigabayt) ma’lumot yig‘ilgan ekan. 2008-yilda u
0.18 zettabayt(1 zettabayt q 1024 eksabayt) gacha, 2011-yilga kelib 1.76 zettabayt, 2013-yilda 4.4 zettabaytgacha yetibdi. 2015-yilning mayida dunyoda yig‘ilgan
raqamlanga ma’lumotlar hajmi 6.5 zettabaytdan oshib ketibdi. 2020-yilga kelib insoniyat 40-44 zettabayt raqamli ma’lumot hosil qilar ekan.IBS mutaxassislarining fikriga ko‘ra, 2013-yilda yig‘ilgan ma’lumotlar massivining atiga 1.5%i qandaydiy axborot qiymatiga ega bo‘lgan ekan. Baxtga qarshi, hozir dunyoda katta ma’lumotlarni qayta ishlash texnologiyalari bo‘lib, ular yordamida juda katta ma’lumotlar massividan insonlarga kerak, qiziq bo‘lgan, foydali ma’lumotlarni ajratib olish mumkin bo‘ladi.
Big data(katta ma’lumotlar) - juda katta hajmdagi bir jinsli bo‘lmagan va tez tushadigan raqamli ma’lumotlar bo‘lib, ularni odatiy usullar bilan qayta ishlab bo‘lmaydi. Ba’zi hollarda, katta ma’lumotlar tushunchasi bilan birga shu ma’lumotlarni qayta ishlash ham tushuniladi. Asosan, analiz obekti katta ma’lumotlar deb ataladi. Big data atamasi 2008-yilda dunyoga kelgan. Nature jurnali muharriri Klifford Linch dunyo ma’lumotlar hajmining juda tez sur’atda o‘sishiga bag‘ishlangan maxsus sonida big data atamasini qo‘llagan. Biroq, katta ma’lumotlar avval ham bo‘lgan. Mutaxassislarning fikricha, kuniga 100 gb dan ko‘p ma’lumot tushadigan oqimlarga big data deb aytilar ekan. Katta ma’lumotlarni analiz qilish, inson his etish imkoniyatidan tashqarida bo‘lgan qonuniylatlarni aniqlashda yordam beradi. Bu esa kundalik hayotimizdagi barcha sohalar, hukumatni boshqarish, tibbiyot, telekommunikatsiya, moliya, transport, ishlab chiqarish va boshqa sohalarni yanada yaxshilash, ularning imkoniyatlarini oshirish, muommolarga muqobil yechimlar izlab topish imkonini yaratadi.
Data lake(ma’lumotlar ko‘li) - qayta ishlanmagan katta ma’lumotlar ombori. "Ko‘l" har xil manbalardan kelgan, har xil formatda bo‘lgan ma’lumotlarni
saqlaydi. Bu esa odatiy relatsion ma’lumotlar omborida ma’lumotlarni aniq struktura asosida saqlashdan ko‘ra arzonroqqa tushadi. Ma’lumotlar ko‘li, ma’lumotlarni boshlang‘ich holatida analiz qilish imkonini beradi. Bundan tashqari, "ko‘l"lardan bir vaqtni o‘zida bir nechta ishchilar foydalanishlari mumkin.
Data sciyencye(ma’lumotlar haqidagi fan) - analiz muommolarini , ma’lumotlarni qayta ishlash va ularni raqamli ko‘rinishda taqdim etishni o‘rganadigan fan.
Bu atama dunyoga kelgan vaqt 1974-yil hisoblanadi. O‘sha yili Daniyalik informatik, Peter Naur "A Basic Principle of Data Sciyencye" nomli kitobini chop ettirgan. 2010-yillar boshida katta ma’lumotlarni tarqalishi natijasida bu yo‘nalish juda foydali va kelajagi bor biznesga aylandi. Va o‘shandi katta ma’lumotlar bilan ishlaydigan mutaxassislarga talab juda oshib ketdi.Data sciyencye tushunchasiga ma’lumotlar omborini loyihalash va raqamlangan ma’lumotlarni qayta ishlashning barcha metodlari kiradi. Ko‘plab mutaxassislar fikricha, aynan data sciyencye big dataning biznes nuqtai nazaridan hozirgi zamonoviy o‘rindoshi hisoblanadi.
Data mining(ma’lumotlarni topish) - biron qonuniyatni topish maqsadida ma’lumotlarni intellektual analiz qilishga aytiladi. Isroillik matematik Grigoriy Pyatetskiy-Shapiro 1989-yilda bu atamani fanga kiritgan.Texnologiyalar, avvalari noma’lum va foydali bo‘lgan qayta ishlanmagan(hom) ma’lumotlarni topish
jarayoniga data mining(ma’lumotlarni topish) deyiladi. Data mining metodlari ma’lumotlar ombori, statistika va sun’iy intellekt tutashgan nuqtada joylashadi.
Machine learning(mashinali o‘qitish) - o‘zi o‘rganadigan dasturlar yaratish amaliyoti va nazariyasi, sun’iy intellektning katta qismi.Dasturchilar o‘z algoritmlariga xususiy hollarda umumiy qonuniyatlarni aniqlashni o‘rgatishadi. Natijada, kompyuter, inson avvaldan ko‘rsatib o‘tgan buyruqlaridan emas, balki, o‘z shaxsiy malakasidan kelib chiqib qaror qabul qiladi. Bunday o‘qitishning juda ko‘p metodlari data mining‘ga oid bo‘lishi mumkin.
Mashinali o‘qitishga birinchi tarifni 1959-yilda amerikalik informatik Artur Samuyel bergan. U sun’iy intellekt elementlariga ega bo‘lgan shashka o‘yini, dunyoda birinchi o‘zi o‘rganadigan dasturni yaratgan.
Deyep learning(chuqur o‘qitish) - yanada murakkab va yanada mustaqil bo‘lgan o‘zi o‘qidigan dasturlar yaratadigan mashinali o‘qitish turi. Oddiy mashinali o‘qitish hollarida boshqariladigan malaka yordamida kompyuter bilimlarni aniqlab oladi: dasturchi algoritmga ma’lum misollarni ko‘rsatadi, xatolarni qo‘lda to‘g‘rilaydi. Deyep learningda esa, tizim o‘zi o‘z funksiyalarini loyihalaydi, ko‘p darajali hisob-kitoblar amalga oshiradi va atrof-muhit haqida xulosalar qiladi.
Odatda chuqur o‘qitishni neyron tarmoqlarga tadbiq qilishadi. Bu texnologiya asosan rasmlarni qayta ishlashda, nutqni tanishda, neyromashina tarjima, farmatsevtikadagi hisoblashlarda va boshqa zamonaviy texnologiyalarda qo‘llaniladi. Asosan Google, facyebook va Baidu tomonidan loyihalarga tadbir qilinadi.
Sun’iy neyron tarmog‘i - oddiy protsessorlar(sun’iy neyronlar) birlashtirilgan tizimi bo‘lib, insonning nerv tizimini imitatsiya qiladi. Bunday struktura evaziga, neyron tarmoqlari dasturlanmaydi, ular o‘qitishadi. Huddi haqiqiy neyronlar kabi, protsessorlar signallarni oddiygina qabul qilishadi va boshqa protsessorlarga o‘zatishadi. Shu bilan birga, boshqa butun tizim algoritmlar bajara olmaydigan murakkab topshiriqlarni bajaradi.1943-yilda amerikalik olimlar Uorren Makkalok va Uolter Pittslar sun’iy neyron tarmog‘i tushunchasini fanga kiritishgan.
Business intelligencye(biznes-analitika) - aniq strukturaga ega bo‘lmagan juda katta hajmdagi ma’lumotlarni qayta ishlash natijasida muqobil biznes yechimlar izlashga aytiladi. Effektiv biznes-analitika ichki va tashqi ma’lumotlarni analiz qiladi - ham bozor axborotlarini, ham mijoz-kompaniyaning hisobotlarini hisobga oladi. Bu biznesni butunlay tushunishga yordam beradi, shu bilan birga, strategik va operatsion qarorlar qabul qilishga zamin yaratadi(mahsulot narxini aniqlashda, kompaniya rivojlanishining asosiy yo‘nalishlarini belgilab olishda).
Bu atama 1958-yilda IBM taqdiqotchisi Xans Piter Lun maqolasida birinchi bo‘lib ko‘rsatilgan. 1996-yilda axborot texnologiyalari bozorini o‘rganishga asoslangan Gartner analitik agentligi business intelligencye tarkibiga data mining metodikasini ham qo‘shgan.
Katta hajmli ma’lumotlar (big data) davri
Yangi texnologiyalar, qurilmalar va aloqa vositalarining tezkor rivojlanishi, ijtimoiy tarmoqlarning keng miqyosda yoyilishi ta’sirida insoniyat tarafidan ishlab chiqilayotgan ma’lumotlar miqdori keskin tarzda oshib bormoqda. Insoniyat yaralgan vaqtdan 2003-yilgacha to‘plangan ma’lumotlar 5 milliard gigabayt miqdoriga teng deb hisoblanadi va bu ma’lumotlar diskka yozilgan holatda butun bir futbol maydonini egallashi mumkin bo‘ladi.
Ushbu miqdordagi ma’lumotlar 2011-yilda har ikki kunda yaratilgan bo‘lsa, 2013-yilga kelib, insoniyat tomonidan 5 milliard gigabayt ma’lumot har 10 daqiqada yaratilmoqda. Bu o‘z navbatida, fanda yangi atama — katta hajmli ma’lumotlar (Big Data) tushunchasining yaralishiga sabab bo‘ldi. Bu turdagi katta hajmli ma’lu¬motlar bilan ishlashda, hozirda yangidan-yangi algoritm va texno¬logiyalar ishlab chiqilmoqda va amaliyotda keng qo‘llanilmoqda. Atrofimizdagi milliardlab to‘planib qolgan ma’lumotlarni yig‘ish, qayta ishlash va ulardan samarali foydalanish orqali ma’lum holat yoki obekt to‘g‘risida tarixiy, joriy va kelajak vaqt uchun muhim bo‘lgan bilimlarga ega bo‘lishimiz mumkin. Buning uchun dastlab, ushbu ma’lumotlarning manbasini aniqlash muhim amallardan biri hisoblanadi. «Katta hajmli ma’lumotlar» tushunchasi katta o‘lchamdagi ishlarni bajara oladigan operatorlarga nisbatan ishlatiladi. Bu asrlar davomida o‘rnatilgan tartibni o‘zgartirib yuboradi va bizning fundamental bilimlarimizni, qaror qabul qilishni shubha ostiga qo‘yadi. Haqiqiy evolyutsiya bu ma’lumotlarni chiqarib beradigan kompyuterlarda emas, balki, ma’lumotlarning o‘zlarida va biz ularni to‘g‘ri qo‘llay olishimizdadir. Google bir kunda bir petabaytdan ortiq ma’lumotlarni qayta ishlaydi. Ushbu ko‘rsatkich AQSh kongressi kutubxonasida nashr qilinadigan materiallardan 100 barobar ko‘proq. Atiga 10 yil avval mavjud bo‘lmagan kom¬paniya — Facyebook, soatiga 10 milliondan ortiq yangi rasmlar joylanishi bilan faxrlanishi mumkin. 800 millionta Googlening YouTube xizmati foydalanuvchilari oyiga har soniyada bir soatdan ko‘p videolar joylashtiradi. Bizni o‘rab turgan ma’lumotlar haqiqiy hajmining jadalli¬gini, o‘sishini hisoblashni ko‘p odamlar baholashga harakat qilishgan. Har xil narsalarni hisoblashgani uchun, ular har xil muvaffaqqiyatlarga erishishdi. Eng to‘liq tadqiqotni Annenberg nomidagi Janubiy Kaliforniya universiteti qoshidagi kommunikatsiyaga ixtisoslashgan maktabdan Martin Gilbert olib bordi. U hamma ishlab chiqilgan, saqlangan, yuborilgan narsalarni hisoblashga harakat qildi. Bu faqat kitoblar, rasmlar, elektron xatlar, raqamli musiqa va videolar emas, balki video o‘yinlar, qo‘ng‘iroqlar va avtomobil navi¬gatsion tizimlari hamdir. Undan tashqari u ommaviy axborot vositalari, televideniya va radioning auditoriya kattaliklarini ham hisobga olgan. Uning hisoblariga ko‘ra, 2007-yilda qariyb, 2,25 zettabayt ma’lumot yuborilgan va saqlangan. Bu ko‘rsatkich 20 yil avvalgisidan (435 ekzabayt) 5 barobar ko‘proq. Agar ommaviy axborot vositalaridan tashqari saqlanayotgan ma’¬lumotlar ko‘rib chiqilsa, qiziq tendensiyalar paydo bo‘ladi. 2007-yil¬da 300 ekzabayt saqlangan ma’lumotlarning 7% analog formatda (qog‘oz hujjatlar, kitoblar, fotosuratlar), qolganlari esa raqamli formatda bo‘lgan. 2000- yilda bo‘lsa raqamli formatda saqlanadigan ma’lumotlar soni dunyodagi saqlanadigan ma’lumotlarning atiga bir chorak qismini tashkil etar edi. Qolgan 3
chorak ma’lumotlar esa qog‘oz hujjatlarda, plyonkalarda, plastinkalarda, magnit plastinkalarda va boshqa tashuvchilarda bo‘lgan. 2013-yilga kelib, butun dunyoda saqlanayotgan ma’lumotlar 1.2 zettabaytni tashkil etdi va ulardan sonli bo‘lmagan ma’lumotlar atiga 2 foizni tashkil etdi. Dunyoda katta ma’lumotlardan katta hajmdagi ma’lumotlarni tahlil qilish, ba’zi hollarda esa hammasini qayta ishlash mumkin. Hamma ma’lumotlardan foydalangan holda biz aniq natijaga ega bo‘lishimiz mumkin va kichik hajmdagi ma’lumotlar chegaralangandagi kamchiliklarini ko‘rishimiz mumkin. Tanlash yo‘li bilan baholab bo‘lmaydigan katta ma’lumotlar detallarning segmentlarini va toifalari haqida aniq tasavvurga ega bo‘lish mumkin. Katta hajmdagi ma’lumotlarga etibor qilgan holda aniqlikka bo‘lgan qarashlarimizni kamaytirishimiz mumkin. Yaqingacha, barcha sonli qurilmalar aniqlikka asoslangan edi. Bizda barcha elektron jadval ustunlari ma’lumotlar tizimi bazasi sonlari singari bizning talablarga mos ko‘rinishda yozilgan degan tushuncha shakllangan edi. Bunday fikr usuli «kichik ma’lumotlar» ustida qo‘l keladi. Iloji boricha, hamma yozilgan ma’lumotlarni aniqroq hisob¬lash uchun kam ko‘rsatkichlar o‘lchanar edi.
Aniqlik ma’lumotlarning qattiq tekshiruvini talab qiladi. U kichkina hajmdagi ma’lumotlar uchun mos keladi va ba’zi hollarda u juda kerak (masalan, chek yozish uchun bank hisobida yetarli miqdorda pul bor yoki yo‘qligini tekshirish uchun). Lekin ma’lumotlar olamida 100% aniqlilik bo‘lishi mumkin emas va kerak ham emas. Agar biz ma’lumotlarning ko‘p qismi doim o‘zgaradigan ma’lumotlar bilan ishlasak, aniqlilik ikkinchi o‘ringa tushib qoladi. Katta hajmli ma’lumotlar — inson hayoti uchun dunyoni qurshab olish va hisoblashlardagi harakatlar borasidagi katta olg‘a qadamdir. Katta hajmli ma’lumotlar haqida yangicha tushunchalarni shakllantish uchun 3 ta asosiy holatni sanab o‘tsak bo‘ladi, bu holatlar bir-biriga bog‘langan va bir-birini to‘ldirib turadi. 1-barcha ma’lumotlardan qismlab yoki statik tanlanmadan ularni analiz qi¬lish. 2-aniqlikka putur yetkazgan holda betartiblik bilan ishlashga tayyor bo‘lish. 3-fikrlashni o‘zgartirish: qiyin sababiyatdan ko‘ra korrelatsiyalarga ishonish.
Tanlanish tushunchasi minimum materialdan maksimum foydalisini tanlab olish, eng kam berilganlardan katta hajmli tahlil qi¬lishni ko‘zlashdir. Endi esa tanlanish eski tushuncha deb qabul qila¬miz va katta berilgan ma’lumotlar bilan ishlaymiz. Betartiblik — katta ma’lumotlarning ichki tavsifi emas, balki ishimiz bog‘langan obektiv reallikdir. Material obektlar singari, ma’lumotlar bahosining iste’mol qilinishi kichiklashmaydi. Ma’lumotlarni qayta va qayta ishlash mumkin. Ular, iqtisodchilar tili bilan aytganda «taqqoslanmaydigan» tovarlar qatoriga kiradi. Shuningdek, moddiy egaliklardan farqli o‘laroq, ma’lumot ishlatilishdan to‘xtamaydi. Ma’lumotlarning asl bahosi — xuddi okeandagi aysberglardek. Bir qarashda faqat kichik qism ko‘rinadi, ayni paytda qolgan qismi suv tagida yotadi, yani ma’lumotlar qimmatligini faqat yuzaki emas, balki har tomonlama qarash kerak. Katta hajmli ma’lumotlar atrofimiz haqida ancha aniqroq prognozlar bera olishni ta’minlaydi. Biz bunday prog¬nozlarga tayyor bo‘lmasligimiz mumkin. Chunki bizning dunyoqarashimiz va tizim muassasalarimiz bunday ko‘p ma’lumot¬larga emas, balki kam ma’lumotlarga moslashtirilgan.
Katta hajmli ma’lumotlar ularni tahlil qilgan, saqlagan va ularni ikkinchi bor ishlatganlarga yangiliklarni ochib beradi. Chunki saqla-nishlar qiymati ham shu darajada tushib ketadi, tahlil vositalari esa, kuchliroq, o‘lcham va masshtab yig‘indisi kunma-kun, soatma-soat o‘saveradi. Agar Internet xavfsizlik tizimini xavf ostida qoldirgan bo‘lsa, katta ma’lumotlar uchun bu masalani yechish imkoni bormi? Bu ularning qorong‘u tomoni emasmi? Yana shunday bir xavf borki, biz axborot boshqaruvchilar qurbonlari bo‘lishga tavakkal qilayapmiz. Bunda biz ma’lumotlarga va ular to‘g‘risida chiqayotgan tahlillarga sig‘inishni boshlaymiz va oxir-oqibatda, ularni haddan tashqari ko‘p ishlatishni boshlaymiz. Agar ulardan oqilona foydalanilsa, katta ma’lumotlar ratsionanal masalalar yechimi uchun yaxshi vosita hisoblanadi. Agarda ulardan aql bilan foydalanilmasa, u insoniyatning retssesiyasiga hissa qo‘shishi, ya’ni mijozlar va ishchilarga noqulayliklar yaratishi yoki odamlarga ziyon yetkazishi mumkin.
Dunyo katta ma’lumotlar asri tomon suzayotgani uchun, aholi o‘sha
«tektonik» silkinishga yaqin yurmoqda. Katta ma’lumotlar bizning fundamental tasavvurlarimizni, o‘zgartirishga majbur qilmoqda. Ular bizning yashash tarzimizga kirib borayotgani sababli ularning qanday o‘sishini va potensial ziyonini boshqarishni o‘rganishimizga to‘g‘ri kelayapti. Vaholangki, bunga asrlar emas, bir necha yillar qolgan bo‘lishi ham mumkin. Shaxsiy hayot va ma’lumotlar xavfsizligini ta’minlash barchamizning o‘z zimma¬mizda. Bizga o‘z majburiyatlarimiz va huquqlarimizni bilib yurish zimmamizga yuklanadi. Boshqalarning qiziqishlarini nazorat qi¬lish, bulardan ziyon ko‘rmaslik maqsadida qiyin algoritmlarni tu¬zish uchun yangi muassasalar va ekspertlar kerak bo‘ladi. Gap o‘zgarish¬larga ko‘nikishda emas, balki yangi o‘zgartirishlar kiritili¬shidadir. Katta ma’lumotlar aqlbovar qilmaydigan masalalarni yecha oladigan texnologiya deb tushuniladi, lekin yangilari undan ham hayron qoldiradi. Katta ma’lumotlar hayotimizni, ishimizni, fikrla¬shimizni o‘zgartirish imkoniga ega.
Download 23.07 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling